ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Anh Tuấn
KỸ THUẬT MÃ HÓA VIDEO PHÂN TÁN DVC VÀ ỨNG
DỤNG KỸ THUẬT DVC TRONG MẠNG CẢM BIẾN HÌNH
ẢNH KHÔNG DÂY
LUẬN VĂN THẠC SỸ
NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ - VIỄN THÔNG
Chuyên ngành: Kỹ thuật viễn thông
HÀ NỘI, 2019
LỜI CAM ĐOAN
Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là trung thực
và chƣa hề đƣợc sử dụng để bảo vệ học vị nào. Mọi sự giúp đỡ trong luận văn này đã
đƣợc cảm ơn và các thông tin trích dẫn trong luận văn đã đƣợc chỉ rõ nguồn gốc rõ
ràng và đƣợc phép công bố.
Hà Nội, ngày … tháng … năm 2019
Ngƣời thực hiện
Nguyễn Anh Tuấn
1
TÁN DVC ................................................................................................................................ 12
1.1. Giới thiệu chung ............................................................................................................ 12
1.2. Mã hóa video dự đoán chuẩn HEVC ............................................................................. 13
1.2.1. Sơ đồ cấu trúc ......................................................................................................... 13
1.2.2. Mã hóa trong khung (Intra coding) ........................................................................ 16
1.2.3. Mã hóa liên khung (Inter coding) ........................................................................... 17
1.2.4. Phép biến đổi cosin rời rạc (DCT) và phép lƣợng tử ............................................. 17
1.2.5. Mã hóa entropy ....................................................................................................... 18
1.2.6. Bộ lọc khối và bù thích ứng mẫu SAO ................................................................... 20
1.3. Mã hóa video phân tán (DVC – Distributed Video Coding) ......................................... 20
1.3.1. Định lý Slepian-Wolf và định lý Wyner-Ziv .......................................................... 20
1.3.2. Kiến trúc mã hóa video phân tán DISCOVER ....................................................... 22
1.4. Kết luận chƣơng ............................................................................................................ 23
CHƢƠNG II. XÂY DỰNG MÔ HÌNH MÃ HÓA VIDEO TIÊN TIẾN THẾ HỆ MỚI TRÊN
NỀN CHUẨN H.265/HEVC .................................................................................................... 25
2.1. Kiến trúc mã hóa video phân tán với bộ mã hóa H.265/HEVC .................................... 25
2.2. Tạo thông tin phụ ........................................................................................................... 27
2.3. Ứng dụng DVC trong mạng cảm biến hình ảnh không dây .......................................... 33
2.4. Kết luận chƣơng ............................................................................................................ 34
CHƢƠNG III. MÔ PHỎNG VÀ ĐÁNH GIÁ ......................................................................... 36
3.1. Điều kiện đánh giá ......................................................................................................... 36
3.2. Đánh giá chất lƣợng key frames .................................................................................... 39
3.3. Đánh giá hiệu năng mã hóa mô hình DVC-HEVC ....................................................... 43
3.4. Kết luận chƣơng ............................................................................................................ 45
KẾT LUẬN .............................................................................................................................. 46
TÀI LIỆU THAM KHẢO ........................................................................................................ 47
3
CÁC THUẬT NGỮ VIẾT TẮT
Hocquenghem
Content Adaptive Binary
Mã hóa số học nhị phân
Arithmetic Coding
thích ứng ngữ cảnh
Coding Block
Khối mã hóa
Correlated Noise
Modeling
Mô hình nhiễu tƣơng quan
CTB
Coding Tree Block
Khối cây mã hóa
CTU
Coding Tree Unit
Dải động cao
HEVC
H
Nghĩa tiếng Anh
High Efficiency Video
Coding
HFR
High frame rate
HVC
Hybrid Video Coding
Mã hóa video hiệu quả cao
Tốc độ khung hình cao
Khung mã hóa video kết
hợp
Inverse Discrete Cosine
Biến đổi cosin rời rạc
Transform
ngƣợc
Mã kiểm tra chẵn lẻ mật độ
thấp
Bù chuyển động
MCTI
ME
MPEG
P
Q
S
T
Motion Compensation
Nội suy tạm thời bù chuyển
Temporal
động
Motion Estimation
Ƣớc lƣợng chuyển động
Moving Picture Experts
Quantization Matrix
Ma trận lƣợng tử
SAO
Sample Adaptive Offset
Bù thích ứng mẫu
SI
Side Information
Thông tin phụ trợ
TB
Transform Block
Khối biến đổi
TDWZ
Transform Domain
Wyner-Ziv
phƣơng lỗi
Gam màu rộng
5
DANH MỤC BẢNG
Bảng 1.1: Giá trị lƣợng tử và xác suất tƣơng ứng .................................................................... 19
Bảng 1.2: Mã Huffman và số lƣợng bit cần mã hóa tƣơng ứng ............................................... 19
Bảng 2.1: Các mức tiêu thụ năng lƣợng trong mã hóa dự đoán và phân tán............................ 34
Bảng 3.1: Bảng mô tả tóm tắt các thông số sử dụng đánh giá.................................................. 37
Bảng 3.2: Giá trị lƣợng tử cho khung chính tại GOP=2, QCIF 15Hz ...................................... 38
6
DANH MỤC SƠ ĐỒ, HÌNH VẼ
Mã hóa video truyền thống và mã hóa video phân tán ............................................................... 9
Hình 1.1: Sơ đồ cấu trúc mã hóa video theo chuẩn HEVC ...................................................... 13
Hình 1.2: Kỹ thuật phân vùng trong HEVC ............................................................................. 15
Hình 1.3: Các chế độ và các hƣớng cho dự đoán hình trong khung [8] ................................... 17
Hình 1.4: Giá trị điểm ảnh trong miền pixel và miền DCT tƣơng ứng .................................... 18
Hình 1.5: Mô hình phép lƣợng tử tuyến tính ............................................................................ 18
Hình 1.6: Cây mã huffman ....................................................................................................... 19
Hình 1.7: Biểu đồ vùng tỷ lệ tốc độ mã giữ hai nguồn X,Y ..................................................... 22
Hình 1.8. Kiến trúc mã hóa video phân tán DVC DISCOVER[2] ........................................... 23
Hình 2.1: Cấu trúc mã hóa DVC-HEVC .................................................................................. 25
Hình 2.2: Quá trình nội suy khung ........................................................................................... 28
Hình 2.3: Lựa chọn vectơ chuyển động.................................................................................... 30
Hình 2.4: Ƣớc lƣợng chuyển động hai chiều............................................................................ 30
Hình 2.5: Quá trình nội suy khung kết hợp ƣớc lƣợng chuyển động trƣớc và sau................... 32
definition - UHD), dải động cao (high dynamic range - HDR), gam màu rộng (Wide
color gamut - WCG), tốc độ khung hình cao (High frame rate - HFR) và các dịch vụ
video trong tƣơng lai sẽ gia tăng đáng kể thách thức. Do đó, nhu cầu về các công nghệ
mã hóa (nén) video hiệu quả luôn luôn cấp bách.
Kể từ khi khái niệm mã hóa kết hợp đƣợc đề xuất bởi Habibi [1] vào năm 1974
và khung mã hóa không gian-thời gian kết hợp của Forchheimer vào năm 1981, khung
mã hóa video kết hợp (Hybrid Video Coding - HVC) đã đƣợc áp dụng rộng rãi vào các
chuẩn mã hóa hình ảnh/video phổ biến nhất hiện có nhƣ JPEG, H.261, MPEG2,
H.264/AVC và H.265/HEVC, v.v ... Hiệu suất mã hóa video đƣợc cải thiện khoảng
50% cứ sau 10 năm cùng với đó là sự tăng lên độ phức tạp tính toán và bộ nhớ. Và
hiện tại đã gặp phải những thách thức lớn để cải thiện đáng kể hiệu quả mã hóa nhằm
đáp ứng yêu cầu kỹ thuật của các ứng dụng phƣơng tiện thông minh và công nghệ hiện
đại nhƣ nhận diện khuôn mặt/cơ thể, theo dõi đối tƣợng, truy xuất hình ảnh, v.v.
Với sự tăng lên nhanh chóng của các thiết bị video, từ máy quay cầm tay đến
mạng cảm biến video công suất thấp và điện thoại di động đƣợc trang bị đa phƣơng
tiện, mã hóa độ phức tạp thấp trở nên quan trọng để đáp ứng với công suất và mức tiêu
hao năng lƣợng của các thiết bị di động. Để đáp ứng những nhu cầu này cho truyền
thông video, mã hóa video phân tán (Distributed Video Coding – DVC) [2], một mô
hình mã hóa video đƣợc phát triển dựa trên lý thuyết Slepian-Wolf và Wyner-Ziv [3].
DVC có thể đƣợc phát triển theo một trong hai cách tiếp cận chính. Cách tiếp
cận đầu tiên, đề xuất bởi nhóm nghiên cứu ở trƣờng Đại học Stanford [4], theo hƣớng
mã hóa toàn khung hình. Mỗi video đầu vào đƣợc chia tách tách thành hai loại, khung
hình chính (Key frame) và khung hình Wyner-Ziv (WZ frame). Trong khi các khung
chính đƣợc mã hóa bới các bộ mã hóa chuẩn với cấu hình phức tạp thấp (H.263 Intra
hoặc H.264/AVC Intra), các khung WZ đƣợc mã hóa sử dụng các bộ mã hóa kênh nhƣ
8
mã turbo hoặc mã LDPC [5], kết hợp với ƣớc lƣợng giá trị của khung hình tại phía thu.
Cách tiếp cận thứ hai là theo phƣơng pháp mã hóa khối – PRISM [6], trong đó cùng
Độ phức tạp phía
giải mã cao
Mã hóa
Giải mã
W
W
Y
Y
a. Mã hóa video truyền thống
b. Mã hóa video phân tán
Mã hóa video truyền thống và mã hóa video phân tán
Sự ra đời gần đây của chuẩn mã hóa H.265/HEVC [7], với khoảng 50% lƣợng
bit yêu cầu thấp hơn so với chuẩn H.264/AVC [8] đã tạo động lực để tiếp tục các
nghiên cứu cải tiến cho mô hình mã hóa phân tán DVC. Trên cơ sở đó, luận văn này
tập trung nghiên cứu và xây dựng một mô hình mã hóa video phân tán thế hệ mới, trên
nền tảng chuẩn H.265/HEVC và mô hình tạo thông tin phụ mới.
9
-
Nghiên cứu và đƣa ra cải tiến tạo thông tin phụ.
-
Phân tích và đánh giá.
5. Cấu trúc luận văn
Nội dung chính của luận văn đƣợc trình bày qua 5 chƣơng:
Chương 1: Tổng quan về mã hóa video dự đoán HEVC và mã hóa phân tán DVC
Chƣơng này giới thiệu về bối cảnh của nghiên cứu mã hóa video và cấu trúc tổng
quan mã hóa video.
10
Chương 2: Xây dựng mô hình mã hóa video tiên tiến thế hệ mới trên nền chuẩn
H.265/HEVC
Chƣơng này trình bày về kiến trúc tổng quan mã hóa video phân tán sử dụng
HEVC cho mã hóa intra và sau đó đƣa ra mô hình tạo thông tin phụ mới, ứng dụng của
mã hóa DVC trong việc giúp cải thiện năng lƣợng tiêu thụ của các cảm biến.
Chương 3: Mô phỏng và đánh giá
Chƣơng này sẽ đƣa ra các kịch bản mô phỏng và đánh giá tính hiệu quả của mô
hình mã hóa video phân tán thế hệ mới, DVC-HEVC.
Kết luận
Kết luận sẽ tổng quát lại những kết quả lý thuyết và mô phỏng từ chƣơng 1,2,3 và
đƣa ra những nhận xét.
11
12
hơn cho băng thông internet và thiết bị lƣu trữ. Ƣu điểm vƣợt trội này cũng sẽ là cú
hích cho thị trƣờng thiết bị nghe nhìn 4K/UHD.
Trong tƣơng lai, với các đoạn video trên youtube, facebook... chúng ta có thể
xem với hình ảnh cực nét mà không cần phải chờ đợi để tải về nữa.
Vào ngày 29/2/2012, tại triển lãm Mobile World Congress, hãng Qualcomm đã
trình chiếu hiệu năng của bộ nén mới trên tablet khi mà chuẩn nén mới đã cho chất
lƣợng hiện thị tƣơng đƣơng với dung lƣợng gần nhƣ giảm một nửa.
1.2. Mã hóa video dự đoán chuẩn HEVC
1.2.1. Sơ đồ cấu trúc
Hình 1.1 mô tả sơ đồ kiến trúc mã hóa video theo chuẩn HEVC [7].
Bộ điều khiển
chung
Đầu vào là 1
video
-
Bộ điều khiển
dữ liệu chung
Biến đổi
Tỷ lệ
Lƣợng tử
Tỷ lệ và biến
đổi ngƣợc
Điều khiển
lọc dữ liệu
Luồng dữ
liệu nhị
phân đƣợc
mã hóa
Dữ liệu
chuyển động
Đầu ra cho
video
Hình ảnh đƣợc
giải mã và lƣu
trong bộ đệm
Hình 1.1: Sơ đồ cấu trúc mã hóa video theo chuẩn HEVC
Trong HEVC, mỗi ảnh đầu vào đƣợc chia thành các khối ảnh, sau đó đƣợc mã
hóa và đƣợc truyền tải đến các bộ giải mã. Ảnh đầu tiên của một chuỗi video đƣợc mã
hoá chỉ sử dụng dự đoán trong khung. Đối với các ảnh còn lại của chuỗi sử dụng các
chế độ mã hóa dự đoán liên khung theo thời gian. Quá trình mã hóa cho dự đoán liên
13
khung sẽ lựa chọn dữ liệu chuyển động bao gồm các ảnh tham chiếu và vector chuyển
động (MV) dùng để dự đoán các mẫu của mỗi khối ảnh. Các bộ mã hóa và giải mã tạo
Đơn vị dự đoán (PU) và khối dự đoán (PB)
Quyết định việc mã hóa một vùng ảnh sử dụng dự đoán liên khung hoặc dự
đoán trong khung đƣợc thực hiện ở mức CU. Cấu trúc phân chia PU có gốc ở mức CU.
Tùy thuộc vào kiểu dự đoán mà các CB chói và màu sau đó có thể đƣợc phân chia
thành các khối dự đoán (PB): chói và màu. Mỗi một PB sẽ chứa một vector chuyển
động.
Đơn vị biến đổi (TU) và khối biến đổi (TB)
Dƣ thừa dự đoán đƣợc mã hóa sử dụng các biến đổi khối. Cấu trúc cây TU có
gốc ở mức CU. Dƣ thừa CB chói có thể giống với khối biến đổi (TB) chói hoặc tiếp
tục chia thành các TB chói nhỏ hơn. Điều tƣơng tự áp dụng cho các TB màu. Hàm số
nguyên tƣơng tự nhƣ hàm biến đổi cosin rời rạc (DCT) đƣợc xác định cho các TB có
kích thƣớc 4x4, 8x8, 16x16, và 32x32.
PU
Block
CU
CU
CU
CU
TU
TU
CU
CU
TU
Một CB dự đoán trong khung có kích thƣớc MxM có thể có một trong hai loại
phân chia PB gọi là PART_2Nx2N và PART_NxN, loại đầu tiên chỉ ra rằng các CB
không phân chia và loại thứ hai chỉ ra rằng CB đƣợc chia thành bốn PB kích thƣớc
bằng nhau. (N = M / 2). Tuy nhiên, nó có khả năng biểu diễn các vùng tƣơng tự mà có
thể đƣợc xác định bởi bốn PB bằng cách sử dụng bốn CB nhỏ hơn khi kích thƣớc của
các CB hiện tại lớn hơn so với kích thƣớc CU tối thiểu. Vì vậy, HEVC chỉ cho phép
kiểu phân chia PART_NxN đƣợc sử dụng khi kích thƣớc CB hiện tại bằng với kích
thƣớc CU tối thiểu. Điều này có nghĩa rằng kích thƣớc PB luôn bằng với kích thƣớc
CB khi CB đƣợc mã hóa bằng chế độ dự đoán trong khung và kích thƣớc CB là không
bằng với kích thƣớc CU tối thiểu. Dù chế độ dự đoán trong khung ở mức PB, nhƣng
các quá trình dự đoán thực tại lại hoạt động riêng biệt cho từng TB.
16
Hình 1.3: Các chế độ và các hướng cho dự đoán hình trong khung [8]
1.2.3. Mã hóa liên khung (Inter coding)
Dự đoán ảnh liên khung trong chuẩn H.265/HEVC cũng cho phép hỗ trợ dự
đoán vectơ chuyển động với độ chính xác lên tới ¼ điểm ảnh (sub-pel). Các giá trị tại
vị trí sub-pel đƣợc nội suy dựa trên hai bô lọc với 7 hoặc 8 tham số cấu hình. Các khối
hình sử dụng trong dự đoán ảnh liên khung cũng đa dạng, có thể đối xứng hoặc không
đối xứng, ví dụ: 2N×2N, 2N×N, N×2N, N×N, 2N×nD, nL×2N.
1.2.4. Phép biến đổi cosin rời rạc (DCT) và phép lƣợng tử
Phần dƣ từ khung gốc trừ đi cho khung dự đoán sau đó đƣợc đƣa qua bộ chuyển
đổi sang một miền khác, thƣờng đƣợc chuyển đổi sang miền tần số sử dụng phƣơng
pháp biến dổi Cosin rời rạc, mục đích của việc chuyển đổi này là để tách biệt các thành
phần tần số thấp và loại bỏ đƣợc thông tin ở thành phần tần số cao, vì vậy thông tin mã
hóa sẽ đƣợc giảm bớt, việc loại bỏ thông tin tại các thành phần tần số cao thƣờng ít
ảnh hƣởng tới cảm nhận của mắt ngƣời về chất lƣợng hình ảnh.
-1
0
1
2
Xác suất p
0.1
0.2
0.4
0.2
0.1
Log2(1/p)
3.32
2.32
1.32
2.32
3.32
1
0
0.6
0
1
1
0.4
0
Từ cây mã Huffman, ta có thể dễ dàng xác định đƣợc các từ mã tƣơng ứng với
từng ký hiệu theo nhƣ bảng sau:
Bảng 1.2: Mã Huffman và số lượng bit cần mã hóa tương ứng
Vectơ
1
-1
2
-2
0
Mã
000
001
010
011
1
Số bit (thực tế)
3
3
3
3
1
19
Số bit (lý tƣởng)
2.32
2.32
Gọi tốc độ mã hóa là
,
là entropy của nguồn
.
là
tốc độ mã hóa tối thiểu để khôi phục chính xác nguồn X tại bộ giải mã. Với hai nguồn
20
độc lập
và . Tốc độ mã hóa tối thiểu cho từng nguồn để giải mã không lỗi chính là
entropy của từng nguồn
và
.
Với hai nguồn thống kê phụ thuộc thì tính chất của Entropy đồng thời:
(1)
Tính chất của entropy có điều kiện:
|
-
|
So sánh với bộ mã hóa độc lập: bộ mã hóa độc lập bỏ qua sự tƣơng quan nguồn
sẽ cần tốc độ tối thiểu nhƣ điều kiện (3). Tuy nhiên, với mã Slepian-Wolf, bộ mã hóa
khai thác đƣợc sự tƣơng quan giữa các nguồn, do vậy tốc độ mã hóa đạt đƣợc tƣơng
đƣơng với mã hóa liên kết
.
Định lý Wyner-Ziv
Định lý Wyner-Ziv là sự mở rộng của định lý Slepian-Wolf với mã hóa có mất
mát. Theo giả thuyết của định lý Wyner-Ziv, phía giải mã sẽ tập trung vào việc tái tạo
và
sẽ là thông tin phụ về
và có sẵn phía giải mã. Hệ thống nhƣ vậy đƣợc xây
dựng với xác suất lỗi nhỏ tùy ý trong việc tái tạo
21
. Nếu
đƣợc truyền với tốc độ ,
theo nhƣ biểu đồ Slepian-Wolf, tốc độ mã hóa X có thể đạt đƣợc về mặt
|
Hình 1.8. Kiến trúc mã hóa video phân tán DVC DISCOVER[2]
Trong bộ mã hóa DVC DISCOVER, chuỗi video đƣợc chia thành hai chuỗi
chính: các khung WZ và các khung chính. Trong khi các khung chính đƣợc mã hóa
với chuẩn H.264/AVC, cấu hình Intra coding, thì các khung WZ đƣợc mã hóa theo
phƣơng pháp mã hóa kênh, đề xuất bởi trƣởng Đại học Stanford [4].
Mặc dù bộ mã hóa DISCOVER cung cấp hiệu năng mã hóa cao, các nghiên cứu
gần đây với sự ra đời của chuẩn HEVC đã cho thấy cần phải có các cải tiến hơn nữa
mô hình mã hóa video phân tán. Đặc biệt là sự kế thừa các kết quả nghiên cứu của
chuẩn HEVC. Trên cơ sở đó, chƣơng 2 của luận văn sẽ mô tả một mô hình mã hóa
video phân tán thế hệ mới, phát triển trên nền tảng chuẩn HEVC, với một số cải tiến
nhỏ tại khối tạo thông tin phụ.
1.4. Kết luận chƣơng
Chƣơng I đã giới thiệu và đề cập nhu cầu của mã hóa video ngày càng cao trong
bối cảnh độ phân giải Full HD 1080p đã ngày một nhiều hơn. Nhu cầu đó càng thể
hiện mạnh mẽ hơn khi gần đây xuất hiện các TV với công nghệ hình ảnh 4K với độ
phân giải siêu cao. Các thiết bị lƣu trữ và đƣờng truyền internet phải chịu nhiều áp lực
hơn để đáp ứng đƣợc các chuẩn phân giải mới. Trong bối cảnh đó, chuẩn mã hóa video
HEVC đƣợc ra đời để đáp ứng yêu cầu.
Sơ đồ bộ mã hóa HEVC đƣợc mô tả trong chƣơng này và các kỹ thuật cơ bản
của mã hóa video cơ bản bao gồm mã hóa trong khung, mã hóa liên khung, phép biến
23
đổi cosin rời rạc, mã hóa entropy, bộ lọc khối và bù thích ứng. Đối với các chuẩn mã
hóa trƣớc đó, khung ảnh đƣợc chia thành các đơn vị mã hóa là các macroblock, bao
gồm một khối 16x16 các mẫu thành phần chói và các khối 8x8 các mẫu thành phần
màu; trong khi đó các cấu trúc tƣơng tự trong HEVC là đơn vị cây mã hóa (CTU). Cụ
thể, ảnh đƣợc chia thành các CTU, mỗi CTU bao gồm các CTB chói và các CTB màu.