CÁC CÔNG NGHỆ NÉN TÍN HIỆU VIDEO TRONG TRUYỀN HÌNH SỐ - Pdf 74

CÁC CÔNG NGHỆ NÉN TÍN HIỆU VIDEO TRONG TRUYỀN HÌNH SỐ
Nén nhằm giảm tốc độ bit của các dòng dữ liệu tốc độ cao mà vẫn đảm bảo
chất lượng hình ảnh hoặc âm thanh cần truyền tải. Tín hiệu Video sau khi được số
hoá (8 bit) có tốc độ bằng 216 Mb/s. Để có thể truyền trong một kênh truyền hình
thông thường, thì tín hiệu video số cần phải được nén trong khi vẫn đảm bảo được
chất lượng hình ảnh. Chương 2 nêu các nội dung này nhằm xây dựng nội dung lý
luận cho các giải pháp sẽ đưa ra trong chương tiếp theo (chương 3) về ứng dụng
công nghệ nén trong sản xuất chương trình truyền hình.
2.1. Tổng quan về kỹ thuật nén Video số
2.1.1. Khái niệm chung
2.1.1.1. Mục đích của nén Video số
Nén video có hai lợi ích quan trọng thấy rõ:
Thứ nhất: nén video giúp chúng ta có thể sử dụng nguồn video số đã được
mã hoá để truyền đi hay lưu trữ một cách có hiệu quả ngay cả trên những môi
trường truyền dẫn không hỗ trợ những file video chưa được nén lúc đầu. Ví dụ,
một đĩa DVD sẽ chỉ có thể chứa được vài giây một đoạn video nguyên bản không
qua nén ở độ phân giải và tốc độ khung hình tương đương với chất lượng tương
ứng trên tivi truyền hình sẽ không thể sử dụng như lý giải ở trên.
Thứ hai: quá trình nén video cho phép việc sử dụng những nguồn video đã
qua nén cho quá trình lưu trữ hay truyền đi một cách có hiệu quả. Ví dụ, với một
kênh truyền dẫn tốc độ cao, việc lựa chọn và truyền đi một video nén với độ phân
giải cao thậm chí cả những luồng video nén là hợp lý hơn nhiều so với việc sẽ
truyền đi một video đơn lẻ với độ phân giải thấp hay từng luồng video chưa qua
nén.
2.1.1.2. Bản chất của nén
Khác với nguồn dữ liệu một chiều nh− nguồn âm, đặc tuyến đa chiều của
nguồn hình ảnh cho thấy: nguồn ảnh chứa nhiều sự d− thừa hơn các nguồn thông
tin khác. Đó lμ:
 Sự d− thừa về mặt không gian (spatial redundancy):
Các điểm ảnh kề nhau trong một mμnh có nội dung gần giống nhau.
 Sự d− thừa về mặt thời gian (temporal redundancy):

 M∙ hoá:
Các dạng mã hoá đ−ợc lựa chọn sao cho có thể tận dụng đ−ợc xác suất xuất
hiện của mẫu. Thông th−ờng sử dụng mã RLC (run length coding: mã hoá loạt dμi)
vμ mã VLC (variable length coding): gắn cho mẫu có xác suất xuất hiện cao từ mã
có độ dμi ngắn sao cho chứa đựng một khối l−ợng thông tin nhiều nhất với số bit
truyền tải ít nhất mμ vẫn đảm bảo chất l−ợng yêu cầu.
2.1.1.3. Phân loại nén
Các thuật toán nén có thể phân lμm hai loại: Nén không tổn thất (lossless
compression) vμ nén có tổn thất (lossy compression).
 Thuật toán nén không tổn thất không lμm suy giảm, tổn hao dữ liệu. Do vậy,
ảnh khôi phục hoμn toμn chính xác với ảnh nguồn.
 Các thuật toán nén có tổn thất chấp nhận loại bỏ một số thông tin không
quan trọng nh− các thông tin không quá nhạy cảm với cảm nhận của con
ng−ời để đạt đ−ợc hiệu suất nén cao hơn, Do vậy, ảnh khôi phục chỉ rất gần chứ
không phải lμ ảnh nguyên thủy.
Đối với nén có tổn thất, chất l−ợng ảnh lμ một yếu tố vô cùng quan trọng,
Tuỳ theo yêu cầu ứng dụng mμ các mức độ loại bỏ khác nhau đ−ợc sử dụng, cho
mức độ chất l−ợng theo yêu cầu.
2.1.2. Một số dạng mã hoá sử dụng trong các công nghệ nén.
Các dạng mã hoá sử dụng trong công nghệ nén đều tận dụng đ−ợc xác suất
xuất hiện mẫu nhằm đạt đ−ợc độ dμi mã trung bình (số bit trung bình cần để mã
hoá một mẫu) lμ nhỏ nhất. Tuy nhiên, độ dμi nμy có một giới hạn d−ới mμ không
một ph−ơng pháp mã hoá nμo có thể cung cấp độ dμi từ mã trung bình nhỏ hơn.
Đó lμ “ entropy” của nguồn tín hiệu.
2.1.2.1. Khái niệm entropy của nguồn tín hiệu
Khái niệm ”entropy” của nguồn tín hiệu đ−ợc sử dụng để đo l−ợng thông tin
một nguồn tin chứa đựng.
Một nguồn tin có N mẫu {s
1
,s

0,2)
= 0,7219 bit
“Entropy” của nguồn tin quy định giới hạn d−ới tốc độ bit tại đầu ra bộ mã
hoá. Ph−ơng pháp mã hoá nμo có độ dμi mã trung bình (số bit trung bình cần để
mã hoá một mẫu) cμng gần giá trị H thì ph−ơng pháp mã hoá đó cμng hiệu quả.
2.1.2.2. Mã hoá với độ dμi chạy RLC (run length coding). [3]
Phương pháp nén RLC này dựa trên cơ sở là sự liên tiếp lặp đi lặp lại các
điểm ảnh trong ảnh số, xuất hiện là do sự tương quan giữa các điểm ảnh, đặc biệt là
với các ảnh 2 mức (bi – level images). RLC tách các giá trị giống nhau và biểu
diễn như là một tổng, kỹ thuật này chỉ áp dụng cho các chuỗi symbols tuyến tính.
Có hai cách mã hoá RLC:
1- Tạo ra những từ mã cho mỗi độ dài chạy (động) và kết hợp với symbol
nguồn.
2- Sử dụng một số độ dài chạy và một symbol nguồn nếu như symbol nguồn
không phải là một số hay một ký đặc biệt để chỉ ra cho mỗi symbol nguồn.
Kỹ thuật RLC được dùng cho các hệ số lượng tử hoá tốt hơn là dùng trực
tiếp cho số liệu ảnh.
Một dạng cải tiến của mãc RLC là mã có độ dài thay đổi VLC (Variable
Length Code) dùng để biểu diễn các độ dài chạy cũng như các giá trị symbol. Cách
thực hiện là tính phân bố xác xuất của độ dài chạy và các giá trị symbol. Đây là sự
kết hợp của mã hoá RLC với mã hoá thống kê.
2.1.2.3. Mã hoá với độ dμi thay đổi VLC (variable length coding) (mã
Huffman)
Trong các công nghệ nén, mã Huffman lμ dạng mã đ−ợc sử dụng phổ biến
nhất. Bảng mã Huffman có thể cho độ dμi mã trung bình để mã hoá cho một mẫu
lμ nhỏ nhất do tận dụng xác suất xuất suất hiện của các mẫu trong nguồn tín hiệu.
Trong đó, mẫu có xác suất xuất hiện cao nhất sẽ đ−ợc gắn với một từ mã có
độ dμi ngắn nhất. Mặc dù có độ dμi mã thay đổi song mã Huffman vẫn có khả
năng giải mã đúng do có thuộc tính tiền tố duy nhất (không có bất cứ từ mã nμo lại
lμ phần đầu của từ mã tiếp theo).

1.0
1
0.4
0
0
0.13
1
1
0.18
0
0
0
0
0
1
1
P(s
2
)=0.21
P(s
3
)=0.3
P(s
4
)=0.05
P(s
5
)=0.05
P(s
6

tiếp nguồn tin nμy theo PCM, tốc độ dòng bit thu đ−ợc sẽ rất cao. Mặt khác, nguồn
ảnh lại chứa đựng sự d− thừa vμ tính “có nhớ”: giữa các điểm ảnh lân cận có mối
quan hệ t−ơng hỗ với nhau.
Mã hoá dự đoán đ−ợc xây dựng dựa trên nguyên tắc cơ bản nh− sau:
♦ Lợi dụng mối quan hệ t−ơng hỗ nμy, từ giá trị các điểm ảnh lân cận, theo
một nguyên tắc nμo đó có thể tạo nên một giá trị gần giống điểm ảnh hiện hμnh.
Giá trị nμy đ−ợc gọi lμ giá trị “dự báo”.
♦ Loại bỏ đi tính “có nhớ” của nguồn tín hiệu bằng một bộ lọc đặc biệt có
đáp ứng đầu ra lμ hiệu giữa tín hiệu vμo s(n) vμ giá trị dự báo của nó.
♦ Thay vì l−ợng tử hoá trực tiếp các mẫu điểm ảnh, mã hoá dự đoán l−ợng
tử vμ mã hoá các “sai số dự báo” tại đầu ra bộ lọc. “Sai số dự báo”lμ sự chênh lệch
giữa giá trị dự báo vμ giá trị thực của mẫu hiện hμnh. Do nguồn “sai số dự
báo”(error prediction source) lμ nguồn không có nhớ vμ chứa đựng l−ợng thông tin
thấp, nên số bit cần để mã hoá sẽ giảm đi rất nhiều.
Ph−ơng pháp tạo điểm ảnh dựa trên tổng giá trị của điểm dự đoán vμ sai số dự báo
gọi lμ “điều chế xung mã vi sai (DPCM)”.
Hình 2.2: Sơ đồ khối bộ mã hoá DPCM
Σ
Bộ dự đoán
Mã hoá
entropy
Bộ lượng tử hoá
Σ
Tín hiệu video số
V +
e
+
Kênh
V
’

hoàn thiện thêm kỹ thuật nén này.
2.1.2.5. Mã hoá chuyển đổi (Transform coding)
Đối với việc mã hoá riêng rẽ từng điểm một sẽ không đạt được hiệu quả bởi
ta không tận dụng được hết mối quan hệ giữa các khối điểm trong ảnh số. Phương
pháp mã chuyển vị là một phương pháp có hiệu quả trong việc mã hoá khối điểm
thông qua biến đổi tuyến tính các điểm này thành các hệ số chuyển vị và mã hoá
các hệ số chuyển vị đó. Phương pháp này tập trung vào một số các hệ số chuyển vị
mà không phải là các điểm ảnh của ảnh gốc và lượng thông tin chỉ trong một số ít
hệ số chuyển vị. Như vậy, số bit dùng cho quá trình mã hoá sẽ ít đi.
Hơn nữa, do hệ thống thị giác của con người không thể nhận biết hoàn toàn
các chi tiết của ảnh khi những chi tiết đó biến đổi nhanh so với các biến đổi chậm,
bởi vậy để mã hoá các hệ số chuyển vị ở tần số cao, ta chỉ cần một số ít bit mà chất
lượng hình ảnh vẫn tốt.
2.2. Các chuẩn nén video
Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/Uỷ ban kỹ
thuật điện tử quốc tế (ISO/IEC) là hai tổ chức phát triển các tiêu chuẩn mã hoá
Video. Theo ITU-T, các tiêu chuẩn mã hoá video được coi là các khuyến nghị gọi
tắt là chuẩn H.26x (H.261, H.262, H.263, H.264). Với tiêu chuẩn ISO/IEC, chúng
được gọi là MPEG-x (như MPEG-1, MPEG-2 và MPEG-4). Những khuyến nghị của
ITU được thiết kế dành cho các ứng dụng truyền thông video thời gian thực như video
Conferencing hay điện thoại truyền hình. Mặt khác, những tiêu chuẩn MPEG được
thiết kế hướng tới mục tiêu lưu trữ Video chẳng hạn như trên đĩa quang DVD, quảng
bá video số trên mạng cáp, đường truyền số DSL, truyền hình vệ tinh hay những ứng
dụng truyền dòng video trên mạng Internet hoặc thông qua mạng không dây. Với đối
tượng để truyền dẫn video là mạng Internet thì ứng cử viên hàng đầu là chuẩn nén
MPEG-4 AVC, còn được gọi là H.264, MPEG-4 part 10, H.26L hoặc JVT.
2.3. Nén Video theo tiêu chuẩn MPEG
Nhóm các chuyên gia về ảnh động (Motion Pictures Expert Group-MPEG)
làm việc cho tổ chức tiêu chuẩn quốc tế ISO (ISO/IEC) có nhiệm vụ nghiên cứu và
phát triển các tiêu chuẩn nén, giải nén tín hiệu video, audio. Hiện nay các chuẩn

phép xem truyền hình trực tuyến Online với chất lượng khá tốt tại các tốc độ bit ≤
500kbps.
MPEG-7: Là một chuẩn dùng để mô tả các nội dung multimedia, chứ không
phải là một chuẩn cho nén và mã hoá audio/ảnh động như MPEG-1,MPEG-2 hay
MPEG-4. MPEG-7 sử dụng ngôn ngữ đánh dấu mở rộng XML để lưu trữ các siêu
dữ liệu Metadata, đính kèm timecode để gắn thẻ cho các sự kiện hay đồng bộ các
dữ liệu. MPEG-7 bao gồm 03 bộ chuẩn sau:
- Bộ các sơ đồ đặc tả (description schemes) và các đặc tả (descriptors);
- Ngôn ngữ xác định DDL (Description Definition Languae) để định nghĩa
các sơ đồ đặc tả;
- Sơ đồ mã hoá quá trình đặc tả;
2.3.1. Nén Video theo MPEG-1
Tiêu chuẩn MPEG-1 gồm 4 phần:
Phần 1: Hệ thống (ISO/IEC 11172-1)
Phần 2: Nén video (ISO/IEC 11172-2)
Phần 3: Nén Audio (ISO/IEC 11172-3)
Phần 4: Kiểm tra (ISO/IEC 11172- 4)
MPEG-1 nghiên cứu cách thức ghép nối một hoặc vμi dòng dữ liệu chứa thông
tin thời gian để hình thμnh nên một dòng dữ liệu. Nó cung cấp qui tắc cú pháp đồng
bộ hoá quá trình phát lại cho một dải ứng dụng Video rộng.
MPEG-1 coi ảnh chuyển động nh− dạng thức dữ liệu máy tính (gồm các
điểm ảnh). Cũng nh− các dữ liệu máy tính (ảnh vμ văn bản), ảnh video chuyển
động có khả năng truyền vμ nhận bằng máy tính vμ mạng truyền thông. Chúng
cũng có thể đ−ợc l−u trữ trong các thiết bị l−u trữ dữ liệu số nh− đĩa CD, đĩa
Winchester vμ ổ quang.
MPEG-1 cung cấp cả các ứng dụng đối xứng vμ không đối xứng:
 Trong ứng dụng không đối xứng, ảnh động đ−ợc nén một lần, sau đó giải nén
nhiều lần để truy cập thông tin, ví dụ trò chơi games.
 Trong ứng dụng đối xứng, quá trình nén vμ giải nén phải cân bằng
nhau. VD: điện thoại hình, th− điện tử.

 Macro Block: Lμ nhóm các khối DCT t−ơng ứng với thông tin của một cửa sổ
16x16 điểm ảnh gốc. Có nhiều dạng Macro Block khác nhau phụ thuộc vμo
cấu trúc lấy mẫu đ−ợc sử dụng.
Phần đầu đề (header) của Macroblock chứa thông tin phân loại (Y hay Cb,
CR) vμ vector bù chuyển động t−ơng ứng.
 Lát (slice): Đ−ợc cấu thμnh từ một hay một số MB liên tiếp nhau.
Phần header của slice chứa thông tin về vị trí của nó trong ảnh vμ tham số
quét l−ợng tử (quantized scaling factor). Kích cỡ của slice quyết định bởi mức bảo
vệ lỗĩ cần có trong ứng dụng vì bộ giải mã sẽ bỏ qua slice bị lỗi. Hệ số một chiều
DC đ−ợc định vị tại điểm bắt đầu mỗi slice.
 Ảnh: Lớp ảnh cho bên thu biết về loại mã hoá khung I,P,B). Phần header
mang thứ tự truyền tải của khung để bên thu hiển thị khung theo đúng thứ tự,
ngoμi ra còn có một số thông tin bổ sung nh− thông tin đồng bộ, độ phân giải
vμ vecto chuyển động.
Hình 2.4: Cấu trúc Macroblock của các dạng lấy mẫu
 Nhóm ảnh (group of picture): Gồm cấu trúc các ảnh I,B vμ P. Mỗi nhóm bắt
đầu bằng ảnh I cung cấp điểm vμo ra vμ tìm kiếm. Phần header chứa 25 bit
thời gian vμ chế độ điều khiển cho VTR vμ thông tin thời gian. Trong MPEG
có các cấu trúc nhóm ảnh điển hình nh− sau:
F
1
F1
F
2
F2
F
3
F3
F
4

B
P
P
B
BB
B
B
B
I
I
R-601:
Khung
đã nénu truực:
ΙBBPBBPBBΙ
Cấu trúc IB
I
I
B
B
I
I
I
I
B
B
P
P
I
I
P

Thông tin quan trọng nhất của phần header lμ kích th−ớc (dọc, ngang) của mỗi
ảnh, tốc độ bit, tốc độ ảnh vμ dung l−ợng đòi hỏi bộ đệm dữ liệu bên thu. Thông
tin chuỗi ảnh vμ phần header của chuỗi lμ dòng bit đã mã hoá, còn gọi lμ dòng
video cơ bản.
Hình 2.6: Cấu trúc dòng dữ liệu video MPEG
2.3.1.2. Sự phân loại ảnh MPEG
Tiêu chuẩn nén video MPEG định nghĩa 3 loại ảnh: ảnh I, ảnh B vμ ảnh P.
a. Ảnh I: (Intra - Coded Picture)
Các ảnh I đ−ợc mã hoá theo mode Intra để có thể giải mã mμ không cần sử
dụng dữ liệu từ bất cứ một ảnh nμo khác. Đặc điểm của ph−ơng pháp mã hoá nμy
nh− sau:
 Chỉ loại bỏ đ−ợc sự d− thừa không gian.
 Dùng các điểm trong cùng một khung để tạo dự báo.
 Không có bù chuyển động.
 Các thông tin đ−ợc mã hoá rõ rμng, minh bạch nên số l−ợng bít yêu cầu lớn.
Do đ−ợc mã hoá Intra, ảnh I bao giờ cũng lμ ảnh đầu tiên trong một nhóm
ảnh hay một chuỗi ảnh. Nó cung cấp thông tin khởi động các ảnh tiếp theo trong
nhóm.
b. Ảnh P (Predictive Code Picture)
Ảnh P đ−ợc mã hoá liên ảnh một chiều (Interframe một chiều):
 Dự báo Inter một chiều.
 ảnh dự báo đ−ợc tạo ảnh tham chiếu tr−ớc đó (dự báo nhân quả). Ảnh tham
chiếu nμy có thể lμ ảnh I hoặc ảnh P gần nhất.
 Có sử dụng bù chuyển động. Thông tin −ớc l−ợng chuyển động của các khối
nằm trong vecto chuyển động (motion vecto). Vecto nμy xác định
Macroblock nμo đ−ợc sử dụng từ ảnh tr−ớc.
Do vậy ảnh P bao gồm cả những MB mã hoá Inter (I - MB) lμ những
macroblock chứa thông tin lấy từ ảnh tham chiếu vμ những MB mã hoá Intra lμ
những MB ch−á thông tin không thể m−ợn từ ảnh tr−ớc. Ảnh P có thể đ−ợc sử
dụng lμm ảnh tham chiếu tạo dự báo cho ảnh sau.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

CÁC CÔNG NGHỆ NÉN TÍN HIỆU VIDEO TRONG TRUYỀN HÌNH SỐ - Pdf 74

Tài liệu, ebook tham khảo khác

Học thêm