Phương pháp mã hóa video theo đối tượng ứng dụng trong các hệ thống
thơng tin video nén
MỤC LỤC
Chương 1 : Tổng quan về mã hóa video
1.1. Mục đích nghiên cứu video nén theo hướng đối tượng
1.2. Tổng quan về các chuẩn nén
1.3. Kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 và ưu điểm
Chương 2: Cơng nghệ mã hóa video trong MPEG-4
2.1. Mã hố hình dạng ngồi (Shape Coder)
2.1.1. Biến đổi Cosin rời rạc ( DCT)
2.1.2. Lượng tử hố
2.1.3. Mã hóa
2.2. Dự đốn và tổng hợp động
2.2.1. Ước lượng chuyển động
2.2.2. Kỹ thuật đệm
2.2.3. Kỹ thuật chuyển động cơ bản
2.2.3.1. Kỹ thuật thay đổi từng khối thích ứng với cấu trúc đa cạnh của VOP
2.2.3.2. Ước lượng chuyển động của điểm ảnh
2.2.3.3. Chế độ INTRA / INTER
2.2.3.4. Tìm kiếm nửa điểm ảnh
2.2.3.5. Dự đốn MV
2.2.3.6. Chế độ vector chuyển động khơng giới hạn
2.2.3.7. Chế độ nâng cao chất lượng dự đốn
2.3. Mã hóa cấu trúc
2.4. Giải mã MPEG-4 VOP
2.5. Mã hóa theo lớp video
2.6. Đánh giá hiệu quả
2.7. Điều khiển tốc độ
Chương 3: Ứng dụng
chúng c ng dng rng rói trong h thng thụng tin video nộn. MPEG-4 s
dng mt phng phỏp mó húa video theo tng i tng thay vỡ mó húa ton
b c mt on video, vỡ vy dung lng video c gim i ỏng k m cht
lng li khụng cú nhiu thay i .
Vỡ vy chỳng tụi ó chn ti nghiờn cu Phng phỏp mó húa
video theo i tng ng dng trong cỏc h thng thụng tin video nộn i
sõu tỡm hiu k thut mó húa trong chun nộn MPEG-4 ny.
ti nghiờn cu c chia lm 3 phn
Chng 1: tng quan v video
Chng 2: cụng ngh mó húa video trong MPEG-4
Chng 3: cỏc ng dng
Chỳng tụi xin gi li cm n ti thy giỏo ó hng dn v giỳp
chỳng tụi thc hin ti ny. V chỳng tụi cng xin gi li cm n ti thy cụ
giỏo trong b mụn K Thut Thụng Tin v cỏc bn cựng lp ó giỳp chỳng
THệ VIEN ẹIEN Tệ TRệẽC TUYENtơi trong việc tìm kiếm thơng tin, tài liệu và các giáo trình tham khảo trong suốt
q trình thực hiện đề tài này.
Chúng tơi rất mong nhận được ý kiến đóng góp của thầy cơ giáo và các
bạn sinh viên để cho đề tài nghiên cứu được hồn thiện hơn Chương 1 : Tổng quan về mã hóa video
1.1 Mục đích nghiên cứu video nén theo hướng đối tượng
Tại sao chúng ta cần phải nén video ?
Để xem được 1 đoạn video có chất lượng cao mà dung lượng khơng q lớn
là 1 điều rất quan trọng và cần thiết. Đó chính là lí do cần phải sử dụng 1 cơng
cụ nén video nhằm giảm tối đa dung lượng của đoạn video mà chất lượng vẫn
vo cỏc h thng Video. Nú ó gúp phn gii quyt vn v dung lng cho
cỏc thit b lu tr, gii quyt vn v bng thụng ca ng truyn tớn hiu
Video hoc kt hp c hai vn trờn.
Vi MPEG-4, cỏc i tng khỏc nhau trong mt khung hỡnh cú th c
mụ t, mó hoỏ v truyn i mt cỏch riờng bit n b gii mó trong cỏc dũng c
bn ES (Elementary Stream) khỏc nhau. Cng nh xỏc nh, tỏch v x lý riờng
cỏc i tng (nh nhc nn, õm thanh xa gn, vt, i tng nh video nh
con ngi hay ng vt, nn khung hỡnh ), nờn ngi s dng cú th loi b
riờng tng i tng khi khuụn hỡnh. S t hp li thnh khung hỡnh ch c
thc hin sau khi gii mó cỏc i tng ny.
H.264 ( MPEG-4 AVC hay MPEG-4 part 10), hin ang l phng thc tiờn
tin nht trong lnh vc nộn video. H.264 cho cht lng hỡnh nh tt nht khi
cú cựng dung lng so vi cỏc chun nộn khỏc. H.264 cng c ng dng nh
thut nộn chớnh trong video phõn gii cao (HD)
Mc tiờu chớnh ca chun nộn H.264 ang phỏt trin nhm cung cp Video
cú cht lng tt hn nhiu so vi nhng chun nộn Video trc õy. iu ny
cú th t c nh s k tha cỏc li im ca cỏc chun nộn Video trc õy.
THệ VIEN ẹIEN Tệ TRệẽC TUYENKhơng chỉ thế, chuẩn nén H.264 còn kế thừa phần lớn lợi điểm của các tiêu
chuẩn trước đó là H.263 và MPEG-4.
Trong đề tài này chúng tơi xin phép được trình bày kĩ thuật mã hóa video
nén theo hướng đối tượng MPEG-4 mà hiện nay đang đuợc sử dụng rất nhiều
như 1 cơng cụ mã hóa với nhiều tính năng ưu việt.
1.3 Kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 và ưu
điểm của nó.
MPEG-4 được coi là một cuộc cách mạng mới trong media số. Nó là chuẩn
multimedia tồn cầu thế hệ kế tiếp. Nó được thiết kế để truyền tải video với chất
lượng DVD (MPEG-2) qua mạng. MPEG-4 có khả năng nén cao và tối ưu hóa
phải có khả năng “nói” được ngơn ngữ này. Các bộ giải mã tương thích phải có
khả năng hiểu được tồn bộ các "từ vựng" mà bộ mã hố đã phát ra trong một
ngữ cảnh nhất định.MPEG-4 thực hiện điều này bằng cách tạo ra một bộ các
cơng cụ dùng để nén tín hiệu trong các trường hợp khác nhau. Một trong các
cơng cụ này, chuyển đổi cosine rời rạc (DCT - discrete cosine transform), có
nhiệm vụ chuyển đổi một khối 8x8 pixel thành một tập các hệ số
1.3.2 MPEG-4 đem lại cơng cụ nén mới.
Ta hãy xem xét các cộng cụ nén mới mà chuẩn MPEG-4 mang tới lĩnh vực
nén ảnh. Hình 1 so sánh các cơng cụ của chuẩn MPEG-2 và MPEG-4.
Hình 1.1: cơng cụ nén mới của MPEG-4 so với MPEG-2.
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾNChuẩn MPEG-4 đi xa hơn, theo hình 2, nó có thể dự đốn hệ số của tồn bộ
các khối trên một hàng hay hệ số của các khối ở cột bên trái từ một khối đầu
tiên.
Hình 1.2: MPEG4 có thể dự đốn các tham số trên 1 hàng, hay các thơng số của cột bên trái
từ một khối đầu tiên.
Việc dự đốn các hệ số của hàng hay của cột dựa trên nội dung của hình ảnh.
Ví dụ, một ảnh chứa một vật thể theo chiều đứng như cái cọc chẳng hạn. Khi đó
qt ảnh này theo chiều ngang sẽ tạo ra sự thay đổi lớn trong các hệ số sau DCT
khi gặp hình ảnh cái cọc này. Trái lại, khi qt theo chiều đứng thì các khối nằm
trong một cột có các hệ số DCT gần giống nhau, từ đó có thể nén với tỉ lệ nén
cao hơn.
MPEG-4 mở rộng cách dự đốn vector chuyển động. MPEG-4 có thể dự
đốn vector cho một macroblock từ các macroblock ở trên hay ở bên trái, và nó
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾNmặt vật thể lên các đối tượng này, chuẩn này có thể xử lý các đối tượng có hình
dạng bất kỳ
Hình 1.4: MPEG4 đã chuẩn hóa phương pháp truyền các đối tượng 3
chiều nhờ các đối tượng lưới.
1.3.4 Audio, video và tất cả các đối tượng khác có thể được đồng bộ
chặt chẽ với độ chính xác cao và có khả năng tương tác.
Truyền thông multimedia theo dòng (Multimedia stream), trong đó dòng
audio và video sẽ được biến đổi thích nghi với yêu cầu băng thông và chất lượng
hình nhờ loại bỏ những đối tượng (hình ảnh, âm thanh) không cần thiết khỏi
dòng dữ liệu và đồng bộ các thông tin được nhúng trong dòng dữ liệu đó. Thêm
vào đó, MPEG-4 sẽ cho phép người sử dụng khả năng tương tác trực tiếp với
dòng dữ liệu (dừng tiến hay lùi nhanh, kích chuột để kích hoạt các tuỳ chọn
video và audio…)
Lưu giữ và phục hồi dữ liệu audio và video: do MPEG-4 phân chia các
khung hình thành các đối tượng, việc trình duyệt Browser trên cơ sở nội dung
(đối tượng) mong muốn sẽ được thực hiện một cách dễ dàng và nhờ vậy, các
ứng dụng lưu giữ hay phục hồi thông tin trên cơ sở nội dung MPEG-4 sẽ được
thuận lợi hơn.
THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁNTruyn thụng bỏo a phng tin: cỏc thụng bỏo di dng text, audio v
video MPEG-4 s c truyn i vi yờu cu bng thụng ớt hn, v cú kh nng
t iu chnh cht lng cho phự hp vi kh nng bng thụng ca thit b gii
mó.
Thụng tin gii trớ: nhng s trỡnh din nghe nhỡn tng tỏc (th gii o, trũ
Chuẩn MPEG-4 khắc phục được hạn chế này và là một chuẩn động dễ thay đổi.
Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mơ tả,
mã hố và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản
ES (Elementary Stream) khác nhau. Cũng nhờ xác định, tách và xử lý riêng các
đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con
người hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêng
từng đối tượng khỏi khn hình. Sự tổ hợp lại thành khung hình chỉ được thực
hiện sau khi giải mã các đối tượng này.
Hình 2.1. Cấu trúc của bộ mã hố và giải mã video MPEG-4
Các bộ phận chức năng chính trong các thiết bị MPEG-4 bao gồm:
- Bộ mã hố hình dạng ngồi Shape Coder dùng để nén đoạn thơng tin, giúp
xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene.
- Bộ dự đốn và tổng hợp động để giảm thơng tin dư thừa theo thời gian.
- Bộ mã kết cấu mặt ngồi Texture coder dùng để xử lý dữ liệu bên trong và
các dữ liệu còn lại sau khi đã bù chuyển động. THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
Hình 2.2. Sơ đồ cấu trúc giải mã video MPEG-4
Hình 2 là một ví dụ về tổng hợp khung hình video sử dụng trong MPEG-4.
Nhiều đối tượng được tách ra khỏi video đầu vào. Mỗi đối tượng video sau đó
được mã hóa bởi bộ mã hố đối tượng video VO (Video Object) và sau đó được
truyền đi trên mạng. Tại vị trí thu, những đối tượng này được giải mã riêng rẽ
nhờ bộ giải mã riêng VO và gửi tới bộ compositor. Người sử dụng có thể tương
tác với thiết bị để cấu trúc lại khung hình gốc, hay để xử lý các đối tượng tạo ra
một của Cb và một của Cr (Vị trí của giá trị Cb và Cr là tương đương).
Các bộ lọc tiền xử lý sẽ lọc ra những thơng tin khơng cần thiết từ tín hiệu Video
và những thơng tin khó mã hố nhưng khơng quan trọng cho sự cảm thụ của mắt
người. Kỹ thuật đốn chuyển động dựa trên ngun tắc là các khung hình trong
một cảnh Video dường như có liên quan mật thiết với nhau theo thời gian: Mỗi
khung hình tại một thời điểm nhất định sẽ có nhiều khả năng giống với các
khung hình đứng ngay phía trước và ngay phía sau nó. Do vậy ở phía bộ mã hố,
chỉ cần gửi những khung hình có thay đổi so với những khung hình trước, sau
đó dùng phương pháp nén về khơng gian để loại bỏ sự dư thừa về khơng gian
trong chính khung hình sai khác này. Trong MPEG-4 là yếu tố ít có sự thay đổi
nhất, các bước mã hóa khung hình cũng tương tư như mã hóa ảnh. Thuật tốn
mã hố biến đổi gồm các bước:
+Biến đổi Cosine rời rạc (DCT).
+Lượng tử hố.
+Mã hóa
2.1.1 Biến đổi Cosin rời rạc ( DCT )
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾNS thut toỏn nộn v gii nộn c mụ t di õy: Hỡnh 2.3 s thut toỏn nộn nh (a) Quỏ trỡnh gii nộn s c lm ngc li, ngi ta gii mó tng phn nh
nộn tng ngvi phng phỏp nộn ó s dng trong phn nộn nh cỏc thụng
tin liờn quan ghi trong phn header ca file nộn. Kt qu thu c l h s ó
lng t. Cỏc h s ny c khụi phc v giỏ tr trc khi lng t húa bng
b tng t húa. Tip ú em bin i Cosin ngc ta c nh ban u vi
) l cỏc h s sau bin i DCT trong
min tn s.
+ Bin i
Bin i l mt trong nhng cụng on ln trong cỏc phng phỏp nộn s
dng phộp bin i. Nhim v ca cụng on bin i l tp trung nng lng
vo mt s ớt cỏc h s bin i. Cụng thc bin i cho mi khi l:
v
Thut toỏn bin i DCT cho mi khi trong trng hp ny s bao gm 16
phộp bin i DCT. u tiờn, ngi ta bin i nhanh Cosin mt chiu cho cỏc
dóy im nh trờn mi hng. Ln lt thc hin cho 8 hng. Sau ú em bin
THệ VIEN ẹIEN Tệ TRệẽC TUYENi nhanh Cosin mt chiu theo tng ct ca ma trn va thu c sau 8 phộp
bin i trờn. Cng ln lt thc hin cho 8 ct. Ma trn cui cựng s l ma trn
h s bin i ca khi tng ng.Trong s gii nộn ta phi dựng phộp bin
i Cosin ngc. Cụng thc bin i ngccho khi 8x8:
v
theo th t ZigZag l to ra nhiu loi h s ging nhau. Chỳng ta bit rng
nng lng ca khi h s gim dn t gúc trờn bờn trỏi xung gúc di bờn
phi nờn vic sp xp li cỏc h s theo th t ZigZag s to iu kin cho cỏc
h s xp x nhau (cựng mc lng t) nm trờn mt dũng
Hỡnh 2.5 : Quỏ trỡnh gii lng t v th t sp xp zigzag
Mi khi ZigZag ny c mó húa theo phng phỏp RLE. Cui mi khi
u ra ca RLE, ta t du kt thỳc khi EOB (End Of Block). Sau ú, cỏc khi
c dn li v mó húa mt ln bng phng phỏp mó Huffman. Nh cú du kt
thỳc khi nờn cú th phõn bit c hai khi cnh nhau khi gii mó Huffman.
Hai bng mó Huffman cho hai thnh phn h s tt nhiờn s khỏc nhau. cú
THệ VIEN ẹIEN Tệ TRệẽC TUYENth gii nộn c, chỳng ta phi ghi li thụng tin nh: kớch thc nh, kớch
thc khi, ma trn Y, lch tiờu chun, cỏc mc to li, hai bng mó
Huffman, kớch thc khi nộn mt chiu, kớch thc khi nộn xoay chiu v
ghi ni tip vo hai file nộn ca thnh phn h s.
Ci t gii thut cho nộn thc s phc tp. Chỳng ta phi nm c cỏc
kin thc v nộn
RLE, Huffman, bin i Cosin, xõy dng b lng t húa Lloyd-
MaxNộn v gii nộn hi chm nhng bự li, thi gian truyn trờn mng
nhanh hn do kớch thc tp nộn nh. Vi nhng u im ca mỡnh c ISO
chp nhn l chun nh quc t v c bit n di mó s ISO 10918-1.
2.1.3 Mó húa
Mó hoỏ l bc cui cựng trong h thng nộn nh da trờn bin i DCT.
Chun nộn nh JPEG hin nay dựng phng phỏp mó hoỏ Huffman, õy l phộp
mó hoỏ khụng lm mt thụng tin. Phng phỏp ny da trờn mụ hỡnh thng kờ.
Da vo d liu gc, ngi ta tớnh tn sut xut hin cỏc h s. Vic tớnh tn