TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI
BỘ MÔN KỸ THUẬT THÔNG TIN
************
PHƯƠNG PHÁP MÃ HÓA VIDEO THEO ĐỐI TƯỢNG
ỨNG DỤNG TRONG HỆ THỐNG
THÔNG TIN VIDEO NÉN
Giáo viên hướng dẫn:
SV thực hiện:
Nghiên cứu khoa học sinh viên 2008-2009
Hà Nội 2009
Lời nói đầu
Với sự phát triển của công nghệ thông tin , và cùng với đó là sự phát triển ngày
càng mạnh mẽ của các ứng dụng truyền thông đa phương tiện , đòi hỏi con người không
ngừng tìm tòi sáng tạo để đáp ứng kịp với xu thế phát triển ấy. Nhờ vào sự phát triển
của các ứng dụng truyền thông đa phương tiện mà chúng ta có thể đưa âm thanh, hình
ảnh, hay các đoạn video đi xa một cách nhanh chóng và thuận tiện. Song với việc
truyền tải một đoạn video có dung lượng lớn đi xa gặp khá nhiều khó khăn bởi khả
năng có hạn của kênh dẫn.Vì vậy các nhà sản xuất đã áp dụng một số kỹ thuật nén để
giúp tối ưu hóa các đoạn video trên, làm giảm dung lượng phải truyền đi mà chất lượng
hình ảnh tương đương với hình ảnh gốc. Một trong các kỹ thuật nén được sử dụng rộng
rãi đó là kỹ thuật nén chuyển động mà tiêu biểu là chuẩn nén MPEG. Qua quá trình
nghiên cứu các chuyên gia đã cho ra đời chuẩn nén MPEG-4 với nhiều tính năng ưu
việt và nó đã nhanh chóng được ứng dụng rộng rãi trong hệ thống thông tin video
nén.MPEG-4 sử dụng một phương pháp mã hóa video theo từng đối tượng thay vì mã
hóa toàn bộ cả một đoạn video, vì vậy dung lượng video được giảm đi đáng kể mà chất
lượng lại không có nhiều thay đổi .
Vì vậy chúng tôi đã chọn đề tài nghiên cứu “ phương pháp mã hóa video theo
đối tượng ứng dụng trong các hệ thống thông tin video nén” để đi sâu tìm hiểu kỹ thuật
mã hóa trong chuẩn nén MPEG-4 này.
Đề tài nghiên cứu được chia làm 3 phần
2.2.3.1 Kỹ thuật thay đổi từng khối thích ứng với cấu trúc đa cạnh của VOP.….….....22
2.2.3.2 ước lượng chuyển động của điểm ảnh…………………….………..……..…...23
2.2.3.3 chế độ INTRA / INTER………………………………….…….………..…..…24
2.2.3.4 Tìm kiếm nửa điểm ảnh………………………………….…..….…….….……25
2.2.3.5 Dự đoán MV………………………………………….………………....….….26
2.2.3.6 Chế độ vector chuyển động không giới hạn…………….………..…………….26
2.2.3.7 Chế độ nâng cao chất lượng dự đoán………………….………….……...….…27
2.3 Mã hóa cấu trúc………………………………………………………….……….……...27
2.4 Giải mã MPEG-4 VOP………………………………………………….….…................28
2.5 Mã hóa theo lớp video …………………………………………...………....…………..28
2.6 Đánh giá hiệu quả…………………………………………….……………....................29
2.7 Điều khiển tốc độ………………………………………………………………………..31
Chương 3 : Ứng dụng………………………………………………………………….………37
3.1 IP TV………………………………………………………………..…………..….....…37
Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén
3
Nghiên cứu khoa học sinh viên 2008-2009
3.2Video yêu cầu………………………………………………………..………….…..…....39
3.3 Mobile TV………………………………………………………..……………….....…..40
3.4 Truyền hình hội nghị …………………………………………….……………...…..…..41
Mục lục các hình vẽ
Hình 1.1: công cụ nén mới của MPEG-4 so với MPEG 2………………………….…………….9
Hình 1.2 :DCT của MPEG…………………………………………………………………………...9
Hình 1.3.a : Đầu vào của bộ mã hóa MPEG-2……………………………………………….….10
Hình 1.3.b : Bộ mã hóa MPEG-4………………………………………………………………..…11
Hình 1.4: Các đối tượng lưới của MPEG4…………………………………………..…………...11
Hình 2.1: Cấu trúc của bộ mã hoá và giải mã video MPEG-4………………………………..13
Hình 2.2: Sơ đồ cấu trúc giải mã video MPEG-4………………………………………............14
Hình 2.3: Sơ đồ thuật toán nén ảnh(a)…………………………………………………….……...16
Hình 2.4: Sơ đồ thuật toán nén ảnh(b)……………….………………………………..................17
ITU: International Telecommunication Union (hiệp hội viễn thông quốc tế)
ISO: International Standard Organisation (tổ chức tiêu chuẩn quốc tế)
IEC: International Electrotechnical Commission (ủy ban kỹ thuật điện tử quốc tế)
EOB: End Of Block (khối kết thúc)
MRG: Management Research Group(nhóm quản lý nghiên cứu)
IPTV: Internet Protocol Television (Truyền hình Giao thức Internet)
MSE : mean square error (sai số bình phương trung bình)
VOD: video on demand (video theo yêu cầu)
ISDN Integrated Services Digital Network (là công nghệ băng hẹp)
BM : Block Matchinh ( khối phù hợp)
FTTH: Fiber-To-The-Home (mạng viễn thông bằng cáp quang được nối đến tận nhà)
ISDN : Integrated Services Digital Network (mạng đa dịch vụ số)
NGN: Dịch vụ truyền hình hội nghị
Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén
5
Nghiên cứu khoa học sinh viên 2008-2009
LAN: Local Area Network (mạng máy tính cục bộ)
WAN: Wide Area Network (Mạng diện rộng)
Chương 1 : Tổng quan về mã hóa video
1.1 Mục đích nghiên cứu video nén theo hướng đối tượng
Tại sao chúng ta cần phải nén video ?
Để xem được 1 đoạn video có chất lượng cao mà dung lượng không quá lớn là 1
điều rất quan trọng và cần thiết. Đó chính là lí do cần phải sử dụng 1 công cụ nén video
nhằm giảm tối đa dung lượng của đoạn video mà chất lượng vẫn đáp ứng được yêu cầu.
Nhu cầu truyền phát các dịch vụ Multimedia mới trên hạ tầng kỹ thuật mạng
Internet đã làm nảy sinh các yêu cầu chức năng không có trong các chuẩn MPEG-1,
MPEG-2,H.26X và các chuẩn nén video trước đó. Sự xuất hiện của chuẩn MPEG-4
(10/1998) và H264 đã tạo ra một phương thức thiết lập và tương tác mới với truyền
thông nghe nhìn trên mạng internet, tạo ra một phương thức sản xuất, cung cấp và ứng
khuôn hình. Sự tổ hợp lại thành khung hình chỉ được thực hiện sau khi giải mã các đối
tượng này.
H.264 ( MPEG-4 AVC hay MPEG-4 part 10), hiện đang là phương thức tiên tiến
nhất trong lĩnh vực nén video. H.264 cho chất lượng hình ảnh tốt nhất khi có cùng dung
lượng so với các chuẩn nén khác. H.264 cũng được ứng dụng như thuật nén chính trong
video độ phân giải cao (HD)
Mục tiêu chính của chuẩn nén H.264 đang phát triển nhằm cung cấp Video có chất
lượng tốt hơn nhiều so với những chuẩn nén Video trước đây. Điều này có thể đạt được
nhờ sự kế thừa các lợi điểm của các chuẩn nén Video trước đây. Không chỉ thế, chuẩn
nén H.264 còn kế thừa phần lớn lợi điểm của các tiêu chuẩn trước đó là H.263 và
MPEG-4.
Trong đề tài này chúng tôi xin phép được trình bày kĩ thuật mã hóa video nén theo
hướng đối tượng MPEG-4 mà hiện nay đang đuợc sử dụng rất nhiều như 1 công cụ mã
hóa với nhiều tính năng ưu việt.
1.3 Kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 và ưu điểm
của nó.
MPEG-4 được coi là một cuộc cách mạng mới trong media số. Nó là chuẩn
multimedia toàn cầu thế hệ kế tiếp. Nó được thiết kế để truyền tải video với chất lượng
DVD (MPEG-2) qua mạng. MPEG-4 có khả năng nén cao và tối ưu hóa được dung
lượng băng thông cũng như dung lượng file lưu trữ mà lại đưa ra chất lượng video chập
nhận được.
Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén
7
Nghiên cứu khoa học sinh viên 2008-2009
MPEG-4 có phương thức mã hóa và nén video hoàn toàn tối ưu hơn các chuẩn khác
trước nó đó là việc chia nhỏ mỗi lớp video thành các đối tượng riêng biệt,Thay vì thực
hiện truyền tải tất cả các lớp video như ở MPEG-2 thì MPEG-4 chỉ truyền đi sự thay
đổi trong mỗi đối tượng đã được tách ra.MPEG-4 ra đời với khá nhiều tính năng ưu
việt:
1.3.1 Tính mềm dẻo và có khả năng nâng cấp.
Chuẩn MPEG-4 đi xa hơn, theo hình 2, nó có thể dự đoán hệ số của toàn bộ các khối trên
một hàng hay hệ số của các khối ở cột bên trái từ một khối đầu tiên.
Hình 1.2: MPEG4 có thể dự đoán các tham số trên 1 hàng, hay các thông số của cột bên trái
từ một khối đầu tiên.
Việc dự đoán các hệ số của hàng hay của cột dựa trên nội dung của hình ảnh. Ví dụ,
một ảnh chứa một vật thể theo chiều đứng như cái cọc chẳng hạn. Khi đó quét ảnh này
Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén
9
Nghiên cứu khoa học sinh viên 2008-2009
theo chiều ngang sẽ tạo ra sự thay đổi lớn trong các hệ số sau DCT khi gặp hình ảnh cái
cọc này. Trái lại, khi quét theo chiều đứng thì các khối nằm trong một cột có các hệ số
DCT gần giống nhau, từ đó có thể nén với tỉ lệ nén cao hơn.
MPEG-4 mở rộng cách dự đoán vector chuyển động. MPEG-4 có thể dự đoán
vector cho một macroblock từ các macroblock ở trên hay ở bên trái, và nó chỉ gửi đi sự
sai khác so với các vector cũ mà thôi. Do đó giảm đi dữ liệu cần thiết dùng để mã hoá
một vector, cho phép có thể dùng một vector cho mỗi khối DCT. Việc dự đoán chuyển
động sẽ tốt hơn với 4 vector, giảm nhỏ lỗi khi dự đoán.
Chất lượng hình ảnh có thể được cải thiện đáng kể bằng cách dùng tỉ lệ nén dữ liệu
lớn hơn mà không cần thay đổi độ phân giải. Mpeg không phải là một công cụ nén đơn
lẻ mà ưu điểm của nén Mpeg chính là ở chỗ nó có một tập hợp các công cụ mã hoá
chuẩn, chúng có thể được kết hợp với nhau một cách linh động để phục vụ cho một loạt
các ứng dụng khác nhau, khả năng truyền dẫn tốt trong môi trường truyền dẫn khắc
nhiệt.
1.3.3 Tiềm năng của chuẩn MPEG-4.
Trong khi các chuẩn MPEG-1 và MPEG-2 thao tác với một ảnh toàn vẹn, thì chuẩn
MPEG-4 có thể làm việc được với các hình ảnh được tạo ra, hay đã được máy tính xử
lý và đó là một thế mạnh của chuẩn MPEG-4.So với chuẩn MPEG-2 thì MPEG-4 có
những ưu thế hơn về xử lý đồ họa trực tiếp.
Hình 1.3.a : Đầu vào của bộ mã hóa MPEG-2 là một ảnh hoàn chỉnh được lặp
lại theo tần số ảnh (frame rate)
chất lượng cho phù hợp với khả năng băng thông của thiết bị giải mã.
Thông tin giải trí: những sự trình diễn nghe nhìn tương tác (thế giới ảo, trò chơi
tương tác …) có thể được triển khai trên cơ sở chuẩn MPEG-4 sẽ làm giảm yêu cầu về
băng thông và làm cho thế giới ảo trở nên sinh động và giống như thực tế trên các trang
web
Chương 2 : Công nghệ mã hóa video trong MPEG-4
MPEG-4 là sản phẩm của nhóm MPEG (Moving Picture Expert Group) được thành
lập tháng 1/1988 với nhiệm vụ phát triển các chuẩn xử lý, mã hoá và hiển thị các ảnh
động, audio và các tổ hợp của chúng.
Sản phẩm đầu tiên của nhóm này là MPEG-1 được sử dụng cho việc mã hoá các dữ
liệu nghe nhìn với tốc độ 1,5 Mbps. Sản phẩm thứ hai của nhóm là chuẩn MPEG-2 nổi
tiếng hiện nay, mang tính tổng quát hơn và đang được áp dụng cho một loạt các ứng
dụng nghe nhìn trong phạm vi tốc độ từ 3-40 Mbps.
Không giống các chuẩn MPEG trước đó, ví dụ như trong MPEG-2, nơi mà nội dung
được tạo ra từ nhiều nguồn như video ảnh động, đồ họa, văn bản… và được tổ hợp
thành chuỗi các khung hình phẳng, mỗi khung hình (bao gồm các đối tượng như người,
Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén
12
Nghiên cứu khoa học sinh viên 2008-2009
đồ vật, âm thanh, nền khung hình…) được chia thành các phần tử ảnh pixels và xử lý
đồng thời, giống như cảm nhận của con người thông qua các giác quan trong thực tế.
Các pixels này được mã hoá như thể tất cả chúng đều là các phần tử ảnh video ảnh
động. Tại phía thu của người sử dụng, quá trình giải mã diễn ra ngược với quá trình mã
hoá không khó khăn. Vì vậy có thể coi MPEG-2 là một công cụ hiển thị tĩnh, và nếu
một nhà truyền thông truyền phát lại chương trình của một nhà truyền thông khác về
một sự kiện, thì logo của nhà sản xuất chương trình này không thể loại bỏ được. Với
MPEG-2, bạn có thể bổ xung thêm các phần tử đồ hoạ và văn bản vào chương trình
hiển thị cuối cùng (theo phương thức chồng lớp), nhưng không thể xoá bớt các đồ hoạ
và văn bản có trong chương trình gốc.
Chuẩn MPEG-4 khắc phục được hạn chế này và là một chuẩn động dễ thay đổi. Với
khung hình, nó cũng mô tả cách thức hoạt động của đối tượng (làm cho một đối tượng
Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén
14
Nghiên cứu khoa học sinh viên 2008-2009
xoay tròn hay chồng mờ hai đối tượng lên nhau) và cả điều kiện hoạt động đối tượng và
tạo cho MPEG-4 có khả năng tương tác. Trong MPEG-4 tất cả các đối tượng có thể
được mã hoá với sơ đồ mã hoá riêng của nó - video được mã hoá theo kiểu video, text
được mã hoá theo kiểu text, các đồ hoạ được mã hoá theo kiểu đồ hoạ - thay vì việc xử
lý tất cả các phần tử ảnh pixels như là mã hoá video ảnh động. Do các quá trình mã hoá
đã được tối ưu hoá cho từng loại dữ liệu thích hợp, nên chuẩn MPEG-4 sẽ cho phép mã
hoá với hiệu quả cao tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ
mặt và cơ thể hoạt hình.
2.1 Mã hoá hình dạng ngoài (Shape Coder )
-Khung hình : là thành phần mã hoá chính. Thường thường chúng ta có thể phân
biệt sự thay đổi về độ sáng của ảnh tốt hơn so với sự thay đổi về màu. Do đó trước hết
các sơ đồ nén Mpeg sẽ tiến hành chia khung hình thành các thành phần độ sáng Y và
thành phần độ màu Cb, Cr (một thành phần về độ sáng và hai thành phần về độ màu).
Một khung hình sẽ gồm có 3 ma trận ứng với các thành phần về độ sáng (Y) và hai
thành phần về độ màu Cb và Cr.
Ma trận Y có số hàng và cột bằng nhau (ma trận vuông). Ma trận Cb và Cr có số
hàng và cột bằng nửa ma trận Y. Hình 3 cho thấy quan hệ và vị trí của Y và các thành
phần Cb và Cr. Lưu ý rằng cứ 4 giá trị Y lại có 2 giá trị kết hợp một của Cb và một của
Cr (Vị trí của giá trị Cb và Cr là tương đương).
Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu Video và
những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của mắt người.
Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các khung hình trong một cảnh
Video dường như có liên quan mật thiết với nhau theo thời gian: Mỗi khung hình tại
một thời điểm nhất định sẽ có nhiều khả năng giống với các khung hình đứng ngay phía
trước và ngay phía sau nó. Do vậy ở phía bộ mã hoá, chỉ cần gửi những khung hình có
thay đổi so với những khung hình trước, sau đó dùng phương pháp nén về không gian
Nghiên cứu khoa học sinh viên 2008-2009
Hình 2.4 sơ đồ thuật toán nén ảnh (b)
Biến đổi DCT là một công đoạn chính trong các phương pháp nén sử dụng biến
đổi. 2 công thức ở đây minh hoạ cho 2 phép biến đổi DCT thuận nghịch đối với mỗi
khối ảnh có kích thước 8 x 8. Giá trị x(n
1
, n
2
) biểu diễn các mức xám của ảnh trong
miền không gian, X(k
1
, k
2
) là các hệ số sau biến đổi DCT trong miền tần số.
+ Biến đổi
Biến đổi là một trong những công đoạn lớn trong các phương pháp nén sử dụng
phép biến đổi. Nhiệm vụ của công đoạn biến đổi là tập trung năng lượng vào một số ít
các hệ số biến đổi. Công thức biến đổi cho mỗi khối là:
và
Thuật toán biến đổi DCT cho mỗi khối trong trường hợp này sẽ bao gồm 16 phép
biến đổi DCT. Đầu tiên, người ta biến đổi nhanh Cosin một chiều cho các dãy điểm ảnh
Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén
17