luận văn thạc sĩ cao học ngành điện tử viên thông đề tài nén ảnh động dùng WAVELET - Pdf 14

0
Bộ giáo dục và đào tạo
TRờNG ĐạI Học BáCH KHOA Hà Nội Luận văn thạc sĩ khoa học

nén ảnh động dùng wavelet

Ngành: Điện tử viễn thông Nguyễn Hữu phát Ngời hớng dẫn khoa học
: PGS TS. Hồ Anh Tuý
Hà nội 2005

1
Mục lục

1.3.3. Nhóm ảnh (GOP: Group Of Picture).
19

1.4. Phơng pháp nén ảnh Video theo chuẩn MPEG.
21

1.4.1. Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG 21
1.4.2. Lấy mẫu thông tin về màu 22

1.4.3. Lợng tử hoá.
23

1.4.4. Nội suy ảnh.
23

1.4.5. Dự đoán bù chuyển động. 24
1.4.5.1. Đánh giá chuyển động (motion estimation) 24
1.4.5.2. Bù chuyển động (Motion Compensation).
24

1.4.6. Biến đổi Cosine rời rạc.
26

1.4.7. Mã VLC 27
1.5. Quá trình nén Video theo chuẩn MPEG-1. 27
1.5.1. Tham số đặc trng.
27

1.5.2. Quá trình mã hoá 28

55

2.1.5. Tóm tắt và kết luận
59

2.2. Mã hoá scalable video 61

2.2.1. Khái quát 62
2.2.1.1. Mã hoá lai truyền thống 63

2.2.1.1.1.Mã hoá Scalable SNR
63

2.2.1.1.2 Phân giải mã Scalable
66

2.2.1.2. Embedded Coding and Fine Granularity Scalability 66
2.2.1.3. Mã hoá sử dụng băng con 3 chiều và mã hoá Wavelet 69

2.2.2. Hệ thống tổng quan
70

2.2.3. Băng con mã hoá 3 chiều
71

2.2.4. Tỷ lệ dòng bít mã hoá 74
2.2.4.1.Hệ thống dòng bít 74

2.2.4.2. Lựa chọn dòng bít mã hoá và truyền dẫn
78

3.2.2. Miền Cơ sở biến đổi Wavelet rời rạc 102
3.2.3. Đối tợng-Cơ sở mã hoá mặt phẳng bít EZBC 103

3.3. Kết quả thực nghiệm
104

3.4. Tóm tắt và kết luận 106

Chơng 4: Chơng trình thử nghiệm và đánh giá kết
quả 111

4.1. Xây dựng chơng trình
111

4.1.1. Khái quát chung
111

4.1.2. Cấu trúc chơng trình
111

4.2. Đánh giá kết quả thử nghiệm 112
4.2.1 Dữ liệu thử nghiệm
112

4.2.2. Kết quả thử nghiệm 112
4.2.3. Nhận xét về tỷ số nén,chất lợng nén 115

Kết luận
118

phơng pháp nén Scalable video. Chơng này đề cập đến thuật toán LZC và
3D-SPIHT. Chơng Ba đi sâu vào nghiên cứu đối tợng mã hoá của video dựa
trên biến đổi Wavelet. Chơng Bốn nêu khái quát cách thiết kế và cài đặt
chơng trình. Chơng này mang tính chất minh hoạ cho những gì đã đợc
trình bày ở các chơng trớc. Phần phụ lục nêu một số chơng trình nguồn
thông dụng viết trên Visual C + + 6. 0.
Do thời gian có hạn nên tôi chỉ mới nghiên cứu đợc phần nào trong kỹ
thuật nén ảnh động do vậy chắc chắn không tránh khỏi thiếu sót. Cuối cùng
tôi xin chân thành cảm ơn sự giúp đỡ nhiệt tình và hiệu quả của PGS TS Hồ
Anh Tuý đã giúp đỡ tôi hoàn thành luận văn này.

Hà nội ngày 20/10/2005
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
5

Chơng 1
TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG

1.1. Khái niệm về
Video
và phơng pháp nén
Video

1.1.1. Khái niệm Video
Video là sự biểu diễn điện tử của một chuỗi các ảnh liên tiếp. Những
ảnh này là những ảnh tĩnh và đợc gọi là các frame. Chuỗi các frame xuất
hiện với tốc độ rất nhanh sẽ cho ta cảm giác chuyển động liên tục (tối thiểu là
25frame/giây). Mặc dù mỗi frame có sự khác nhau, cần thiết phải có tốc độ
frame cao để đạt đợc cảm giác chuyển động thực sự. Tốc độ frame và độ

R
với Y tơng tự
nh trên và hai thành phần nh sau:
C
B
= U/2 + 0.5
C
R
= V/1.6 + 0.5
Do đó, màu C
B
, C
R
luôn nằm trong khoảng [0, 1].
Với u điểm trên hệ YC
B
C
R
đợc áp dụng rộng rãi trong việc số hoá
Video.
1.1.1.2. Các cơ cấu số hoá tín hiệu Video

Hình 1.1.
Cấu trúc lấy mẫu

Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
7
Trong truyền hình, các frame trong chuỗi Video có độ phân giải là 720
x 576 điểm và có tốc độ frame là 25 hoặc 30Hz. Mỗi ảnh trong chuỗi Video

R
, 1 lần
lấy mẫu C
B
.
Cấu trúc lấy mẫu 4: 2: 0
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
8
Lấy mẫu tín hiệu Y tại tất cả các điểm ảnh của dòng, còn tín hiệu màu thì
cứ 4 Y, có 2 màu C
R
và C
B
cách nhau theo từng hàng.

Hình 1.4. Cấu trúc lấy mẫu 4: 2: 0
Cấu trúc lấy mẫu 4: 4: 4
Lấy mẫu tín hiệu Y, C
R
, C
B
tại tất cả các điểm ảnh của dòng.

Hình 1.5.
Cấu trúc lấy mẫu 4: 4: 4
1.1.2. Các phơng pháp nén Video
Mục tiêu chính của việc nén tín hiệu Video là biểu diễn một nguồn tín
hiệu Video bằng một số bit ít nhất có thể đợc mà vẫn đảm bảo yêu cầu chất
lợng cảm thụ. Với tín hiệu Video, giới hạn dải thông của tín hiệu tơng tự

dạng 4: 4: 4.Định dạng này đợc sử dụng trong các thiết bị dựng phim phi
tuyến và trong đồ hoạ vi tính liên quan đến phim nhựa. Tốc độ bit của định
dạng này cho hệ PAL là:
Với lợng tử hoá 8 bit: (720 + 720 +720) x 576 x 8 x 25 = 249
Mbit/s

Với lợng tử hóa 10 bit: (720 + 720 +720) x 576 x 10 x 25 = 311
Mbit/s.
Trong đó: 720 x 576 là độ phân giải màn hình (576 là số dòng /frame).
25 là tốc độ chuyển ảnh (25 frames/s).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
10
Hiện nay, các thiết bị sử dụng kỹ thuật số ở thị trờng thiết bị Video
chuyên dụng thờng sử dụng chuẩn CCIR 601 4: 2: 2. Theo định dạng số hoá
này, tín hiệu Video thành phần đợc lấy mẫu với tần số 13.5 MHz đối với tín
hiệu chói, và 6,75 MHz đối với hai tín hiệu màu.
Tốc độ dòng dữ liệu của định dạng này đợc tính nh sau:
Khi lấy mẫu 8 bit: (720 +360 +360) x 576 x 8 x 25 = 166 Mbit/s.
10 bit: (720 +360 +360) x 576 x 10 x 25 = 207 Mbit/s.
Nh vậy, so với phơng pháp lẫy mẫu không cắt giảm (4: 4: 4), phơng
pháp này cho phép cắt giảm đợc 33% tốc độ dòng bit.
Với định dạng 4: 1: 1 và 4: 2: 0, tốc độ dòng bit còn đợc cắt giảm
nhiều hơn. Với 8 bit lấy mẫu, tốc độ dòng bit tính cho PAL là:
(720 +180 +180) x 576 x 8 x 25 = 124.4 Mbit/s.
tức là giảm đợc 50% so với nguyên mẫu 4: 4: 4.
1.1.2.2. Nén dòng tín hiệu Video số theo không gian
Gần nh tất cả các ảnh đều chứa một số lợng lớn các giá trị dữ liệu
thông tin giống nhau. Trong các hệ thống không giảm dữ liệu, các dữ liệu
giống nhau này đợc lặp lại để tạo lại các vùng đều nhau trong một ảnh (ví dụ,

Để đạt đợc hiệu quả nén cao mà vẫn đảm bảo chất lợng hình ảnh,
ngời ta sử dụng tổ hợp các phơng pháp trên. Phơng pháp nén Video theo
chuẩn MPEG là một phơng pháp nén tổ hợp của các phơng pháp trên.
1.1.3. Tham số nén Video.
Tham số nén Video đợc đề cập đến ở đây là định dạng ảnh và tỉ số
nén, tỉ số nén cho phép đánh giá hiệu quả của hệ thống nén. Khi so sánh tỉ số
nén của các hệ thống nén khác nhau, thì định dạng ảnh của các hệ thống nén
trên phải giống nhau.
Định dạng bao gồm:
Số dòng/ảnh và số pixel/dòng.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
12
Số frame/s.
Và cấu trúc lấy mẫu bao gồm: 4: 4: 4, 4: 2: 2, 4: 2: 0, 4: 1: 1, độ phân
giải của mẫu là 8/10 bit (hoặc 12 bit).
Tốc độ bit của ảnh gốc (trớc khi nén) có thể rút ra từ công thức:

Ví dụ: với tốc độ bit dữ liệu ảnh gốc 166 Mbit/s ở trên áp dụng vào máy
ghi hình đĩa PDR-100 (Tektronix), và giả sử chất lợng nén tơng đơng
24Mbit/s, thì tỉ số nén là 166/24 = 6.92.
1.2. Giới thiệu chung về chuẩn MPEG
Chuẩn MPEG (Moving Picture Expert Group) đợc xây dựng và phát
triển bởi các tổ chức ISO và IEC (International Electrotechnical Commission)
với mục đích mã hoá tín hiệu hình ảnh và âm thanh cho DSM (
Digital Storage
Media), DSS (Digital Satellite System), HDTV (High Definition Television),
VideoConferencing, Internet Video, và các ứng dụng Video số. Chuẩn MPEG
ngày càng đợc sử dụng rộng rãi trong nhiều ứng dụng lu trữ, truyền thông
đa phơng tiện, và đợc biết đến với các chuẩn MPEG-1, MPEG-2, MPEG-4,

trng cho một tập tiêu chuẩn biểu diễn nhiều loại thông tin multimedia
khác nhau. MPEG-7 không phải là chuẩn nén.
Sơ đồ giới thiệu các chuẩn nén và các công nghệ nén xem hình 1.6:

Hình 1.6.
Các chuẩn, các công nghệ nén, truyền thông đa phơng tiện
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
14
1.3. Các khái niệm cơ bản trong nén
Video
theo chuẩn MPEG.
1.3.1. Cấu trúc phân cấp Video theo chuẩn MPEG.
Cấu trúc dòng bit Video đợc chia thành phân cấp các lớp (layer) để hỗ
trợ quản lý lỗi, truy cập ngẫu nhiên, dựng hình (editting) và đồng bộ với dòng
bit audio.
Block: Là các khối kích thớc 8x8 điểm ảnh của tín hiệu chói và màu đợc
dùng để biến đổi DCT.
Macroblock: Một Macroblock là một nhóm các khối DCT (theo nội dung
thông tin) trong ảnh gốc. Header của Marcroblock chứa thông tin về các
khối độ chói và độ màu, và thông tin bù chuyển động. Có ba loại
Macroblock (phân loại theo phơng pháp mã hoá Macroblock):
u
Skipped MB:
sử dụng dự đoán từ
frame
giải mã trớc đó với véctơ
chuyển động bằng 0. Không có thông tin về Macroblock đợc giải
mã cũng nh đợc truyền đến nơi nhận.
u Inter MB: sử dụng dự đoán bù chuyển động từ frame trớc đó. Do

kết một hoặc nhiều frame I, và các frame P, và/hoặc frame B. Cấu trúc
GOP đợc biểu diễn thông qua hai tham số: n (số frame trong GOP) và m
(khoảng cách dự đoán), thông thờng n=15, m = 3. Mỗi GOP bắt đầu bằng
một
frame
I. Thứ tự các ảnh dòng mã là thứ tự mà qua quá trình giải mã
đa chúng trở lại bình thờng. Đặc biệt, ảnh B trong dòng giải mã đợc
đa ngay ra màn hình; ảnh mã cuối cùng của nhóm ảnh (trong thứ tự trình
diễn) là ảnh I hoặc P.
Chuỗi Video (Video sequence): Là lớp cao nhất của phân cấp mã hoá.
Chuỗi chứa một header, một hoặc nhiều GOP và một mã kết thúc chuỗi.
Thông tin quan trọng nhất chứa trong header là kích thớc theo chiều
ngang và đứng của mỗi ảnh, tỉ lệ pixel, tốc độ bit của ảnh trong chuỗi, tốc
độ ảnh và các kích thớc tối thiểu của bộ nhớ cho bộ giải mã, . . . . để khởi
gán trạng thái của bộ giải mã. Chuỗi Video và thông tin header tạo thành
dòng bit mã hoá, đợc gọi là dòng sơ cấp Video ES (elementary stream).
§å ¸n cao häc §TVT 2003
NguyÔn H÷u Ph¸t
16

H×nh 1.7.
C¸c líp video theo chuÈn MPEG

H×nh 1.8. C
Êu tróc dßng d÷ liÖu MPEG
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
17
1.3.2. Phân loại frame Video.
Căn cứ vào đặc tính của

(MB) nào đó đợc sử dụng từ ảnh gốc.
Frame P cho hệ số nén cao hơn, và có thể sử dụng làm một frame so
sánh, tham chiếu cho việc bù chuyển động cho các frame P và B khác.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
18

Hình 1.9.
Nội suy bù chuyển động
Frame B (
B
idirectionally
P
redicted
0
icture):
Bộ mã hoá cũng có thể sử dụng đồng thời dự đoán thuận và ngợc. Những
frame này gọi là frame dự đoán nội suy 2 chiều (Bi-directional
Interpolated Prediction), hay frame B. Không nh frame I (đợc dự đoán
độc lập) và frame P (đợc dự đoán dựa vào frame I hoặc P trớc đó), frame
B đợc dự đoán 2 chiều dựa vào cặp frame I và P, hoặc P và P, hoặc P và I
(với
frame
I của nhóm ảnh tiếp theo). Việc sử dụng thông tin lấy từ ảnh
trong tơng lai hoàn toàn có thể thực hiện đợc vì tại thời điểm mã hoá thì
bộ mã hoá đã sẵn sàng truy cập tới ảnh phía sau. Frame B cho tỉ lệ nén cao
nhất, và không đợc dùng làm frame tham chiếu.
Theo phơng pháp nén này, frame I gọi là frame intra (sử dụng kỹ thuật
mã hoá intraframe), frame P và B gọi là các frame Inter (sử dụng kỹ thuật mã
hoá interframe).

thị. Hình dới trình bày thứ tự truyền dẫn và thứ tự hiển thị ảnh.

Hình 1.11.
Thứ tự truyền dẫn và thứ tự hiển thị ảnh
Chuẩn MPEG không định nghĩa số lợng giới hạn các frame B liên tiếp
trong nhóm ảnh, nên số lợng frame B liên tiếp phụ thuộc vào từng ứng dụng.
Thông thờng, số lợng này là 2 (I, B, B, P, B, B, P) để đảm bảo hiệu quả nén
và chất lợng Video.
Một cấu trúc nhóm ảnh thông thờng đợc mô tả bởi hai tham số: n - số
ảnh trong một nhóm và m - số khoảng cách cho ảnh B. Nh ví dụ trên n=9 và
m=3.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
21
1.4. Phơng pháp nén ảnh
Video
theo chuẩn MPEG.
1.4.1. Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG.
Nén Video số nhằm mục đích loại bỏ d thừa không gian và d thừa
thời gian trong chuỗi Video mà không ảnh hởng đến mức độ cảm thụ của mắt
ngời.
Trong phơng pháp nén Video theo chuẩn MPEG có hai kỹ thuật nén
đợc sử dụng là:
Kỹ thuật mã hoá Intra frame: Kỹ thuật mã hoá Intra frame nhằm giảm
độ d thừa không gian trong một frame. Kỹ thuật này xuất phát từ mối
tơng quan không gian giữa các điểm ảnh trong một ảnh, từ đó để nén ảnh
hiệu quả. Phơng pháp đợc sử dụng để giảm d thừa không gian là kỹ
thuật mã hoá biến đổi Cosine rời rạc (DCT) trên các khối 8x8 điểm ảnh.
Kỹ thuật này đã đợc sử dụng trong phơng pháp nén ảnh tĩnh trình bày ở
Chơng 2.

Lấy mẫu màu nghĩa là lấy mẫu màu ở tần số thấp hơn tần số lấy mẫu
theo lý thuyết Nyquist hoặc Shannon.
Mắt ngời nhạy cảm nhất với độ phân giải thành phần độ chói của ảnh
và ít nhạy cảm với thông tin về màu. Lấy mẫu là một phơng pháp giảm dữ
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát
23
liệu rất có hiệu quả, nhng sự tổn thất độ phân giải ảnh và các thành phần
chồng phổ sẽ làm giảm chất lợng nội dung ảnh gốc. Vì lý do này, nên không
dùng lấy mẫu thấp cho tín hiệu chói. Cấu trúc lấy mẫu thờng dùng là 4: 2: 2
và 4: 2: 0. MPEG dùng cấu trúc 4: 2: 0.
1.4.3. Lợng tử hoá.
Lợng tử hoá đợc thực hiện bằng cách chia mỗi hệ số DCT cho các giá trị
kích thớc bớc lợng tử tơng ứng trong bảng lợng tử, sau đó làm tròn về số
nguyên gần nhất.

(,)
(,)
(,)
q
Suv
Suv
Quv

=

trong đó:
- [] là làm tròn về số nguyên gần nhất.

Hình 1.13. Xác định vectơ chuyển động
mv
(
m
otion
v
ector)
1.4.5.2. Bù chuyển động (Motion Compensation).
Trong thực tế thì không phải khối tơng thích lúc nào cũng giữ nguyên
trạng thái cân bằng sau khi dịch chuyển mà trong quá trình dịch chuyển nó bị

Trích đoạn So sánh mã hoá LZC và 3D-SPIHT Mã hoá tốc độ đa phân giải Đối t−ợng-Cơ sở mã hoá sử dụng EZBC Kết quả thử nghiệm H−ớng phát triển cho t−ơng lai

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

luận văn thạc sĩ cao học ngành điện tử viên thông đề tài nén ảnh động dùng WAVELET - Pdf 14

Tài liệu, ebook tham khảo khác

Học thêm