phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số - Pdf 15

LỜI MỞ ĐẦU
Truyền hình nói chung đã và đang đáp ứng được rất nhiều nhu cầu thiết yếu
của con người như : giải trí, giáo dục, văn hóa, chính trị, nghệ thuật…Cùng với sự
phát triển khoa học kĩ thuật, truyền hình đã liên tục được cải tiến từ những hệ thồng
truyền hình sơ khai,truyền hình đen trắng, truyền hình màu và truyền hình số ra đời
đã có một sự phát triển nhảy vọt về chất bằng việc số hoá tín hiệu truyền hình. Công
nghệ truyền hình số ra đời có nhiều ưu điểm hơn hẳn so với truyền hình tương tự
như: tính chống nhiễu cao, chất lượng âm thanh, hình ảnh tốt và đồng đều, dàn
dựng được nhiều kỹ xảo phức tạp mà truyền hình tương tự không thể thực hiện
được. Nhất là trong các yêu cầu về truyền dẫn, phát, lưu trữ dữ liệu, tín hiệu truyền
hình từ ảnh đen trắng, ảnh đen trắng lồng tiếng, ảnh mầu có lồng tiếng và việc
quảng bá đòi hỏi phải ghép các tín hiệu thành phần thành tín hiệu của một kênh duy
nhất. Sau đó, nhu cầu về các dịch vụ truyền hình đa chức năng (multimedia) và
tương tác hai chiều giữa trung tâm phát hình và người sử dụng đòi hỏi độ rộng kênh
truyền phải lớn mà dải thông của các kênh thông tin hạn chế. Do vậy để đáp ứng
nhu cầu về truyền dẫn và lưu giữ thông tin ngày càng tăng trưởng mạnh mẽ theo
hàm mũ, bên cạnh việc nghiên cứu và áp dụng các công nghệ thông tin mới thì việc
áp dụng các kỹ thuật nén dữ liệu cũng đóng vai trò quyết định.
Trong những năm gần đây, có rất nhiều các phương pháp đã và đang được
nghiên cứu rộng rãi để thực hiện nén ảnh. Tất cả đều với một mục đích chung là
làm thế nào để biểu diễn một ảnh với ít bit nhất để có thể tối thiểu hoá dung lượng
kênh truyền và không gian lưu trữ trong khi vẫn giữ được tính trung thực của ảnh.
Điều này tương đương với việc biểu diễn ảnh có độ tin cậy cao nhất với tốc độ bit
nhỏ nhất.Để hiểu sâu hơn về lĩnh vực nén dữ liệu đặc biệt là nén ảnh số, em đã chọn
đề tài:"PHÂN TÍCH PHƯƠNG PHÁP BIẾN ĐỔI COSIN RỜI RẠC ĐỂ NÉN
ẢNH TRONG TRUYỀN HÌNH KỸ THUẬT SỐ" làm đề tài bảo vệ tốt nghiệp.
Nội dung đề tài gồm 3 chương là:
+Chương I: Tổng quan về truyền hình kỹ thuật số và vấn đề nén ảnh số.
+Chương II: Quá trình nén ảnh số dựa trên phép biến đổi cosin rời rạc.
1
+Chương III: Mô phỏng biến đổi cosine rời rạc hai chiều (DCT2-D) trong

Đầu vào của thiết bị truyền hình số sẽ tiếp nhận tín hiệu truyền hình tương tự.
Trong thiết bị mã hoá (biến đổi A/D), tín hiệu hình sẽ được biến đổi thành thiết bị
truyền hình số, các tham số và đặc trưng của tín hiệu này được xác định từ hệ thống
3
Biến
đổi A/D
Biến
đổi
D/A
Mã hóa
nguồn
Giải mã
hóa
nguồn
Mã hoá
kênh
Giải mã
hoá kênh
Điều
chế
Giải
điều
chế
Kênh
thông tin
Thiết bị phát
Thiết bị thu
Tín hiệu truyền
hình analog
Tín hiệu truyền

như đối với hệ
NTSC là 14,4 MHz. Nếu thực hiện mã hoá 8 bit/mẫu, tốc độ dòng bít sẽ là 115,2
Mbit/s, độ rộng băng tần khoảng 58 MHz. Trong khi đó tín hiệu tương tự cần 1
băng tần 4,2 MHz. Biện pháp khắc phục sẽ là nén tín hiệu.
b. Tỷ lệ tín hiệu trên tạp âm (S/N)
Nhiễu tạp âm trong hệ thống tương tự có tính chất cộng các nguồn nhiễu thành
phần gây ra, vì vậy luôn nhỏ hơn tỷ lệ S/N của khâu có tỷ lệ thấp nhất.
4
Đối với tín hiệu số nhiễu là các bít lỗi được khắc phục bằng mạch sửa lỗi. Khi
có quá nhiều bít lỗi, sự ảnh hưởng của nhiễu được làm giảm bằng cách che lỗi, tỷ số
S/N của hệ thống sẽ giảm rất ít hoặc không đổi trừ trường hợp tỷ lệ lỗi quá lớn làm
cho mạch sửa lỗi mất tác dụng khi đó dòng bít không còn ý nghĩa tin tức.
Ý nghĩa: tính chất này của hệ thống số đặc biệt có ích cho việc sản xuất chương
trình truyền hình với các chức năng biên tập phức tạp cần nhiều lần đọc và ghi. Việc
truyền tín hiệu qua nhiều chặng cũng được thực hiện rất thuận lợi với tín hiệu số mà
không làm suy giảm chất lượng hình.
c. Méo phi tuyến
Tín hiệu số không bị ảnh hưởng của méo phi tuyến trong quá trình ghi và
truyền. Cũng như đối với tỷ lệ S/N tính chất này rất quan trọng trong quá trình ghi
đọc nhiều lần.
d. Chồng phổ (Aliasing)
Một tín hiệu số được lấy mẫu theo cả chiều ngang và chiều dọc nên có khả năng
xảy ra chồng phổ theo cả 2 hướng. Theo chiều dọc chồng phổ trong hệ thống tương
tự và số là như nhau. Độ lớn của méo chồng phổ theo chiều ngang phụ thuộc vào
thành phần tần số vượt quá tần số lấy mẫu giới hạn Nyquist. Để ngăn ngừa hiện
tượng chồng phổ theo chiều ngang có thể thực hiện bằng cách sử dụng tần số lấy
mẫu bằng 2 lần tần số cao nhất trong hệ thống tương tự.
e. Giá thành và độ phức tạp
Các thiết bị số hiện nay có xu hướng nhỏ gọn dễ sử dụng và giá thành rẻ. Nâng
cao tính tương thích và tích hợp nhiều công nghệ cao trong 1 sản phẩm.

6
Dòng 1,mành 2
Dòng 2,mành 2
Dòng 2,mành 1
Dòng 1,mành 1
Dòng 1,mành 2
Dòng 2,mành 2
Dòng 2,mành 1
Dòng 1,mành 1
Các mẫu trên các dòng kề nhau thuộc 1 mành xếp thẳng hàng theo chiều đứng
(trực giao), nhưng các mẫu thuộc mành 1 lại dịch đi một nửa chu kỳ lấy mẫu so với
các mẫu mành thứ 2.
Phân bố phổ tần của các cấu trúc quincunx mành rất có ý nghĩa đối với mành 1,
nó cho phép giảm tần số lấy mẫu theo dòng. Phổ tần cấu trúc nói trên của mành 2 so
với phổ mành 1 bị dịch và có thể lồng với phổ tần cơ bản, gây ra méo ở các chi tiết
ảnh (khi hình ảnh có các sọc hoặc các đường thẳng đứng)
A3. Cấu trúc ‘quincunx’ dòng
Hình 1.4 Cấu trúc ‘quincunx’ dòng
Các mẫu trên các dòng kề nhau của 1 mành sẽ lệch nhau nửa chu kỳ lấy mẫu,
các mẫu trên dòng của 2 mành kế tiếp sẽ lệch nhau nửa chu kỳ lấy mẫu.
Cấu trúc này không xảy ra trường hợp lồng các phổ biên với phổ chính và
không bị méo. Điều này cho phép sử dụng tần số lấy mẫu nhỏ hơn 25% tần số
Nyquist, tiết kiệm được độ rộng của tín hiệu số.
Tuỳ theo cấu trúc lấy mẫu sẽ xuất hiện loại méo ảnh đặc trưng. Với cấu trúc
trực giao độ phân giải ảnh sẽ giảm. Đối với cấu trúc ‘quincunx’ mành sẽ xuất hiện
nhấp nháy các điểm ảnh. Cấu trúc ‘quincunx’ dòng sẽ xuất hiện các vòng tròn theo
chiều ngang (méo đường biên).
Như vậy cấu trúc trực giao có nhiều ưu điểm hơn, nó cho chất lượng ảnh cao
nhất vì đối với mắt người độ phân giải giảm còn dễ chấp nhận hơn 2 loại méo kể
trên.

+ Khi lấy mẫu 8 bit: (720 + 720 + 720) x 576 x 8 x 25 = 249 Mbit/s
+ Khi lấy mẫu 10 bit: (720 + 720 + 720) x 576 x 10 x 25 = 311 Mbit/s
B2. Tiêu chuẩn 4:2:2
Điểm đầu lấy mẫu toàn bộ 3 tín hiệu: chói Y và tín hiệu màu (C
R
, C
B
). Điểm kế
tiếp chỉ lấy mẫu tín hiệu chói Y, còn 2 tín hiệu màu không lấy mẫu. Khi giải mã
màu suy ra từ màu của điểm ảnh trước.
Điểm sau nữa là lấy mẫu đủ 3 tín hiệu Y, C
R
, C
B

Tuần tự như thế cứ 4 lần lấy mẫu tín hiệu chói Y, thì 2 lần lấy mẫu C
R
, 2 lần lấy
mẫu C
B
tạo nên cơ cấu 4:2:2

8
Điểm lấy mẫu tín hiệu chói Y
Điểm lấy mẫu màu đỏ C
R
Điểm lấy mẫu màu lam C
B
Điểm lấy mẫu tín hiệu chói Y
Điểm lấy mẫu màu đỏ C

×
25 = 155,5 Mbit/s
Hình 1.7 Tiêu chuẩn 4:2:0
B4. Tiêu chuẩn 4:1:1
Điểm ảnh đầu lấy mẫu đủ Y, C
R
, C
B
Ba điểm ảnh tiếp theo chỉ lấy Y không lấy mẫu C
R
, C
B

Khi giải mã màu của 3 điểm ảnh sau phải suy ra từ điểm ảnh đầu. Tuần tự như
thế cứ 4 lần lấy mẫu Y, một lần lấy mẫu C
B.
9
Điểm lấy mẫu tín hiệu chói Y
Điểm lấy mẫu màu đỏ C
R
Điểm lấy mẫu màu lam C
B
Hình1.8 Tiêu chuẩn 4:1:1
Đối với hệ PAL tốc độ dòng dữ liệu theo chuẩn này được tính như sau:
+ Khi lấy mẫu 8 bit: (720 + 180 + 180)
×
576
×
8
×

dụng trong ảnh. Giá trị của một phần tử trong ma trận dữ liệu ảnh cho biết màu của
điểm ảnh đó nằm ở hàng nào trong ma trận màu.
10
Điểm lấy mẫu tín hiệu chói Y
Điểm lấy mẫu màu đỏ C
R
Điểm lấy mẫu màu lam C
B
+ Ảnh grayscale: Mỗi ảnh được biểu diễn bởi một ma trận hai chiều, trong
đó giá trị của mỗi phần tử cho biết độ sang (hay mức xám) của điểm ảnh đó. Ma
trận này có thể một trong các kiểu uint8, uint16 hoặc double. Ảnh biểu diễn theo
kiểu này còn gọi là ảnh „trắng đen‟.
+ Ảnh nhị phân: Ảnh được biểu diễn bởi một ma trận hai chiều thuộc kiểu
logical. Mỗi điểm ảnh chỉ có thể nhận một trong hai giá trị là 0 (đen) hoặc 1 (trắng)
+ Ảnh RGB: Còn gọi là ảnh “truecolor” do tính trung thực của nó. Ảnh này
được biểu diễn bởi một ma trận ba chiều kích thước m x n x 3, với m x n là kích
thước ảnh theo pixels. Ma trận này định nghĩa các thành phần màu red, green, blue
cho mỗi điểm ảnh, các phần tử của nó có thể thuộc kiểu uint8, uint16 hoặc double.
b. Biểu diễn ảnh số
Đối với ảnh đen trắng thì ảnh được biểu diễn bằng một hàm cường độ sáng hai
chiều f(x,y), trong đó x,y là các giá trị tọa độ không gian và giá trị f tại một điểm
(x,y) sẽ tỉ lệ với độ sáng ( hoặc mức xám) của ảnh tại điểm này.
Một ảnh số là một ảnh f(x,y) được gián đoạn theo không gian và độ sáng. Một
ảnh số được xem như một ma trận với hang và cột biểu diễn một điểm trong ảnh và
giá trị điểm ma trận tương ứng mức xám tại điểm đó. Các phần tử của một dãy số
như thế được gọi là các điểm ảnh (pixel).
Kích thước của một ảnh số thay đổi theo mục đích sử dụng.

Hình 1.9 Biểu diễn ảnh số
Ví dụ một ảnh có chất lượng ảnh truyền hình đen trắng sẽ có kích thước 512 x 512

và với khoảng cách ngắn việc nén dải tần chỉ mang tính kinh tế, việc truyền tín hiệu
có thể thực hiện mà không cần nén. Song sẽ rất khó khăn, thậm chí không thể thực
hiện được việc truyền tín hiệu video số qua vệ tinh với độ rộng tải tần một kênh
27MHz hoặc qua hệ thống truyền hình quảng bá trên mặt đất với tiêu chuẩn
7÷8MHz cho một kênh truyền hình tiêu chuẩn. Do vậy nén tín hiệu video là công
đoạn không thể thiếu để khắc phục được những khó khăn trên.
12
1.2.1 Cơ sở nén ảnh
Nén về cơ bản là một quá trình trong đó lượng số liệu (data) biểu diễn lượng
thông tin của một ảnh được giảm bớt bằng cách loại bỏ những số liệu dư thừa
trong tín hiệu video. Các chuỗi ảnh truyền hình có nhiều thành phần ảnh giống
nhau. Vậy tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua
mà không làm mất thông tin hình ảnh. Đó là các phần xóa dòng, xóa mành, vùng
ảnh tĩnh hoặc chuyển động rất chậm, vùng ảnh nền giống nhau, mà ở đó các
phần tử liên tiếp giống nhau hoặc khác nhau rất ít. Thường thì chuyển động
trong ảnh truyền hình có thể được dự báo, do đó chỉ cần truyền các thông tin về
chuyển động. Các phần tử lân cận trong ảnh thường giống nhau, do đó chỉ cần
truyền thông tin biến đổi. Các hệ thống nén sử dụng đặc tính này của tín hiệu
video và các đặc trưng của mắt người (là kém nhạy với sai số trong hình ảnh có
nhiều chi tiết và các phần tử chuyển động
 Sự dư thừa về mặt không gian (spatial redundancy): Các điểm ảnh kề nhau
trong một mành có nội dung gần giống nhau.
 Sự dư thừa về mặt thời gian (temporal redundancy): Các điểm ảnh có cùng vị
trí ở các mành kề nhau rất giống nhau.
 Sự dư thừa về mặt cảm nhận của con người: Mắt người nhạy cảm hơn với
các thành phần tần số thấp và ít nhạy cảm với sự
thay đổi nhanh, tần số cao. Do vậy, có thể coi nguồn hình ảnh là nguồn có nhớ
(memory source). Nén ảnh thực chất là quá trình sử dụng các phép biến đổi để loại
bỏ đi các sự dư thừa và loại bỏ tính có nhớ của nguồn dữ liệu, tạo ra nguồn dữ liệu
mới có lượng thông tin nhỏ hơn. Đồng thời sử dụng các dạng mã hoá có khả năng

Ở tầng đầu tiên của bộ mã hoá video, tín hiệu video được trình bày dưới dạng
thuận tiện để nén có hiệu quả nhất. Sự biểu diễn có thể chứa nhiều mẩu thông tin để
mô tả tín hiệu hơn là chính tín hiệu nhưng hầu hết các thông tin quan trọng chỉ tập
trung trong 1 phần nhỏ của sự mô tả này. Trong cách biểu diễn có hiệu quả chỉ có
phần nhỏ dữ liệu là cần thiết để truyền cho việc tái tạo lại tín hiệu video.
Bước thứ 2 của bộ mã hoá là lượng tử hoá giúp rời rạc hoá thông tin được biểu
diễn. Để truyền tín hiệu video qua 1 kênh số những thông tin biểu diễn được lượng
tử hoá thành 1 số hữu hạn các mức.
Bước thứ 3 là gán từ mã. Các từ mã này là 1 chuỗi bit dùng để biểu diễn các
mức lượng tử. Các quá trình sẽ ngược lại trong bộ giải mã video.
Mỗi quá trình sẽ cố gắng loại bỏ phần dư trong tín hiệu video và tận dụng sự
giới hạn trong hệ thống nhìn của mắt người. Nhờ bỏ đi các phần tử dư thừa, các
thông tin giống nhau hay có liên quan đến nhau sẽ không được truyền đi. Những
thông tin không ảnh hưởng đến khả năng nhìn của mắt cũng sẽ không được truyền
đi.
1.2.2 Các phương pháp nén ảnh
Các thuật toán nén có thể phân làm hai loại: Nén không tổn thất (lossless
compression) và nén có tổn thất (lossy compression).
 Thuật toán nén không tổn thất, không làm suy giảm, tổn hao dữ liệu: Do
vậy, ảnh khôi phục hòan toàn chính xác với ảnh nguồn.
 Các thuật toán nén có tổn thất chấp: nhận loại bỏ một số thông tin không
quan trọng như các thông tin không quá nhạy cảm với cảm nhận của con người để
đạt được hiệu suất nén cao hơn. Do vậy, ảnh khôi phục chỉ rất gần chứ không phải
là ảnh nguyên thủy.
Đối với nén có tổn thất, chất lượng ảnh là mội yếu tố vô cùng quan trọng.
Tuỳ theo yêu cầu ứng dụng mà các mức độ loại bỏ khác nhau được sử dụng, cho
mức độ chất lượng theo yêu cầu.
1.2.3 Một số phương pháp mã hóa dùng trong kỹ thuật nén
a. Lý thuyết thông tin_Entropy
Entropy là phép đo trung bình nội dung thông tin của một ảnh được lấy mẫu

64 64 64 64
H x = − − =
bit/phần tử. (1.2)
Entropy của block ảnh 2 là:

( )
2 2 2
32 32 32 32
log log 1,0
64 64 64 64
H x = − − =
bit/phần tử (1.3)
Như vậy số lượng bit trung bình tối thiểu để truyền một phần tử ảnh đối với
block ảnh 1 là 0,116bit/pixel và đối với block ảnh 2 là 1bit/pixel. Tức là ảnh 2 chứa
lượng thông tin nhiều hơn ảnh 1.
“Entropy” của nguồn tin quy định giới hạn dưới tốc độ bit tại đầu ra bộ mã
hoá. Phương pháp mã hoá nào có độ dài mã trung bình (số bit trung bình cần để mã
hoá một mẫu) càng gần giá trị H thì phương pháp mã hoá đó càng hiệu quả.
b. Mã hóa loạt dài RLC (Run length coding)
Sự liên tiếp lặp đi lặp lại các điểm ảnh trong ảnh số xuất hiện là do sự tương
quan giữa các điểm ảnh, đặc biệt đối với ảnh 2 mức. Từ sự lặp đi lặp lại này 1
phương pháp nén đã được xây dựng trên cơ sở sử dụng số lần lặp lại của các điểm
ảnh, phương pháp này gọi là phương pháp RLC. RLC tách chuỗi các giá trị giống
nhau và biểu điễn như là 1 tổng. Khi giãn giá trị này tạo lại số lần biểu diễn tổng.
Kỹ thuật này chỉ có thể áp dụng cho các chuỗi symbols tuyến tính. Do đó khi áp
dụng cho ảnh 2 chiều, hình ảnh được tách thành 1 chuỗi các dòng quét.
Có 2 cách để mã hoá RLC:
+ Tạo ra những từ mã cho mỗi độ dài chạy và kết hợp với symbol nguồn.
+ Sử dụng 1 số độ dài chạy và 1 symbol nguồn nếu như symbol nguồn không phải
là 1 số hay 1 ký tự đặc biệt để chỉ ra cho mỗi symbol nguồn.

2
) = H + P + 0,086 (1.4)
Trong đó H là lượng entropy nguồn, P là xác suất của tất cả các symbol như
nguồn.
Các bước mã hoá Huffman:
+ B1: Liệt kê xác suất của các symbol nguồn và tạo ra các nút bằng cách cho
những xác suất này thành các nhánh của cây nhị phân.
16
+ B2: Lấy 2 nút tới xác suất nhỏ nhất từ tập nút tạo ra 1 xác suất mới bằng tổng các
xác suất đó.
+ B3: Tạo ra 1 nút mẹ với các xác suất mới và đánh dấu 1 nút con mới bằng tổng
các xác suất đó.
+ B4: Tạo tiếp tập nút bằng cách thay thế 2 nút với xác suất nhỏ nhất cho nút mới.
Nếu tập nút chỉ chứa 1 nút thì kết thúc, ngược lại quay lại bước 2.
Hình 1.11 Cây mã Huffman
Cây mã Huffman là cây nhị phân có các nhánh được gán cho các giá trị 0 hoặc
1. Gốc của cây là nút gốc, các điểm rẽ nhánh gọi là nút nhánh. Điểm kết thúc của 1
nhánh gọi là nút lá. Mỗi nút lá được gán tương ứng với 1 phần tử mã hoá. Từ 1 nút
nhánh khi rẽ thành 2 nhánh mới thì nhánh bên trái được gán giá trị 0, nhánh bên
phải gán giá trị 1 (có thể ngược lại). Từ mã của 1 symbol được xác định bằng cách
đi từ nút gốc đến nút lá tương ứng với symbol đó. Các bit của cá00c từ mã được tập
hợp từ các giá trị tương ứng của nhánh phải đi qua
e. Mã hoá dự đoán (Predictive coding)
Như đã nói, nguồn ảnh chứa một lượng thông tin rất lớn. Nếu mã hoá trực
tiếp nguồn tin này theo PCM, tốc độ dòng bit thu được sẽ rất cao. Mặt khác, nguồn
ảnh lại chứa đựng sự dư thừa và tính “có nhớ”: giữa các điểm ảnh lân cận có mối
quan hệ tương hỗ với nhau.
Mã hoá dự đoán được xây dựng dựa trên nguyên tắc cơ bản như sau:
 Lợi dụng mối quan hệ tương hỗ này, từ giá trị các điểm ảnh lân cận,
theo một nguyên tắc nào đó có thể tạo nên một giá trị gần giống điểm ảnh hiện

tần số theo một ma trận biến đổi phù hợp. Từ khối N giá trị mẫu điểm lân cận nhau
s = {s(n),s(n+1), , s(n-N+1)}, thu được khối N hệ số c = (c1, c2, , cN).
Phép biến đổi này có tính thuận nghịch, các hệ số này hoàn toàn có thể hồi phục
thành giá trị tín hiệu ban đầu bằng phép chuyển đổi ngược.
So với nguồn giá trị thực của điểm ảnh, nguồn các hệ số là không có nhớ.
Mặt khác, thông tin của nguồn ảnh tập trung phần lớn ở các thành phần tần số thấp,
nên trong khối các hệ số, thông tin cũng tập trung tại một số ít các hệ số chuyển đổi
ci.
Do vậy sẽ giảm được lượng bit nếu mã hoá các hệ số nμy thay cho việc mã
hoá trực tiếp các mẫu. Số lượng bit mã hoá còn có thể giảm hơn nữa nếu lợi dụng
đặc điểm của mắt người không nhạy cảm với sai số ở tần số cao. Bởi vậy,có thể sử
dụng bước lượng tử thô cho các hệ số ứng với tần số cao mà không làm giảm sút
chất lượng ảnh khôi phục.
Hình vẽ sau đây minh hoạ quá trình mã hoá chuyển đổi cho ảnh số:
18
Hình1.12 Quá trình mã hóa chuyển đổi hai chiều
Hình1.13 quá trình giải mã chuyển đổi hai chiều
Ảnh số được chia thành các khối cỡ pxq. Các khối này sẽ được chuyển đổi
sang miền tần số. Các hệ số biến đổi sẽ được lượng tử hoá và mã hoá. Quá trình giải
mã sẽ áp dụng phép biến đổi ngược đối với các hệ số để hồi phục ảnh ban đầu.
Trong mã hoá chuyển đổi, một điều vô cùng quan trọng là phải chọn được phép
biến đổi phù hợp có khả năng giảm tối đa mối quan hệ tương hỗ giữa các điểm ảnh
trong cùng một khối.
Bản thân phép biến đổi trong mã hoá chuyển đổi không nén dữ liệu. Song
nếu lượng tử hoá các hệ số, rất nhiều hệ số tần số cao sẽ quy tròn về giá trị 0. Việc
lựa chọn bảng lượng tử và số bit mã hoá cho các hệ số cũng rất quan trọng do phần
lớn hiệu suất nén dữ liệu tập trung trong quá trình này. Cuối cùng, mã hoá entropy
được chọn để giảm tối đa tốc độ dòng bít.
1.2.4 Các tiêu chuẩn nén ảnh
a. Chuẩn JPEG

Mã hoá
entropy
Số liệu
ảnh nén
Bảng lượng
tử
Bảng mã hoá
Số liệu
ảnh nén
Giải mã
entropy
Giải lượng tử IDCT
Bảng mã hoá Bảng lượng
tử
Block 88
Block 88
giãn (giải nén). Ở bộ giải nén, bộ mã hoá entropy biến đổi dòng bit được nén thành
1 bảng zig-zag mới có các hệ số DCT. Các hệ số này được nhân với các hệ số giải
lượng tử hoá và đưa đến quá trình biến đổi DCT ngược (Iverse DCT). Đầu ra ta có
1 khối 8
×
8 pixel có thể không tạo lại 1 ảnh chính xác tín hiệu gốc vì thông tin bị
mất trong quá trình mã hoá (nén có tổn hao)
a4. Đặc điểm của M-JPEG
Theo quan điểm coi ảnh động là 1 chuỗi liên tiếp các ảnh tĩnh thì khi đó tiêu
chuẩn JPEG được áp dụng cho việc nén ảnh động và được gọi là M-JPEG.
Vì nén M-JPEG chỉ thực hiện trong mỗi ảnh, điều đó dẫn đến hiệu quả (tỷ số
nén) thấp.
Đặc điểm của nén M-JPEG:
-Tín hiệu 48Mbit/s (hệ số nén 3,5) cho kết quả ảnh rất tốt.

cầu làm tươi chậm. Tốc độ dữ liệu yêu cầu là 9÷40Kbit/s. MPEG-4 hoàn thiện vào
thánh 10/1998 nhằm mục đích phát triển các tiêu chuẩn mã hóa mới với tốc độ bit
rất thấp.
-MPEG-7: Chuẩn này được đề nghị vào thánh 10/1998 và kế hoạch trở thành
chuẩn quốc tế vào tháng 9/2001. MPEG-7 sẽ là chuẩn mô tả thông tin của rất nhiều
loại đa phương tiện. Mô tả này sẽ kết hợp với chính nội dung của nó cho phép khả
năng tìm kiếm nhanh và hiệu quả theo yêu cầu người dùng. MPEG được gọi chính
thức là “Giao thức mô tả nội dung đa phương tiện”.
Tiêu chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên ảnh. Tức là
phương pháp nén có tổn hao dựa trên biến đổi DCT và bù chuyển động.
Tiêu chuẩn MPEG không biểu diễn cấu trúc bộ mã hóa một cách chính xác,
chỉ đặc trưng chính xác các thuật toán nén và kích thước dòng số liệu. Cấu trúc một
hệ thống MPEG cơ bản bao gồm 3 phần chính:
-Bộ đồng bộ và dồn kênh tín hiệu Audio và Video
-Hệ thống Video
22
b2. Nguyên lý nén MPEG:
-Nguyên lý hoạt động:
+Cách hoạt động của bộ mã hóa, phụ thuộc vào loại hình ảnh, là mã hóa tại
thời điểm đang xét. Ta thấy rằng nén MPEG là sự kết hợp giữa nén trong ảnh và
nén liên ảnh. Dạng thức đầu vào là Rec-601 4:2:2 hoặc 4:2:0 được nén liên ảnh
trước tạo ra được ảnh khác biệt ở đầu ra bộ cộng. Ảnh này sau đó lại được nén trong
ảnh qua các bước: biến đổi DCT, lượng tử hóa, mã hóa. Cuối cùng ảnh này được
trộn cùng với vector chuyển động đưa đến bộ khuếch đại đệm sẽ thu được ảnh đã
nén.
+Tốc độ bit của tín hiệu video được nén không cố định, phụ thuộc vào nội
dung ảnh đang xét. Ngược lại, tại đầu ra bộ mã hóa, dòng bit phải cố định để xác
định tốc độ cho dung lượn kênh truyền. Do đó tại đầu ra bộ mã hóa phải có bộ nhớ
đệm đủ lớn. Bộ mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm. Khi số liệu
trong bộ nhớ đệm gần bằng dung lượng cực đại, thì các hệ số biến đổi DCT được

+
+
Vectơ chuyển động
Video
Điều khiển nhóm
ảnh
Bảng lượng tử
CHƯƠNG II
QUÁ TRÌNH NÉN ẢNH DỰA TRÊN
BIẾN ĐỔI COSIN RỜI RẠC (DCT)
2.1 Nguyên lý chung của nén ảnh dựa trên các phép biến đổi
Hình 2.1 Quá trình nén ảnh bằng các phương pháp biến đổi
2.1.1 Khối định dạng khối và cấu trúc khối ( khối tiền xử lý)
Trước khi thực hiện biến đổi DCT cả ảnh được chia thành các khối lớn riêng
biệt không chồng lên nhau (MB - Marco Block). Mỗi MB bao gồm 4 block các mẫu
tín hiệu chói
Y
U
và 2; 4 hoặc 8 block các mẫu tín hiệu số màu (
R
C
,
B
C
). Số các
block của tín hiệu màu phụ thuộc vào tiêu chuẩn của tín hiệu video.
Các block có cùng kích thước mỗi block là 1 ma trận điểm ảnh 8
×
8 được lấy
từ màn hình theo chiều từ trái sang phải, từ trên xuống dưới. Kích thước block là

RLC
Khối
DCT được
lượngtử
Khối 88
các
điểm
chói
ảnh gốc
Cấu trúc MB phụ thuộc vào loại ảnh quét. Nếu quét liên tục thì các block bao
gồm các mẫu từ các dòng liên tục. Ngược lại trong trường hợp quét xen kẽ, trong 1
block chỉ có các mẫu của 1 nửa ảnh.
Việc chia ảnh thành các ảnh con (block,MB) sẽ thực sự có ý nghĩa cho bước chuyển
vị tiếp theo.
2.1.2 Khối phép biến đổi
Một số phép biến đổi ảnh được sử dụng:
a. Biến đổi Fourier:
Biến đổi Fourier – FT (Fourier Transform) là một phép biến đổi thuận nghịch,
nó cho phép sự chuyển đổi thuận – nghịch giữa thông tin gốc (miền không gian
hoặc thời gian) và tín hiệu được xử lý (được biến đổi). Tuy nhiên ở một thời điểm
bất kỳ chỉ tồn tại một miền thông tin được thể hiện. Nghĩa là tín hiệu trong miền
không gian không có sự xuất hiện thông tin về tần số và tín hiệu sau biến đổi
Fourier không có sự xuất hiện thông tin về thời gian. FT cho biết thông tin tần số
của tín hiệu, cho biết những tần số nào có trong tín hiệu, tuy nhiên nó không cho
biết tần số đó xuất hiện khi nào trong tín hiệu. Nếu như tín hiệu là ổn định
(stationary – có các thành phần tần số không thay đổi theo thời gian) thì việc xác
định các thành phần tần số xuất hiện khi nào trong tín hiệu là không cần thiết.
Phép biến đổi FT thuận và nghịch được định nghĩa như sau:
(2.1)
(2.2)

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số - Pdf 15

Tài liệu, ebook tham khảo khác

Học thêm