Luận văn - Xử lí âm thanh và hình ảnh hoàn chỉnh - Pdf 99

Luận văn
Xử lí âm thanh và hình
ảnh hoàn chỉnh
1
MỤC LỤC
DANH MỤC HÌNH VẼ, BẢNG BIỂU 6
CÁC THUẬT NGỮ VIẾT TẮT 11
CHƯƠNG I: GIỚI THIỆU 15
Hình 1.1: Hình ảnh và video nén để truyền hình ảnh và lưu trữ 16
1.1. Nhu cầu cần thiết của việc nén hình ảnh và video: 16
1.2. Tính khả thi của việc nén hình ảnh và video: 17
1.2.1. Dư thừa thống kê: 17
1.2.1.1. Không gian Redundancy 17
1.2.1.2 Thời gian dự phòng 19
Hình 1.4: Phổ công suất điển hình của một tín hiệu phát sóng truyền hình 22
Hình 1.5: (a) khung 21, và (b) khung hình 22 "Hoa hậu Mỹ" 23
1.2.1.3. Mã hóa Dự phòng 23
1.2.2. Dự phòng PSYCHOVISUAL 25
Hình 1.6 Mô hình hai đơn vị xếp tầng của hệ thống thị giác của con người
(HVS) 25
1.2.2.1. Mặt nạ chói 26
Hình 1.7: Một đối tượng thống nhất với màu xám mức I1 với nền tảng là màu
xám ở mức I2 27
Hình 1.8 Cầu Burrard ở Vancouver. (a) hình ảnh gốc (lịch
sự Shi của Minhuai). (b) Hình ảnh đồng nhất bị
hỏng bởi nhiễu phụ trắng Gaussian 29
1.2.2.2. Kết cấu mặt nạ 29
2
Hình 1.9 Giáng sinh tại Winorlia. (a) Bản gốc. (b)-bit lượng tử hóa. (c) Cải
thiện lượng IGS với bốn bit 30
1.2.2.3 Tần số mặt nạ 31

hình chữ nhật 54
Hình 11.1. Khối kết hợp 55
11.2. Tiêu chí kết hợp 56
Hình 11.2. Cửa sổ tìm kiếm và cửa sổ tương quan 57
11.3. Thủ tục tìm kiếm 58
11.3.1. Tìm kiếm đầy đủ 58
11.3.2. Tìm kiếm Logarít 58
Hình 11.3: (a) 2-D lôgarít tìm kiếm thủ tục. tại điểm (j, k+2), (j+2, k+2), (j+2,
k+4), và (j+1, k+4). Được tìm thấy để cung cấp cho sự khác nhau tối thiểu trong
các bước 1, 2, 3, và 4, tương ứng lôgarít tìm kiếm thủ tục. (b) A 2-D lôgarít tìm
kiếm thủ tục tại điểm (j, k-2), (j +2, k-2), và (j +2, k-1) được tìm thấy để cung
cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng 60
Hình 11.4 thủ tục tìm kiếm ba bước. Điểm (j +4, k-4), (j +4, k-6), và (j +5,k-7)
cung cấp cho tối thiểu sự khác nhau trong các bước 1, 2 và 3, tương ứng 61
11.3.3. Ba bước tìm kiếm đơn giản 61
11.3.4. Hướng tìm kiếm liên hợp 61
Hình 11.5: Hướng tìm kiếm liên hợp 62
11.3.5. Lấy mẫu con trong cửa sổ tương quan 62
4
11.3.6. Đa phân giải khối kết hợp 63
Hình 11.6: một ví dụ về lấy mẫu con 2 x 2 trong khối ban đầu và cửa sổ tương
quan cho tìm kiếm một cách nhanh chóng 64
Hình 11.7 Gaussian cấu trúc kim tự tháp 65
11.3.7. Ngưỡng phù hợp với nhiều độ phân giải 65
Hình 11.8: Sơ đồ chặn cho phù hợp với ngưỡng ba cấp độ phân giải 67
Bảng 11.1: Các tham số được sử dụng trong những thí nghiệm này 67
Hình 11.10: Khung thứ 20 của chuỗi “Tàu hỏa” 71
Hình 11.11: Khung thứ 20 của chuỗi “Bóng đá” 72
Bảng 11.2: Kết quả thí nghiệm 72
11.4. Kết hợp chính xác 73

1.2.1.1. Không gian Redundancy 17
1.2.1.2 Thời gian dự phòng 19
Hình 1.4: Phổ công suất điển hình của một tín hiệu phát sóng truyền hình 22
Hình 1.5: (a) khung 21, và (b) khung hình 22 "Hoa hậu Mỹ" 23
1.2.1.3. Mã hóa Dự phòng 23
1.2.2. Dự phòng PSYCHOVISUAL 25
Hình 1.6 Mô hình hai đơn vị xếp tầng của hệ thống thị giác của con người
(HVS) 25
1.2.2.1. Mặt nạ chói 26
Hình 1.7: Một đối tượng thống nhất với màu xám mức I1 với nền tảng là màu
xám ở mức I2 27
Hình 1.8 Cầu Burrard ở Vancouver. (a) hình ảnh gốc (lịch
sự Shi của Minhuai). (b) Hình ảnh đồng nhất bị
hỏng bởi nhiễu phụ trắng Gaussian 29
1.2.2.2. Kết cấu mặt nạ 29
Hình 1.9 Giáng sinh tại Winorlia. (a) Bản gốc. (b)-bit lượng tử hóa. (c) Cải
thiện lượng IGS với bốn bit 30
1.2.2.3 Tần số mặt nạ 31
7
1.2.2.4 Mặt nạ thời gian 33
1.2.2.5 Mặt nạ màu 33
1.2.2.6. Chắn màu và ứng dụng của nó trong việc nén Video 36
1.2.2.7. Tóm tắt: Độ nhạy vi phân 37
Hình 1.10: Mức độ nhạy cảm so với tần số không gian. (Sửa đổi từ Van Ness và
Bouman[1967] và Mullen[1985].) 38
1.3. Đo lường chất lượng hình ảnh 38
1.3.1 Đo lường chất lượng chủ quan 39
Hình 1.11. Hệ thống xử lý âm thanh hình ảnh 41
1.3.2. Mục tiêu chất lượng đo lường: 41
1.3.2.2 Mục tiêu đo lường chất lượng: 43

cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng 60
Hình 11.4 thủ tục tìm kiếm ba bước. Điểm (j +4, k-4), (j +4, k-6), và (j +5,k-7)
cung cấp cho tối thiểu sự khác nhau trong các bước 1, 2 và 3, tương ứng 61
11.3.3. Ba bước tìm kiếm đơn giản 61
11.3.4. Hướng tìm kiếm liên hợp 61
Hình 11.5: Hướng tìm kiếm liên hợp 62
11.3.5. Lấy mẫu con trong cửa sổ tương quan 62
11.3.6. Đa phân giải khối kết hợp 63
9
Hình 11.6: một ví dụ về lấy mẫu con 2 x 2 trong khối ban đầu và cửa sổ tương
quan cho tìm kiếm một cách nhanh chóng 64
Hình 11.7 Gaussian cấu trúc kim tự tháp 65
11.3.7. Ngưỡng phù hợp với nhiều độ phân giải 65
Hình 11.8: Sơ đồ chặn cho phù hợp với ngưỡng ba cấp độ phân giải 67
Bảng 11.1: Các tham số được sử dụng trong những thí nghiệm này 67
Hình 11.10: Khung thứ 20 của chuỗi “Tàu hỏa” 71
Hình 11.11: Khung thứ 20 của chuỗi “Bóng đá” 72
Bảng 11.2: Kết quả thí nghiệm 72
11.4. Kết hợp chính xác 73
11.5 Giới hạn với kỹ thuật kết hợp khối 74
Hình 11.12. Khung 21 tái tạo của "Hoa hậu Mỹ" trình tự bằng cách sử dụngmột
cách giải mã H.263 75
11.6. Những cải tiến mới 76
11.6.1. Cấu trúc khối kết hợp 76
Hình 11.13: Kết hợp khối phân cấp 77
Bảng 11.3: Các Kết quả thí nghiệm (II) 77
Bảng 11.4: Các tham số được sử dụng trong khớp khối theo thứ tự 3 mức 78
Hình 11.14: Một phần của bức ảnh với các điểm ảnh được xử lý trong cả 3 mức
80
11.6.2. Khớp khối đa lưới 80

FCC Federal Communications Commission Hội Đồng Truyền Thông
Liên Bang
DTV Digital Television Truyền hình số
DBS Direct Broadcast Satellite Vệ tinh quảng bá trực tiếp
VOD Video on Demand Video theo yêu cầu
CD Call Deflection Đổi hướng cuộc gọi
TV Television Truyền hình
WWW World Wide Web Internet
IEEE Institute of Electrical and Electronic
Engineers
Viện kỹ thuật điện và điện
tử
CRC Cyclic redundancy check Mã phát hiện lỗi
LLC logical link control Điều khiển liên kết logic
MPEG Motion Picture Experts
Group(ISO/IEC)
Nhóm các chuyên gia về
hình ảnh động
PCM Pulse-code modulation Điều xung mã
DPCM Differential pulse-code modulation Điều chế xung mã vi phân
DM Delta modulation Điều chế delta
DCT Data Calling Tone Âm báo cuộc gọi dữ liệu
JPEG Joint Photographic Experts Group Nhóm liên hợp các chuyên
12
(ISO) gia đồ họa
RL Return Loss Suy hao quay trở về
WT Working Text (DSL Forum) Đề mục làm việc (diễn đàn
DSL
DFD Displaced Frame Difference Sự khác nhau về khung
thay thế

14
CHƯƠNG I: GIỚI THIỆU
Nén dữ liệu hình ảnh và video đề cập đến một quá trình mà trong đó lượng dữ
liệu sử dụng mà tiêu biểu là hình ảnh và video được nén xuống để đáp ứng yêu cầu về
tốc độ bít (thấp hơn hoặc bằng giá trị tốc độ bít tối đa), trong khi chất lượng của tái tạo
hình ảnh và video đáp ứng 1 yêu cầu dành cho 1 ứng dụng nào đó và độ phức tạp tính
toán ở mức phải chăng dành cho 1 ứng dụng. Các sơ đồ khối trong hình 1.1 mô tả các
chức năng của nén dữ liệu hình ảnh và video trong truyền dẫn hình ảnh và lưu trữ.
Việc nén dữ liệu ảnh và video được tìm thấy được cho là cần thiết dành cho các ứng
dụng quan trọng bởi vì 1 lượng lớn dữ liệu sẽ làm phức tạp hóa cho các ứng dụng này
và các ứng dụng khác mà nó rất thường xuyên rất lớn và vượt quá khả năng của phần
cứng ngày nay bất chấp những tiến bộ nhanh chóng trong lĩnh vực chất bán dẫn, máy
tính và các ngành công nghiệp liên quan khác. Cần phải chú ý là thông tin và dữ liệu là
2 khái niệm rất gần nhau nhưng lại khác nhau. Mô tả dữ liệu thông tin và có thể đo
được số lượng. Trong bối cảnh của hình ảnh số và video, dữ liệu thường được đo bằng
số lượng các đơn vị nhị phân (bits). Trông tin được định nghĩa như là kiến thức (sự
hiểu biết), các sự kiện và các tin tức theo từ điển tiếng Anh quốc tế Cambridge. Trong
khi dữ liệu là sự biểu thị của kiến thức, các sự kiện và các tin tức thì thông tin là kiến
thức, sự kiện và tin tức. Tuy nhiên, thông tin cũng có thể đo lường, định lượng.
Tỷ lệ bít (tốc độ mã hóa), là 1 tham số quan trọng trong nén hình ảnh và video và
thường được thể hiện theo 1 đơn vị là bits/sec, điều này rất tiện dụng trong truyền
thông hình ảnh. Trong thực tế, ví dụ như trong mục 1.1 về việc giả video (1 trường
hợp của truyền hình ảnh) sử dụng tốc độ bít trong thuật ngữ bits/sec hoặc bps. Trong
ứng dụng lưu trữ hình ảnh, tốc độ bít thường được biểu diễn bằng 1 đơn vị là bits/pixel
(bpp). Thuật ngữ pixel là 1 từ viết tắt của các phần tử ảnh và đôi khi được gọi là PEL.
Trong mã hóa nguồn thông tin, tốc độ bít đôi khi được thể hiện bằng 1 đơn vị là
bit/symbol (bit/ký tự). Trong mục 1.4.2, khi thảo luận về định lý mã hóa nguồn không
nhiễu, chúng ta xem xét tốc độ bít trên phương diện độ dài trung bình của các từ mã
theo đơn vị bit/symbol. Yêu cầu về chất lượng của việc tái tạo hình ảnh và video phụ
15

trong truyền tải là 30 khung hình mỗi giây để cung cấp một đoạn video chuyển động
liên tục. Sau đó tỷ số bit yêu cầu là 288 x 352 x 8 x 3 x 30 = 72.990.720 bps. Do đó, tỷ
số giữa tỷ số bit yêu cầu và tốc độ bit lớn nhất có thể là khoảng 1289. Nghĩa là chúng
ta phải nén dữ liệu video ít nhất 1289 lần để thực hiện việc truyền tải được mô tả trong
ví dụ này.
Với các dịch vụ video ngày càng phức tạp như phim 3D, trò chơi 3D và video
chất lượng cao như HDTV, việc nén dữ liệu video là cần thiết. Nó trở thành một công
nghệ cho phép thu hẹp khoảng cách giữa số lượng lớn yêu cầu của dữ liệu video và
khả năng hạn chế của phần cứng.
1.2. Tính khả thi của việc nén hình ảnh và video:
Trong phần này chúng ta sẽ thấy rằng việc nén hình ảnh và video không chỉ là
một điều cần thiết cho sự phát triển nhanh chóng của truyền thông hình ảnh kỹ thuật
số, mà nó cũng khả thi. Tính khả thi của nó thuộc về hai kiểu dư thừa, ví dụ, dư thừa
thống kê và dư thừa tâm lí thị giác. Bằng cách loại bỏ các dư thừa, chúng ta có thể nén
hình ảnh và video.
1.2.1. Dư thừa thống kê:
Dư thừa thống kê có thể được phân loại thành hai loại: dư thừa interpixel và dư
thừa mã hóa. Dư thừa interpixel nghĩa là điểm ảnh của một khung hình ảnh và các
điểm ảnh của một nhóm các hình ảnh kế tiếp hoặc khung video không phải là thống kê
độc lập. Ngược lại, chúng là tương quan với mức độ khác nhau.(Lưu ý rằng sự khác
biệt và mối quan hệ giữa hình ảnh và chuỗi video được thảo luận trong Chương 10, khi
chúng ta bắt đầu thảo luận về nén video). Mối tương quan interpixel được gọi là dư
thừa interpixel( trong điểm ảnh ). Dư thừa Interpixel có thể được chia thành hai loại,
dư thừa không gian và dư thừa thời gian. Bằng cách mã hóa dư thừa, dư thừa thống kê
liên quan đến kỹ thuật mã hóa.
1.2.1.1. Không gian Redundancy
Không gian dự phòng đại diện cho mối tương quan thống kê giữa các điểm ảnh
trong một khung hình ảnh. Do đó nó còn được gọi là intraframe dự phòng. Nó cũng
được biết rằng đối với hầu hết đúng mẫu TV tín hiệu tự tương quan bình thường hệ số
cùng một hàng (hoặc một cột) với một sự thay đổi một điểm ảnh là rất gần với giá trị

thông báo rằng quang phổ khá bằng phẳng cho đến khi 30 kHz cho một tín hiệu truyền
hình phát sóng. Ngoài phổ tần số dòng này bắt đầu giảm với tốc độ khoảng 6 dB cho
mỗi quãng tám. Điều này cho thấy nồng độ nặng của các tín hiệu video tần số thấp,
xem xét danh nghĩa của một băng thông 5 MHz. Không gian dư thừa hàm ý rằng giá
trị cường độ của một điểm ảnh có thể được đoán tối đa láng giềng pixels. Nói cách
khác, nó không phải là cần thiết để đại diện cho mỗi điểm ảnh trong một khung hình
ảnh độc lập. Thay vào đó, người ta có thể dự đoán một điểm ảnh từ các nước láng
giềng. Đoán trước mã hóa, cũng được biết đến như mã hóa khác biệt, dựa trên quan sát
này và được thảo luận trong Chương 3. Trực tiếp hậu quả của sự công nhận của sự dư
18
thừa không gian là bằng cách loại bỏ một số lượng lớn dự phòng (hoặc sử dụng các
mối tương quan cao) trong một khung hình ảnh, chúng tôi có thể tiết kiệm rất nhiều dữ
liệu đại diện cho khung, do đó đạt được nén dữ liệu.
1.2.1.2 Thời gian dự phòng
Thời gian dự phòng là có liên quan với mối tương quan thống kê giữa các điểm
ảnh từ tiếp khung hình trong một hình ảnh thời gian hoặc chuỗi video. Vì vậy, nó cũng
được gọi là interframe dự phòng.
Hãy xem xét một chuỗi hình ảnh thời gian. Đó là, một máy ảnh là cố định trong
thế giới 3-D và phải mất hình ảnh của một cảnh như thời gian trôi qua. Miễn là khoảng
thời gian giữa hai hình ảnh liên tiếp là đủ ngắn, tức là, những hình ảnh được đông đủ,
chúng ta có thể tưởng tượng rằng sự giống nhau giữa hai khung hình láng giềng mạnh
mẽ. Hình 1.5 (a) và (b) chương trình, tương ứng, 21 và 22 khung hình của "Hoa hậu
Mỹ" trình tự.
19
Hình 1.2 : (a) Một bức ảnh của "Boy và Girl," hồ sơ cá nhân Cường độ (b) cùng hàng
318, (c) Cường độ hồ sơ dọc theo cột 262, (d) Vị trí của dòng 318 và 262 cột.
20
Hình 1.2: (tiếp theo)
Hình 1.3: Tự tương quan theo chiều ngang đối với một số hình ảnh.(Sau khi Kretzmer,
1952.)

Như chúng ta đã thảo luận, dự phòng interpixel là có liên
quan với mối tương quan giữa các điểm ảnh. Đó là, một số thông tin liên kết với các
điểm ảnh là không cần thiết. Psychovisual dự phòng , được thảo
luận trong phần tiếp theo, liên quan đến các thông tin đó là psychovisually dự
phòng, nghĩa là, mà HVS không phải là độ nhạy. Do đó, nó cho thấy rằng cả hai dư
thừa interpixel và psychovisual bằng cách nào đó liên kết với một số thông tin chứa
trong hình ảnh và video. Loại bỏ những dư thừa, hoặc sử dụng những mối tương
quan này bằng cách sử dụng các bit ít hơn để miêu tả cho thông tin kết quả trong hình
ảnh và video nén dữ liệu. Nó có nghĩa là, sự thừa mã hóa là khác nhau. Nó không có
gì để làm với khả năng dự phòng thông tin, nhưng với các đại diện tức là, thông
tin, mã hóa riêng của mình. Để xem điều này, chúng ta hãy xem ví dụ sau đây.
23
Một ví dụ minh họa được cho bởi trong Bảng 1.1.Cột đầu tiên liệt kê các biểu
tượng riêng biệt mà cần phải được mã hóa. Cột thứ hai có xác suất xuất hiện của 5 ký
hiệu.Cột thứ ba danh sách mã số 1, một bộ các Từ mã thu được bằng cách sử
dụng đồng hình có độ dài từ mã dài. (Mã này được gọi là các mã nhị phân ngẫu nhiên.)
Cột thứ 4 cho thấy 2 mã, trong đó mỗi từ mã có chiều dài thay đổi.Vì vậy,mã 2 được
gọi là mã có độ dài thay đổi. Lưu ý rằng các ký hiệu với một xác suất xảy ra
cao hơn được mã hóa với chiều dài ngắn hơn. Đó là, chúng tôi sẽ khảo sát mà một
trong những cung cấp một chiều dài trung bình ngắn hơn từ mã.Rõ ràng là chiều
dài trung bình của từ mã trong mã 1 L
avg,1
, Ba bit. Chiều dài trung bình của Từ
mã trong mã 2, L
avg, 2
, Có thể được tính toán như sau.
Vì vậy, kết quả là mã 2 với mã hóa biến chiều dài là hữu hiệu hơn mã số
1 với mã hóa nhị phân tự nhiên.
Từ ví dụ này, chúng ta có thể thấy rằng đối với cùng một bộ các ký hiệu mã
số khác nhau có thể thực hiện khác nhau. Một số có thể có hiệu quả hơn hơn những

một khía cạnh của HVS liên quan chặt chẽ đến nén ảnh và video được thảo luận trong
mục này. Đó là mặt nạ chói, mặt nạ kết cấu, mặt nạ tần số, mặt nạ thời gian và mặt nạ
25

Trích đoạn Mục tiêu chất lượng đo lường: Mục tiêu đo lường chất lượng: Thuyết mã hóa nguồn Shannon Định lý mã hóa nguồn của shannon Không chồng chéo, cách đều nhau, kích thước cố định, khối kết hợp nhỏ
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status