Thảo luận Truyền thông đa phương tiện đề tài Nén video.Các chuẩn MPEG.Nén video và audio theo MPEG - Pdf 22

Bộ Công Thương
TRƯỜNG ĐẠI HỌC KINH TẾ KỸ THUẬT CÔNG NGHIỆP
KHOA CÔNG NGHỆ THÔNG TIN
o0o
Giảng viên hướng dẫn : Ths:Trần Bích Thảo
Nhóm 5 Lớp ĐH Tin 3A-Nam Định
Sinh viên thực hiện :
Khương Hoàng Hà
Đỗ Ngọc Hậu
Câu hỏi: Nén video.Các chuẩn MPEG.Nén video và audio theo MPEG
Nam Định 04/10/2012

Truyền
thông đa
phương
tiện
VIDEO DATA
II- MỘT SỐ KHÁI NIỆM THUẬT NGỮ
1- Một số khái niệm
+Dữ liệu Video : là dữ liệu kết hợp cả hình ảnh động và âm thanh động trong cùng một
file
+Video camera
Có hai loại camera video – analog và digital
- analog video camera : Video camera chuyển đổi ảnh nó “nhìn thấy” nhờ thấu kính.
Ánh sáng và cường độ màu thu được từ thấu kính sẽ chuyển thành điện thế, ảnh của
vật thay đổi theo thời gian cường độ màu và ánh sáng phát ra trên các phần của sự
vật . Vì vậy tín hiệu thu được từ video loại này được coi là tín hiệu analog vì nó tương
tự như cường độ ánh sáng . Hình ảnh thu được từ Video camera loại này được ghi lên
băng từ
- Digital video
Video số về nguyên tắc đó là dữ liệu tạo ra từ từ giá trị màu của các điểm ảnh (pixel) .Nói

của màn hình là 4/3 do đó số điểm trên mỗi đường phụ thuộc vào số đường quét trên màn
hình. Ví dụ màn hình có 483 đường khi đó số pixel trên mỗi đường là 4/3 x 843= 640 pixel.
II -NÉN DỮ LIỆU VIDEO
1- nguyên tắc nén video
- Để nén dữ liệu video người ta dựa vào hai nguyên tắc :
-vứt bỏ dữ liệu dư thừa về không gian (spatial redundancy) mà nó có trên mỗi ảnh
- Vứt bỏ dữ liệu dư thừa theo thời gian (temporal redundancy) , điều xảy ra do các ảnh video
cạnh nhau tương đối giống nhau.
+ Bỏ dữ liệu dư thừa theo không gian
Thực chất bỏ bớt các phần giống nhau trên một ảnh
+ Bỏ dữ liệu dư thừa theo thời gian
Thực chất bỏ bớt các phần giống nhau trên các ảnh cạnh nhau (sử dụng ảnh I,B, P)
2- Một số phương pháp nén trực quan đơn giản dữ liệu video
a/ phương pháp Subsampling
Bộ mã hóa (encoder )chọn ra các ảnh khác nhau và viết nó vào dòng nén (compressed
stream) cách làm này cho hệ số nén bằng 2. Bộ giải mã đưa vào các ảnh và nhân nó lên
thành hai ảnh.
b/ Differencing (mã các điểm khác nhau):
ảnh được so với ảnh đứng trước nó, nếu sự khác nhau giữa chúng nhỏ (một số ít điểm), khi
đó bộ mã chỉ mã các điểm khác nhau bằng cách viết 3 số vào dòng nén cho mỗi điểm, gồm tọa
độ điểm ảnh và giá trị khác nhau của hai điểm ảnh . Nếu sự khác nhau giữa hai ảnh là lớn ,
trên ảnh hiện thời người ta ghi dòng ra nguyên dạng . Nếu sự sai khác giữa cường độ điểm
ảnh trong ảnh trước và ảnh hiện thời nhỏ hơn ngưỡng nào đó, điểm được coi là không khác
nhau.
c/ Block Differencing (mã các khối khác nhau)
Đây là phương pháp tốt hơn phương pháp differencing, ảnh được chia thành nhiều khối ,
trong mỗi khối B của ảnh hiện thời được so với khối P tương ứng ở ảnh đứng trước nó. Nếu
hai khối khác nhau nhiều hơn số nào đó , thì B được nén bằngg cách ghi lai tọa độ ảnh của
khối, tiếp theo là các giá trị của các điểm ảnh hoặc phần sai khác của các điểm ảnh vào dòng
nén. Ưu điểm của tọa độ khối nhỏ hơn ghi tọa độ điểm ảnh và tọa độ khối chỉ ghi một lần, Ở

f/ Search Threshold (tìm theo ngưỡng):
Mỗi khối B trong ảnh hiện thời trước tiên được so với bản sao C trong ảnh trước nó, nếu
chúng giống nhau hoặc sự khác nhau giữa chúng dưới ngưỡng qui định khi đó bộ mã hóa coi
như khối không có chuyển động.
- Block Search (tìm khối)
Đây là quá trình mất nhiều thời gian do vậy khi thiết kế thuật toán cần lưu ý. Nếu khối B hiện
thời trong ảnh hiện thời, lúc đó cần tìm trong ảnh trước khối giống hoặc gần giống với B. Việc
tìm kiếm được hạn chế trong một vùng nhỏ (gọi là vùng tìm kiếm) quanh khối B, vùng này
được xác định bởi tham số di chuyển cực đại dx, dy . các tham số này ấn định khoảng cách
tính bằng pixel theo chiều ngang và chiều thẳng đứng cực đại giữa khối B và khối bất kỳ
giống B trong ảnh trước.Nếu B là hình vuông cạnh b, thì vùng tìm kiếm chứa (b + 2dx)(b +
2dy) pixel và sẽ có (2dx+1)(2dy +1) hình khác nhau, chồng nhau bxb hình vuông. Số khối cần
tuyển chọn (candidate) trong vùng này tỉ lệ với dxdy. Hình dưới đây minh họa vùng tìm kiếm.
- Distortion measure (Đo độ sai khác)
Đây là phần quan trọng đối với bộ mã hóa, độ đo sai lệch cho phép chọn khối thích hợp nhất
với khối B, nó phải đơn giản , nhanh và tin cậy. Có một vài cách chọn dẽ đề cập ở section 4.14
Độ sai khác tuyệt đối trung bình ( mean absolutw error) được tính trung bình theo sự sai
khác tuyệt đối giữa Bij trong khối B và điểm tương ứng Cij trong khối tuyển chọn C
(candidate block C)
Độ đo này được tính cho mỗi khối trong số (2dx+1)(2dy +1) khối khác nhau và b xb khối cần
lựa chọn (candidate) có giao. Nếu độ đo của khối C
k
nhỏ hơn ngưỡng thì nó được coi là giống
B
Trái lại sẽ không có khối nào giống B và B được mã không bù chuyển động.
Một cách tự nhiên phát sinh câu hỏi ở đây là điều gì sẽ xảy ra khi khối trong ảnh hiện thời
không trùng với với khối nào trong ảnh trước . Câu trả lời là chúng ta hãy tưởng tượng
camera dịch lia từ trái qua phải , đối tượng mới được đưa vào từ bên phải trong thời gian lia,
khôi bên phải của ảnh có thể chứa các đối tượng không có trong ảnh trước.
- Độ sai khác trung bình bình phương ( mean square difference) là cho ở dạng:

-Giảm tốcđộ dòng bít của tín hiệu gốc xuống một giá trị nhấtđịnhđủđểcó
thể tái tạoảnh khi giải nén;
-Giảm dung lượng dữ liệu trong lưu trữ cũng như giảm băng thông cần thiết.
Tiết kiệm chi phí trong lưu trữ và truyền dẫn dữ liệu trong khi vẫn duy trì
chất lượng ảnh ở mức chấp nhận đựơc.
Vớinguyên nhân và mụcđích của việc nén tín hiệuđược trình bày như ở trên,
ngày nay có nhiều các chuẩn nénđã rađời như: JPEG, M-JPEG, MPEG, DV… Trong
đó chuẩn nén MPEG được s ửdụng nhiều trong nén video trong truyền hình với thành
công của chuẩn nén video MPEG-2 trong truyền hình số và chuẩn nén MPEG-4 trong
truyền hình trên mạng Internet
II- Họ chuẩn nén MPEG
MPEG -viết tắt của Moving Pictures Experts Group , nó là tên gọi chỉ nhóm chuyên gia thực
hiện dự án nén dữ liệu media. Dự án này được bắt đầu từ năm1988. Kết quả dự án đã được
thừa nhận là chuẩn ISO (International Standardization Organization) và chuẩn IEC
(International Electrotechnical Committee). Thực chất Mpeg là kỹ thuật nén dữ liệu video, nó
được sử dụng để nén ảnh và âm thanh số và đồng bộ hai loại dữ liệu này.
Để có cái nhìn hệ thống về họ chuẩn Mpeg , chúng ta hãy xem xét các phiên bản của họ chuẩn
Mpeg. Cho đến nay đã có các phiên bản sau :
-Mpeg-1 :phát triển chuẩn nén dữ liệu multimedia (video, audio) dựa trên mục tiêu là tương
tác với CD và thiết bị digital audio broadcasting. Chuẩn này đã rất thành công trong lĩnh vực
thương mại trong thời gian qua. Đến nay người ta vẫn dùng Mpeg-1 cho dữ liệu video và
được kết hợp với kỹ thuật nén audio MP3.
- Mpeg -2 được dành chủ yếu mục tiêu truyền hình số ( digital television). Các kỹ thuật của
nó đáp ứng cho việc nén cởi nén và đồng bộ dữ liệu video trong lĩnh vực truyền hình.
- Mpeg-3 : với mục tiêu nén dữ liệu multimedia tương tác với các đĩa quang có mật độ ghi
cao như HDVD ( High-Definition/Density DVD ). Nhưng kết quả thu được không khác biệt
nhiều với Mpeg-2 , nên người ta bỏ phiên bản này.
- Mpeg-4 với mục tiêu nhằm vào nén, cởi nén dữ liệu multimedia có tốc độ thấp , cỡ vài
nghìn bit trên giây. Nó nhằm vào các thiết bị xử lý multimedia nhỏ, thiết bị cầm tay như video
telephones , mobile phone , thiết bị di chuyển nhanh (các thiết bị multimedia đặt trên xe ) nén

c- Mpeg-1 nén dữ liệu và tạo thành các gói (packet)
Mỗi gói được bắt đầu bằng code gồm 32 bit, tiếp theo là header và kết thúc gói bằng mã
endcode 32 bit. ở giữa header và end ode có chứa một số gói.Mỗi gói chứa dữ liệu nén hoặc
audio hoặc video. Kích thước của mỗi gói được xác định trước bởi bộ mã Mpeg (MPEG
encoder theo yêu cầu lưu trữ hoặc thiết bị truyền đi) , điều này giải thích vì sao một packet
không cần đầy đủ các ảnh video, nó có thể là phần nào đó của audio, phần nào đó của ảnh
video.Hình H15 dưới đây mô tả cấu trúc dữ liệu nén của Mpeg-1
d - Mpeg-1 giải nén audio và ảnh động riêng biệt
Bộ giải mã Mpeg-1 nhằm khôi phục lại dữ liệu video , nó gồm 3 lớp (layer).
Lớp giải mã ảnh video, lớp giải mã audio và lớp data system. Lớp data system có nhiệm vụ
đọc và phân tích dữ liệu trong phần header của các gói , các đường dẫn dẫn đến các gói khác,
đồng bộ dữ liệu đã giải nén ở các buffer.
e - Mpeg-1 sử dụng 3 loại ảnh I ,P,B để nén
- Ảnh I (Intra frame, key frame) có thể coi là ảnh gốc, với ảnh này khi giải mã nó không cần
lấy thông tin từ ảnh khác;
- Anhr P (predicted picture ) là ảnh khi giải nén nó phải sử dụng thông tin từ các ảnh trước
nó, thường nó là nén của ảnh I.
- Ảnh B (Bi –directionaly frame ) là ảnh mà khi giải nén nó phải dùng cả ảnh đứng trước và
ảnh sau nó. Ảnh B là ảnh có tỉ lệ nén cao nhất.
Từ khái niệm ảnh I,B,P chúng ta dễ thấy rằng trật tự các ảnh trên đĩa CD khác với trật tự xuất
hiện của các ảnh . Trong hình H2 , dãy số ằm ngang là thứ tự ảnh trên đĩa CD, cột số bên phải
là thứ thự ảnh khi play.
Khi nén Mpeg sử dụng ba kiểu ảnh I,P, B . Các ảnh này được xếp thành từng nhóm, các nhóm
có thể tổ chức thành loại nhóm đóng hoặc nhóm mở (open group, closed group).Nhóm đóng
là nhóm mà khi khôi phục ảnh nó chỉ sử dụng các ảnh trong nhóm, nhóm mở là nhóm có thể
sử dụng ảnh ở ngoài nhóm để khôi phục lại ảnh. Các anh I,P,B ở đầu vào được sắp xếp theo
một trật tự nào đó, sau khi giải nén ta được dãy ảnh mới để hiển thị. Nói chung trật tự hiển
thị khác với trật tự vào. Một vùng của ảnh đang xét khi giải mã có thể phải dùng đến các ảnh
trước, ảnh sau trong nhóm hoặc ngoài nhóm.
f - Mpeg-1 sử dụng phép biến đổi cosin trong quá trình nén

tin về I, P, B pictures) để gửi tới bộ giải mã.
Hình 2. Sơ đồ bộ mã hoá và giải mã dùng MPEG
Đối với trường hợp P-pictures, các hệ số DCT cũng được đưa đến bộ giải mã nội bộ (nằm ngay trong bộ mã hoá). Tín hiệu
dư hay sai số tiên đoán được biến đổi ngược lại dùng phép biến đổi IDCT và được cộng thêm vào ảnh đứng trước để tạo
nên ảnh tham khảo (ảnh tiên đoán). Vì dữ liệu ảnh trong bộ mã hoá được giải mã luôn nhờ vào bộ giải mã nội bộ ngay
chính bên trong bộ mã hoá, do đó ta có thể thực hiện thay đổi thứ tự các bức ảnh và dùng các phương pháp tiên đoán như
đã trình bày ở trên.
Giải mã MPEG-2
Quá trình khôi phục lại ảnh tại bộ giải mã là hoàn toàn ngược lại. Từ luồng dữ liệu nhận được ở đầu vào, vector chuyển
động được tách ra và đưa vào bộ bù chuyển động (Motion Compensator), các hệ số DCT được đưa vào bộ biến đổi ngược
IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian. Đối với P pictures và B pictures, vector chuyển động
sẽ được kết hợp với các khối tiên đoán (predicted macroblock) để tạo thành các ảnh tham khảo.
2 - Chuẩn MPEG-4
MPEG-4 là chuẩn mới cho dữ liệu audiovisual data.Tuy nhiên nén video và audio vẫn là đặc
điểm nổi trội của Mpeg -4 .Phần này mô tả những nét chính về MPeg4.
Mpeg-4 được bắt đầu từ 5/1991.Năm 1999 công bố chuẩn phiên bản đầu tiên.Năm 2003
Mpeg-4 ISO và IEC công nhận quốc tế . Tài liệu chuẩn mang mã số ISO/IEC 14496.
Dưới đây là một số đặc trưng quan trọng của Mpeg-4 :
a- Có các công cụ (Tools) cơ bản để truy cập dữ liệu multimedia. Nhờ các công cụ này, người
ta có thể indexing, linking , quering,browsing,delivering file, deleting file
b- Có thể kết nối, thay đổi và Edit các bitstream trên các file nén mà không cần cởi nén.
c- Cho phép lai ghép dữ liệu tự nhiên và nhân tao. các cảnh quay từ camera , cùng với text,
các cảnh nhân tạo có thể tổng hợp thành một cảnh mới và nén chung với nhau.
d- Cho phép truy cập trực tiếp hay còn gọi là truy cập random vào dữ liệu
điều này rất quan trọng , làm cho quá trình xử lý hiệu quả.
e. Nén hiệu quả ; do yêu cầu của loại thiết bị mà mpeg-4 phục vụ cho nên nó đỏi hỏi tỉ lệ nén
phải cao, nó phải dùng hòa các yếu tố chất lượng, tốc độ, dung tích nhớ
f. Cùng lúc có thể làm việc với nhiều dòng dữ liệu ( data streams)
g. Rất mạnh trong xử lý lỗi . Do nó phải phục vụ trong điều kiện truyền thông ví dụ nhiễu,
đường truyền bị sự cố tất cả đều có thể sinh ra lỗi.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status