Thảo luận Truyền thông đa phương tiện đề tài Nén video.Các chuẩn MPEG.Nén video và audio theo MPEG - Pdf 22

Bộ Công Thương
TRƯỜNG ĐẠI HỌC KINH TẾ KỸ THUẬT CÔNG NGHIỆP
KHOA CÔNG NGHỆ THÔNG TIN
o0o
Giảng viên hướng dẫn : Ths:Trần Bích Thảo
Nhóm 5 Lớp ĐH Tin 3A-Nam Định
Sinh viên thực hiện :
Khương Hoàng Hà
Đỗ Ngọc Hậu
Câu hỏi: Nén video.Các chuẩn MPEG.Nén video và audio theo MPEG
Nam Định 04/10/2012

Truyền
thông đa
phương
tiện
VIDEO DATA
II- MỘT SỐ KHÁI NIỆM THUẬT NGỮ
1- Một số khái niệm
+Dữ liệu Video : là dữ liệu kết hợp cả hình ảnh động và âm thanh động trong cùng một
file
+Video camera
Có hai loại camera video – analog và digital
- analog video camera : Video camera chuyển đổi ảnh nó “nhìn thấy” nhờ thấu kính.
Ánh sáng và cường độ màu thu được từ thấu kính sẽ chuyển thành điện thế, ảnh của
vật thay đổi theo thời gian cường độ màu và ánh sáng phát ra trên các phần của sự
vật . Vì vậy tín hiệu thu được từ video loại này được coi là tín hiệu analog vì nó tương
tự như cường độ ánh sáng . Hình ảnh thu được từ Video camera loại này được ghi lên
băng từ
- Digital video
Video số về nguyên tắc đó là dữ liệu tạo ra từ từ giá trị màu của các điểm ảnh (pixel) .Nói

của màn hình là 4/3 do đó số điểm trên mỗi đường phụ thuộc vào số đường quét trên màn
hình. Ví dụ màn hình có 483 đường khi đó số pixel trên mỗi đường là 4/3 x 843= 640 pixel.
II -NÉN DỮ LIỆU VIDEO
1- nguyên tắc nén video
- Để nén dữ liệu video người ta dựa vào hai nguyên tắc :
-vứt bỏ dữ liệu dư thừa về không gian (spatial redundancy) mà nó có trên mỗi ảnh
- Vứt bỏ dữ liệu dư thừa theo thời gian (temporal redundancy) , điều xảy ra do các ảnh video
cạnh nhau tương đối giống nhau.
+ Bỏ dữ liệu dư thừa theo không gian
Thực chất bỏ bớt các phần giống nhau trên một ảnh
+ Bỏ dữ liệu dư thừa theo thời gian
Thực chất bỏ bớt các phần giống nhau trên các ảnh cạnh nhau (sử dụng ảnh I,B, P)
2- Một số phương pháp nén trực quan đơn giản dữ liệu video
a/ phương pháp Subsampling
Bộ mã hóa (encoder )chọn ra các ảnh khác nhau và viết nó vào dòng nén (compressed
stream) cách làm này cho hệ số nén bằng 2. Bộ giải mã đưa vào các ảnh và nhân nó lên
thành hai ảnh.
b/ Differencing (mã các điểm khác nhau):
ảnh được so với ảnh đứng trước nó, nếu sự khác nhau giữa chúng nhỏ (một số ít điểm), khi
đó bộ mã chỉ mã các điểm khác nhau bằng cách viết 3 số vào dòng nén cho mỗi điểm, gồm tọa
độ điểm ảnh và giá trị khác nhau của hai điểm ảnh . Nếu sự khác nhau giữa hai ảnh là lớn ,
trên ảnh hiện thời người ta ghi dòng ra nguyên dạng . Nếu sự sai khác giữa cường độ điểm
ảnh trong ảnh trước và ảnh hiện thời nhỏ hơn ngưỡng nào đó, điểm được coi là không khác
nhau.
c/ Block Differencing (mã các khối khác nhau)
Đây là phương pháp tốt hơn phương pháp differencing, ảnh được chia thành nhiều khối ,
trong mỗi khối B của ảnh hiện thời được so với khối P tương ứng ở ảnh đứng trước nó. Nếu
hai khối khác nhau nhiều hơn số nào đó , thì B được nén bằngg cách ghi lai tọa độ ảnh của
khối, tiếp theo là các giá trị của các điểm ảnh hoặc phần sai khác của các điểm ảnh vào dòng
nén. Ưu điểm của tọa độ khối nhỏ hơn ghi tọa độ điểm ảnh và tọa độ khối chỉ ghi một lần, Ở

f/ Search Threshold (tìm theo ngưỡng):
Mỗi khối B trong ảnh hiện thời trước tiên được so với bản sao C trong ảnh trước nó, nếu
chúng giống nhau hoặc sự khác nhau giữa chúng dưới ngưỡng qui định khi đó bộ mã hóa coi
như khối không có chuyển động.
- Block Search (tìm khối)
Đây là quá trình mất nhiều thời gian do vậy khi thiết kế thuật toán cần lưu ý. Nếu khối B hiện
thời trong ảnh hiện thời, lúc đó cần tìm trong ảnh trước khối giống hoặc gần giống với B. Việc
tìm kiếm được hạn chế trong một vùng nhỏ (gọi là vùng tìm kiếm) quanh khối B, vùng này
được xác định bởi tham số di chuyển cực đại dx, dy . các tham số này ấn định khoảng cách
tính bằng pixel theo chiều ngang và chiều thẳng đứng cực đại giữa khối B và khối bất kỳ
giống B trong ảnh trước.Nếu B là hình vuông cạnh b, thì vùng tìm kiếm chứa (b + 2dx)(b +
2dy) pixel và sẽ có (2dx+1)(2dy +1) hình khác nhau, chồng nhau bxb hình vuông. Số khối cần
tuyển chọn (candidate) trong vùng này tỉ lệ với dxdy. Hình dưới đây minh họa vùng tìm kiếm.
- Distortion measure (Đo độ sai khác)
Đây là phần quan trọng đối với bộ mã hóa, độ đo sai lệch cho phép chọn khối thích hợp nhất
với khối B, nó phải đơn giản , nhanh và tin cậy. Có một vài cách chọn dẽ đề cập ở section 4.14
Độ sai khác tuyệt đối trung bình ( mean absolutw error) được tính trung bình theo sự sai
khác tuyệt đối giữa Bij trong khối B và điểm tương ứng Cij trong khối tuyển chọn C
(candidate block C)
Độ đo này được tính cho mỗi khối trong số (2dx+1)(2dy +1) khối khác nhau và b xb khối cần
lựa chọn (candidate) có giao. Nếu độ đo của khối C
k
nhỏ hơn ngưỡng thì nó được coi là giống
B
Trái lại sẽ không có khối nào giống B và B được mã không bù chuyển động.
Một cách tự nhiên phát sinh câu hỏi ở đây là điều gì sẽ xảy ra khi khối trong ảnh hiện thời
không trùng với với khối nào trong ảnh trước . Câu trả lời là chúng ta hãy tưởng tượng
camera dịch lia từ trái qua phải , đối tượng mới được đưa vào từ bên phải trong thời gian lia,
khôi bên phải của ảnh có thể chứa các đối tượng không có trong ảnh trước.
- Độ sai khác trung bình bình phương ( mean square difference) là cho ở dạng:

-Giảm tốcđộ dòng bít của tín hiệu gốc xuống một giá trị nhấtđịnhđủđểcó
thể tái tạoảnh khi giải nén;
-Giảm dung lượng dữ liệu trong lưu trữ cũng như giảm băng thông cần thiết.
Tiết kiệm chi phí trong lưu trữ và truyền dẫn dữ liệu trong khi vẫn duy trì
chất lượng ảnh ở mức chấp nhận đựơc.
Vớinguyên nhân và mụcđích của việc nén tín hiệuđược trình bày như ở trên,
ngày nay có nhiều các chuẩn nénđã rađời như: JPEG, M-JPEG, MPEG, DV… Trong
đó chuẩn nén MPEG được s ửdụng nhiều trong nén video trong truyền hình với thành
công của chuẩn nén video MPEG-2 trong truyền hình số và chuẩn nén MPEG-4 trong
truyền hình trên mạng Internet
II- Họ chuẩn nén MPEG
MPEG -viết tắt của Moving Pictures Experts Group , nó là tên gọi chỉ nhóm chuyên gia thực
hiện dự án nén dữ liệu media. Dự án này được bắt đầu từ năm1988. Kết quả dự án đã được
thừa nhận là chuẩn ISO (International Standardization Organization) và chuẩn IEC
(International Electrotechnical Committee). Thực chất Mpeg là kỹ thuật nén dữ liệu video, nó
được sử dụng để nén ảnh và âm thanh số và đồng bộ hai loại dữ liệu này.
Để có cái nhìn hệ thống về họ chuẩn Mpeg , chúng ta hãy xem xét các phiên bản của họ chuẩn
Mpeg. Cho đến nay đã có các phiên bản sau :
-Mpeg-1 :phát triển chuẩn nén dữ liệu multimedia (video, audio) dựa trên mục tiêu là tương
tác với CD và thiết bị digital audio broadcasting. Chuẩn này đã rất thành công trong lĩnh vực
thương mại trong thời gian qua. Đến nay người ta vẫn dùng Mpeg-1 cho dữ liệu video và
được kết hợp với kỹ thuật nén audio MP3.
- Mpeg -2 được dành chủ yếu mục tiêu truyền hình số ( digital television). Các kỹ thuật của
nó đáp ứng cho việc nén cởi nén và đồng bộ dữ liệu video trong lĩnh vực truyền hình.
- Mpeg-3 : với mục tiêu nén dữ liệu multimedia tương tác với các đĩa quang có mật độ ghi
cao như HDVD ( High-Definition/Density DVD ). Nhưng kết quả thu được không khác biệt
nhiều với Mpeg-2 , nên người ta bỏ phiên bản này.
- Mpeg-4 với mục tiêu nhằm vào nén, cởi nén dữ liệu multimedia có tốc độ thấp , cỡ vài
nghìn bit trên giây. Nó nhằm vào các thiết bị xử lý multimedia nhỏ, thiết bị cầm tay như video
telephones , mobile phone , thiết bị di chuyển nhanh (các thiết bị multimedia đặt trên xe ) nén

c- Mpeg-1 nén dữ liệu và tạo thành các gói (packet)
Mỗi gói được bắt đầu bằng code gồm 32 bit, tiếp theo là header và kết thúc gói bằng mã
endcode 32 bit. ở giữa header và end ode có chứa một số gói.Mỗi gói chứa dữ liệu nén hoặc
audio hoặc video. Kích thước của mỗi gói được xác định trước bởi bộ mã Mpeg (MPEG
encoder theo yêu cầu lưu trữ hoặc thiết bị truyền đi) , điều này giải thích vì sao một packet
không cần đầy đủ các ảnh video, nó có thể là phần nào đó của audio, phần nào đó của ảnh
video.Hình H15 dưới đây mô tả cấu trúc dữ liệu nén của Mpeg-1
d - Mpeg-1 giải nén audio và ảnh động riêng biệt
Bộ giải mã Mpeg-1 nhằm khôi phục lại dữ liệu video , nó gồm 3 lớp (layer).
Lớp giải mã ảnh video, lớp giải mã audio và lớp data system. Lớp data system có nhiệm vụ
đọc và phân tích dữ liệu trong phần header của các gói , các đường dẫn dẫn đến các gói khác,
đồng bộ dữ liệu đã giải nén ở các buffer.
e - Mpeg-1 sử dụng 3 loại ảnh I ,P,B để nén
- Ảnh I (Intra frame, key frame) có thể coi là ảnh gốc, với ảnh này khi giải mã nó không cần
lấy thông tin từ ảnh khác;
- Anhr P (predicted picture ) là ảnh khi giải nén nó phải sử dụng thông tin từ các ảnh trước
nó, thường nó là nén của ảnh I.
- Ảnh B (Bi –directionaly frame ) là ảnh mà khi giải nén nó phải dùng cả ảnh đứng trước và
ảnh sau nó. Ảnh B là ảnh có tỉ lệ nén cao nhất.
Từ khái niệm ảnh I,B,P chúng ta dễ thấy rằng trật tự các ảnh trên đĩa CD khác với trật tự xuất
hiện của các ảnh . Trong hình H2 , dãy số ằm ngang là thứ tự ảnh trên đĩa CD, cột số bên phải
là thứ thự ảnh khi play.
Khi nén Mpeg sử dụng ba kiểu ảnh I,P, B . Các ảnh này được xếp thành từng nhóm, các nhóm
có thể tổ chức thành loại nhóm đóng hoặc nhóm mở (open group, closed group).Nhóm đóng
là nhóm mà khi khôi phục ảnh nó chỉ sử dụng các ảnh trong nhóm, nhóm mở là nhóm có thể
sử dụng ảnh ở ngoài nhóm để khôi phục lại ảnh. Các anh I,P,B ở đầu vào được sắp xếp theo
một trật tự nào đó, sau khi giải nén ta được dãy ảnh mới để hiển thị. Nói chung trật tự hiển
thị khác với trật tự vào. Một vùng của ảnh đang xét khi giải mã có thể phải dùng đến các ảnh
trước, ảnh sau trong nhóm hoặc ngoài nhóm.
f - Mpeg-1 sử dụng phép biến đổi cosin trong quá trình nén

tin về I, P, B pictures) để gửi tới bộ giải mã.
Hình 2. Sơ đồ bộ mã hoá và giải mã dùng MPEG
Đối với trường hợp P-pictures, các hệ số DCT cũng được đưa đến bộ giải mã nội bộ (nằm ngay trong bộ mã hoá). Tín hiệu
dư hay sai số tiên đoán được biến đổi ngược lại dùng phép biến đổi IDCT và được cộng thêm vào ảnh đứng trước để tạo
nên ảnh tham khảo (ảnh tiên đoán). Vì dữ liệu ảnh trong bộ mã hoá được giải mã luôn nhờ vào bộ giải mã nội bộ ngay
chính bên trong bộ mã hoá, do đó ta có thể thực hiện thay đổi thứ tự các bức ảnh và dùng các phương pháp tiên đoán như
đã trình bày ở trên.
Giải mã MPEG-2
Quá trình khôi phục lại ảnh tại bộ giải mã là hoàn toàn ngược lại. Từ luồng dữ liệu nhận được ở đầu vào, vector chuyển
động được tách ra và đưa vào bộ bù chuyển động (Motion Compensator), các hệ số DCT được đưa vào bộ biến đổi ngược
IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian. Đối với P pictures và B pictures, vector chuyển động
sẽ được kết hợp với các khối tiên đoán (predicted macroblock) để tạo thành các ảnh tham khảo.
2 - Chuẩn MPEG-4
MPEG-4 là chuẩn mới cho dữ liệu audiovisual data.Tuy nhiên nén video và audio vẫn là đặc
điểm nổi trội của Mpeg -4 .Phần này mô tả những nét chính về MPeg4.
Mpeg-4 được bắt đầu từ 5/1991.Năm 1999 công bố chuẩn phiên bản đầu tiên.Năm 2003
Mpeg-4 ISO và IEC công nhận quốc tế . Tài liệu chuẩn mang mã số ISO/IEC 14496.
Dưới đây là một số đặc trưng quan trọng của Mpeg-4 :
a- Có các công cụ (Tools) cơ bản để truy cập dữ liệu multimedia. Nhờ các công cụ này, người
ta có thể indexing, linking , quering,browsing,delivering file, deleting file
b- Có thể kết nối, thay đổi và Edit các bitstream trên các file nén mà không cần cởi nén.
c- Cho phép lai ghép dữ liệu tự nhiên và nhân tao. các cảnh quay từ camera , cùng với text,
các cảnh nhân tạo có thể tổng hợp thành một cảnh mới và nén chung với nhau.
d- Cho phép truy cập trực tiếp hay còn gọi là truy cập random vào dữ liệu
điều này rất quan trọng , làm cho quá trình xử lý hiệu quả.
e. Nén hiệu quả ; do yêu cầu của loại thiết bị mà mpeg-4 phục vụ cho nên nó đỏi hỏi tỉ lệ nén
phải cao, nó phải dùng hòa các yếu tố chất lượng, tốc độ, dung tích nhớ
f. Cùng lúc có thể làm việc với nhiều dòng dữ liệu ( data streams)
g. Rất mạnh trong xử lý lỗi . Do nó phải phục vụ trong điều kiện truyền thông ví dụ nhiễu,
đường truyền bị sự cố tất cả đều có thể sinh ra lỗi.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Thảo luận Truyền thông đa phương tiện đề tài Nén video.Các chuẩn MPEG.Nén video và audio theo MPEG - Pdf 22

Tài liệu, ebook tham khảo khác

Học thêm