NGHIÊN CỨU ỨNG DỤNG CỦA CHUẨN NÉN MPEG4 PART 10H.264 KẾT HỢP VỚI VIDEO STREAMING - Pdf 23

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
VŨ THỊ HƯƠNG GIANG
NGHIÊN CỨU ỨNG DỤNG CỦA CHUẨN NÉN MPEG-4
PART 10/H.264 KẾT HỢP VỚI VIDEO STREAMING CHUYÊN NGÀNH: KỸ THUẬT VIỄN THÔNG
MÃ SỐ: 60.52.02.08
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2014

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

sử dụng nén để thu được hiệu quả truyền dẫn. Nén cho phép các nhà
cung cấp dịch vụ IPTV quảng bá các kênh video và audio chất lượng
cao qua một mạng IP băng rộng. Chuẩn nén video MPEG-4 Part
10/H.264 là một trong những định dạng hay được sử dụng nhất hiện
nay để ghi, nén, phân phối video độ nét cao với nhiều ứng dụng rộng
rãi từ các ứng dụng video streaming qua Internet tốc độ bit thấp tới
quảng bá HDTV. Chuẩn MPEG-4 Part 10/H.264 kế thừa các ưu điểm
của các chuẩn nén trước đó như MPEG-2, MPEG-4, nhưng MPEG-
4 Part 10/H.264 có hiệu suất nén tốt hơn và linh hoạt hơn trong việc
lưu trữ và truyền dẫn.
Với đề tài:" Nghiên cứu ứng dụng của chuẩn nén MPEG-4 Part
10/H.264 kết hợp với video streaming", luận văn của em gồm 3
chương:
Chương 1: Tổng quan về các chuẩn nén trong video streaming.
Chương 2: Chuẩn nén video MPEG.
Chương 3: Ứng dụng của bộ mã hóa MPEG-4 Part 10/H.264 và
video streaming vào IPTV.
2

CHƢƠNG 1 - TỔNG QUAN VỀ CÁC CHUẨN NÉN
TRONG VIDEO STREAMING
1.1. Giới thiệu
Có 2 mô hình truyền dẫn video lưu trữ trên mạng Internet đó là
chế độ download và chế độ streaming. Video streaming có các yêu
cầu về băng thông, độ trễ và mất mát. Tuy nhiên, mạng Internet nỗ
lực tối đa hiện nay không cung cấp bất kỳ đảm bảo về QoS.
Nén video làm giảm số bit dùng để biểu diễn từng pixel trong ảnh.
Các thuật toán nén ảnh sinh ra các tạp nhiễu (artifact) nhìn thấy được.
Nén luôn là sự được-mất giữa mức artifact và băng thông.
1.2. Các yêu cầu kỹ thuật của các chuẩn nén trong video

phát hiện các biên và các đường. Một kiến trúc nén tốt là phải tận
dụng được cơ chế của thị giác.
1.3.2. Các thuật toán nén
Có 4 loại dư thừa chính trong tín hiệu video là: không gian, thời
gian, giác quan, thống kê.
 Mã hóa trong khung hay nén không gian
Mã hóa biến đổi, trong đó một block của các pixel được biến đổi
sang miền tần số, sau đó lượng tử hóa và mã hóa entropy.
Mã hóa biến đổi
Mã hóa biến đổi chuyển đổi mảng không gian của các pixel block,
một bản đồ bit sang miền tần số. Biến đổi cosin rời rạc DCT được
thông qua rộng rãi cho video codec. Một số biến đổi khác được
nghiên cứu là DFT, KLT và WHT.
Nén wavelet
Cung cấp sự biểu diễn lại thời gian-tần số của ảnh và có thể thu
được cùng chất lượng ảnh như DCT ở tỉ số nén cao hơn nhiều.
 Nén dựa vào mô hình
Đây là sự thay thế cho mã hóa dạng sóng. Codec cố gắng mô hình
hóa cảnh và sau đó phát các ký hiệu mô tả, thay vì biểu diễn lại ảnh
không gian.
Chia nhỏ (fractal)
Trong những ảnh nhất định, các phần của ảnh tương đồng với các
phần khác của cùng một ảnh.Các phần giống nhau của ảnh được định
vị và sau đó áp dụng thuật toán chia nhỏ.
Mã hóa dựa trên đối tượng
Mã hóa đối tượng được thông qua là cơ sở cho mã hóa MPEG-4.
Một cảnh được biểu diễn lại bằng một số đối tượng video. Mỗi đối
4

tượng được miêu tả bởi hình dạng, kết cấu và di chuyển. Thuật toán

được chuẩn hỗ trợ. Nén dựa trên DCT với mã hóa độ dài thay đổi.
2) MPEG-1
5

Độ phân giải thông thường là nguồn hoặc định dạng đầu vào
chuẩn (SIF). Độ phân giải không gian khác nhau : 352 x 288 ở 25 fps
cho PAL và 351 x 240 ở 30 fps cho NTSC. Chuẩn này sử dụng quét
tiến lên. Nén video giống như H.261 sử dụng DCT với mã độ dài
thay đổi.
Chuẩn này được thiết kế cho các ứng dụng lưu trữ như CD-ROM,
tốc độ dữ liệu lên tới 1.5 Mb/s và không hỗ trợ streaming.
3) H.263
H.263 là sự phát triển của H.261 hướng tới các ứng dụng tốc độ
bit thấp, có từ năm 1992. Chuẩn H.263 hỗ trợ độ phân giải SQCIF,
QCIF, CIF, 4CIF, 16 CIF. H.263 hiện nay là chuẩn cơ sở cho mã hóa
video tự nhiên MPEG-4.
4) MPEG-2
Một hệ thống độ phân giải cao hơn, chất lượng cao cho truyền
hình quảng bá, MPEG-2 dành để thay thế cho hệ thống tổng hợp
tương tự (NTSC, PAL) bằng hệ thống truyền dẫn số, mã hóa DVD.
Ứng dụng chính sử dụng băng thông kênh lớn hơn 4 Mb/s. Profile
chính ở mức chính (MP@ML) là TV độ nét chuẩn với tốc độ dữ liệu
lên tới 15 Mb/s. Chuẩn này dành để hỗ trợ tốc độ bit TV độ nét cao
(lên tới 80 Mb/s) và một profile studio chỉ có khung I (50 Mb/s).
5) MPEG-4
MPEG-4 là hệ thống MPEG đầu tiên mà hỗ trợ streaming là một
phần của chuẩn. MPEG-4 phiên bản 1 hỗ trợ: Tốc độ bit điển hình từ
5 kb/s tới 10 Mb/s; định dạng quét: video trộn lẫn hoặc lũy tiến. Độ
phân giải: điển hình từ sub-QCIF tới trên HDTV.
MPEG-4 không dùng bản đồ bit 2 chiều và vuông góc như các

1.4. Kết luận
Chương 1 trình bày yêu cầu kỹ thuật của nén video trong video
streaming, cơ sở của nén video và một số chuẩn nén phổ biến. Các
công nghệ nén khác nhau được phát triển cho các mục đích khác
nhau. Đối với ứng dụng video streaming, bộ video codec phải đảm
bảo được các yêu cầu về băng thông, độ trễ, mất gói, độ phức tạp
7

Chƣơng 2 - CHUẨN NÉN VIDEO MPEG VÀ MPEG-
4 PART 10/ H.264
2.1. Giới thiệu
MPEG là nhóm chuyên gia về hình ảnh, được thành lập vào năm
1988 với nhiệm vụ xây dựng tiêu chuẩn cho tín hiệu audio và video
số. Ngày nay, MPEG đã trở thành một kỹ thuật nén audio và video
phổ biến nhất, tùy thuộc vào yêu cầu cụ thể của từng thiết bị sẽ có
một tiêu chuẩn thích hợp nhưng vẫn trên một nguyên lý thống nhất.
2.2. Mã hóa và giải mã MPEG
2.2.1 Cấu trúc dòng bit video MPEG
Seq Seq Seq
Seq SC
Video
Params
Bitstream
Params

macroblock bao gồm 4 block độ chói và 1 block U và V.
MPEG định nghĩa 3 loại khung trong nhóm: khung I (Intraframe),
khung dự đoán hay khung P, khung hai hướng hay khung B.
Cơ sở của công nghệ nén MPEG là kết hợp nén trong khung
(intra-frame) và nén liên khung (inter-frame).
8

Bộ giải
mã cục
bộ
DCT
Lượng tử
hóa
Mã hóa
Entropy
Bộ
đệm
Giải lượng
tử hóa
Lượng tử
hóa
DCT ngược
Dự đoán bù
chuyển động
Ước tính
chuyển động
Video vào
Điều khiển tốc độ
+
+

bit vào
Video đầu ra
Giải lượng tử
hóa
Vector chuyển động
Ảnh tham
chiếu
Sai số
dự đoán

Hình 2.3: Sơ đồ giải nén MPEG
Quá trình giải nén: đầu tiên là giải mã entropy, sau đó tách dữ liệu
ảnh (hệ số biến đổi DCT) ra khỏi các vector chuyển động. Dữ liệu
9

ảnh sẽ được giải lượng tử hóa và biến đổi DCT ngược. Nếu ảnh là
ảnh loại I bắt đầu ở mỗi nhóm ảnh trong chuỗi, ở đầu ra sẽ nhận được
ảnh hoàn chỉnh bằng cách trên. Nếu ảnh là ảnh loại P thì cũng thực
hiện giải lượng tử hóa và biến đổi DCT ngược kết hợp với việc sử
dụng vector chuyển động và lưu vào bộ nhớ ảnh trước. Ta nhận được
ảnh sau khi cộng dự đoán ảnh và kết quả biến đổi DCT ngược.
2.3. Chuẩn nén MPEG-4
Vào tháng 10 năm 1998, MPEG-4 đã ra đời, với tốc độ mã hóa
khoảng 1.5 Mb/s, chuẩn nén MPEG-4 đã giải quyết phần nào vấn đề
tắc nghẽn mạng và sự hạn chế về băng thông. MPEG-4 bao gồm các
bộ phận riêng rẽ, có quan hệ chặt chẽ với nhau và có thể được triển
khai ứng dụng riêng hoặc tổ hợp với các phần khác.
2.3.1 Công nghệ mã hóa và giải mã video trong MPEG-4
Phân chia các
đối tượng

bit

Hình 2.4: Cấu trúc bộ mã hóa và giải mã MPEG-4
Với MPEG-4, các đối tượng khác nhau trong một khung hình có
thể được mô tả, mã hóa và truyền đi một cách riêng biệt đến bộ giải
mã trong các dòng cơ bản ES khác nhau.
- Mã hóa hình dạng: dùng để nén đoạn thông tin, giúp xác
định khu vực và đường viền bao quanh đối tượng trong khung hình
- Mã hóa kết cấu: kết cấu của một đối tượng video thường
được mã hóa bằng DCT. Có thể mã hóa sử dụng biến đổi wavelet.
- Mã hóa chuyển động: Nếu đối tượng chuyển động, thông số
chuyển động cho toàn bộ đối tượng được truyền.
10

2.3.2 Các profile và level trong chuẩn MPEG-4

Hình 2.5: Các profile và mức level trong MPEG-4
MPEG-4 chia thành các nhóm công cụ gọi là các profile, mỗi
profile chỉ chứa một vài tính năng cần thiết của chuẩn mã hóa thích
hợp cho một phạm vi ứng dụng nào đó. Mỗi profile lại có một số
mức level khác nhau.
Có nhiều nhóm profile như media profile, scene graph profile,
MPEG-J profile,
Nhóm media profile có: audio profile, visual profile, graphics
profile. Trong đó visual profile gồm có các profile sau: Simple
profile Simple scalable profile, Core profile (profile lõi), Main
profile, N-bit profile, Scalable texture profile Simple face, Hybrid
profile, Basic animated texture profile.
2.4. Chuẩn nén MPEG-4 Part 10/H.264
2.4.1 Giới thiệu chung về MPEG-4 part 10/H.264

động và các mode dự đoán trong ảnh có thể làm biến đổi kích thước
block trong ảnh. Cuối cùng, vector chuyển động hay các mode dự
đoán liên ảnh được liên kết với thông tin của hệ số biến đổi lượng tử
hóa và được mã hóa sử dụng mã entropy như CAVLC hay CABAC.
2.4.2.1 Các ảnh và bù chuyển động dùng trong MEG-4 Part
10/H.264
 Chia ảnh thành các macro-block
Mỗi ảnh video, frame được chia thành các macroblock có kích
thước cố định bao phủ một diện tích ảnh hình chữ nhật gồm 16 x 16
mẫu cho các thành phần chói và 8 x 8 mẫu cho một trong hai thành
phần màu.
12

Các macroblock được tổ chức thành các slice. MPEG-4 Part
10/H.264 hỗ trợ 5 dạng mã hóa slice khác nhau. Slice I, B, P như các
chuẩn trước. Hai dạng mới là SI và SP.
 Dự đoán trong ảnh Intra-frame
H.264 sử dụng phương pháp dự đoán các macroblock mã hóa
trong ảnh để giảm một lượng các bit được mã hóa bằng chính tín hiệu
gốc đưa vào.

Lƣợng tử
hóa
Mã hóa
entropy
Biến đổi ngƣợc

Bộ lọc tách
khối
Bộ nhớ ảnh

slice P cũng có thể được mã hóa trong mode gọi là SKIP.
 Bù chuyển động trong các slice B
So với các tiêu chuẩn trước đó, MPEG-4 Part 10/H.264 đã tổng
quát khái niệm slice B và không chỉ hỗ trợ một cặp dự đoán theo
hướng tiến/lùi mà còn cả hai cặp theo hướng tiến/tiến và lùi/lùi
Các mode dự đoán trong slice B: Trong slice B có 4 mode dự
đoán liên ảnh khác nhau được hỗ trợ: dự đoán list 0, list 1, hai hướng
và trực tiếp.
Dự đoán có trọng số (weighted prediction):
MPEG-4 Part 10/H.264 sử dụng phương pháp dự đoán có trọng số
khác nhau cho một macroblock của slice P hay slice B.
Việc phân chia các macroblock: tương tự như với slice P. Các
vector chuyển động tương tự như với slice P.
 Các slice SP và SI
Trong các tiêu chuẩn trước đó, việc chuyển đổi hoàn toàn giữa các
dòng bit có thể chỉ trong một ảnh I. H.264 giới thiệu các slice chuyển
đổi SP và SI để chuyển đổi giữa các dòng bit được mã hóa ở tốc độ
bit khác nhau.
2.4.2.2 Ước tính chuyển động (Motion Estimation)
Ước tính vector chuyển động được sử dụng cho nén sự dư thừa về
thời gian.Việc ước tính vector chuyển động thực hiện phép phân tích
giữa hai khung liên tiếp và xác định những miền hình ảnh có thay đổi
hay chuyển động giữa các ảnh.
2.4.2.3 Nén video
1) Nén theo miền thời gian
Khi bộ mã hóa đang hoạt động ở chế độ "inter", khối này sẽ phải
qua công đoạn hiệu chỉnh chuyển động. Khi bộ mã hóa hoạt động ở
chế độ "intra", khối này sẽ bỏ qua công đoạn hiệu chỉnh chuyển động
và tới thẳng công đoạn DCT.
2) Nén theo miền không gian

Biến đổi ngƣợc
Bộ lọc tách
khối
Bộ nhớ ảnh
Dự đoán bù
chuyển động
Quyết định Intra/
inter mode
Video đầu ra
Dòng bit
đầu vào
Dự đoán
trong khung
Các hệ số
lượng tử
Dữ liệu chuyển động
Hình 2.7: Sơ đồ bộ giãi mã video trong MPEG-4 Part 10/H.264
15

2.4.4. Các profile và level của chuẩn MPEG-4 part 10/H.264
Extended profile
Phân chia dữ liệu
SI slice
SP slice
I slice
P slice
CAVLC
Thứ tự slice tùy ý
Thứ tự macroblock mềm dẻo
Slice dư thừa

42.95%
H.263 HLP 30.61%
16
Hình 2.9: PSNR thành phần chói và tốc độ bit trung bình của các
chuẩn mã hóa khác nhau cho ứng dụng video streaming
Đối với ứng dụng video conferencing, H.264/AVC BP (Baseline
Profile), MPEG-4 Visual SP (Simple Profile), H.263 Baseline, H.263
CHC được xem xét.
Bảng 2.2: Tiết kiệm tốc độ bit trung bình cho ứng dụng video
conferencing
Bộ mã hóa
Tiết kiệm tốc độ bit trung bình tương đối:
H.263 CHC
MPEG-4 SP
H.263 base
H.264/AVC BP
27.69%
29.37%
40.59%
H.263 CHC

2.04%
17.63%
MPEG-4 SP

18

Dải tìm kiếm: Việc tăng cả số khung tham chiếu và kích thước tìm
kiếm làm cho tần suất truy cập cao hơn, lên tới xấp xỉ 60 lần, trong
khi ảnh hưởng rất nhỏ lên hiệu năng PSNR và tốc độ bit.
Nhiều khung tham chiếu: làm tăng tần suất truy cập theo kiểu
tuyến tính: độ phức tạp tăng 25% cho mỗi khung thêm vào. Một độ
lợi nhỏ hơn 2% trong tốc độ bit đối với tốc độ bit thấp và trung bình,
nhưng tiết kiệm đáng kể hơn cho các chuỗi tốc độ cao (lên tới 14%).
Bộ lọc tách khối:ảnh hưởng không đo được lên độ phức tạp mã
hóa. Tuy nhiên, bộ lọc làm tăng đáng kể trong chất lượng hình ảnh
theo đối tượng.
Đối với bộ mã hóa, nút thắt cổ chai chính là sự kết hợp nhiều ảnh
tham chiếu và kích thước tìm kiếm lớn.
 Phân tích độ phức tạp của một số công cụ giải mã
H.264/AVC chính.
CABAC: tần suất truy cập tăng lên tới 12%, so với phương pháp
sử dụng bảng VLC thuận nghịch đơn.
B-frames: ảnh hưởng của các khung B lên độ phức tạp truyền dữ
liệu tăng biến động từ 11 tới 29%.
Biến đổi Hadamard: ảnh hưởng có thể bỏ qua về mặt truy cập bộ
nhớ, trong khi tăng thời gian giải mã lên 5%.
Bộ lọc tách khối: sử dụng bộ lọc tách khối làm tăng tần suất truy
cập ở bộ giải mã 6%.
Giải pháp vector thay thế: trong trường hợp bộ mã hóa chỉ gửi các
vector chỉ vị trí 1/2 phần tử ảnh, độ phức tạp giảm 15%.
2.6. Kết luận chƣơng 2
Chương 2 trình bày về bộ mã hóa và giải mã MPEG nói chung,
MPEG-4 nói riêng và đi sâu vào chuẩn MPEG-4 part 10/H.264.
Chuẩn mã hóa video MPEG-4 part 10/H.264 hay H.264/AVC được

mục đích công việc liên tục và có trách nhiệm streaming nội dung
live IPTV sử dụng các giao thức đã chọn tới người sử dụng.
Máy chủ video streaming nhận các lệnh từ máy chủ middleware
và VoD, nó cũng nhận đầu vào từ DRM và máy chủ quản lý nội dung
với các dòng MPEG-2, MPEG-4, H.264 hoặc các bộ codec tương tự
được chọn bởi nhà cung cấp dịch vụ IPTV.
3.1.2 Các phương pháp khác nhau để streaming nội dung
IPTV
3.1.2.1 Unicast
Trong unicast, tất cả các dòng video IPTV được gửi tới một
IPTVCD đơn. Do đó, nếu có nhiều hơn một người sử dụng cuối
IPTV thu cùng kênh video, từng IPTVCD sẽ cần nhận các dòng
unicast riêng biệt.
3.1.2.2 Broadcast
Mạng IP cũng hỗ trợ chức năng broadcast, trong đó kênh IPTV
được stream tới tất cả các thiết bị truy cập IPTV kết nối với mạng
băng rộng. Khi một máy chủ được cấu hình để broadcast, một kênh
được gửi tới tất cả các IPTVCD kết nối với mạng dù có yêu cầu hay
không. Đây là một vấn đề lớn vì tài nguyên của IPTVCD.
3.1.2.3 Multicast
Các nhóm và thành viên tạo thành cơ sở cho multicast hoạt động.
Trong triển khai IPTV, mỗi nhóm multicast là một kênh TV quảng bá
và thành viên của nó là các IPTVCD chọn xem kênh đó. Do đó, từng
kênh IPTV chỉ stream tới các IP set-top box muốn xem kênh đó.
21

3.2. Mô hình tham chiếu IPTV và truyền tải các nội dung
MPEG-4
MPEG-4 part 10/H.264 bao gồm hai lớp: lớp mã hóa video (VCL)
và lớp trừu tượng mạng (NAL). Bắt đầu ở H.264/AVC mới đưa ra

H.264/AVC: Chuyển đổi ảnh, chuỗi con và các lớp, các tập tham số.
 Cấu trúc dòng phần tử (ES)
Có hai loại dòng phần tử để lưu trữ nội dung AVC trong
định dạng file AVC: dòng phần tử video, dòng phần tử tập tham số
 Định nghĩa cấu hình và mẫu:
Mẫu AVC: là đơn vị truy cập
Mẫu tập tham số AVC: là một mẫu trong một dòng tập tham số mà
chứa các NALU tập tham số đó được xem xét nếu có mặt trong dòng
phần tử video ở cùng tham số thời gian.
3.2.2. Đóng gói dòng phần tử ES H.264/AVC vào dòng truyền
tải MPEG-2
8 bit 16 bit 2 bit 2 bit 4 bit Độ dài thay đổi Dữ liệu video
Byte đồng bộ
Điều khiển xáo
trộn truyền tải
Điều khiển trường thích ứng
Bộ đếm liên tục
1 bit chỉ thị
lỗi truyền tải
1 bit chỉ thị
bắt đầu khối
tải trọng
1 bit độ
ưu tiên
truyền tải
Nhận dạng chương
trình (PID)
Trường thích ứng
Hình 3.3: Định dạng gói MPEG TS
Từng dòng cơ bản được chuyển đổi thành một dòng các gói dòng

Loại tải trọng (PT)
Số chuỗi Nhãn thời gian
Nhận dạng nguồn
đồng độ (SSRC)
Danh sách nhận dạng
nguồn phân phối (CSRC)
Hình 3.4: Định dạng điển hình của một RTP header
RFC 3984 định nghĩa 3 cơ chế chèn các khối NAL vào tải trọng
RTP:
- Gói khối NAL đơn: cơ chế này định nghĩa ánh xạ một khối
NAL đơn vào một tải trọng RTP đơn.
- Gói khối NAl kết hợp: cơ chế này định nghĩa ánh xạ nhiều
khối NAL vào một tải trọng RTP đơn.
- Gói NAL phân tách: Cơ chế này định nghĩa ánh xạ một khối
NAL đơn thành nhiều tải trọng RTP.
3.3. Đánh giá mô hình hệ thống IPTV và kết quả đạt đƣợc
Hệ thống IPTV trong hình 3.1 biểu diễn các thành phần phần
cứng và phần mềm cũng như các giao diện liên quan được yêu cầu để
thực thi một giải pháp từ đầu tới cuối hoàn chỉnh cho multicast TV và
VoD trên nền IP. Mô hình này mang tính lý thuyết. Trong thực tế,
việc triển khai IPTV tùy theo giải pháp của từng nhà cung cấp dịch
vụ.
3.4. Kết luận chƣơng 3
Chương 3 trình bày về các thành phần video sử dụng trong hệ
thống IPTV, các phương pháp để streaming nội dung IPTV và mô
hình tham chiếu IPTVCM để đóng gói và truyền tải các nội dung
MPEG-4 part 10/H.264. Đối với VoD, một hệ thống truyền thông
unicast được sử dụng để thiết lập các liên kết hoặc các phiên riêng rẽ
giữa các IPTVCD và máy chủ trung tâm dữ liệu IPTV. Phương pháp
truyền thông này là không hiệu quả để phân phát các kênh quảng bá


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status