BÀI TIỂU LUẬN MÔN AN NINH CƠ SỞ DỮ LIỆU NÉN ÂM THANH SỐ - Pdf 22

BÀI TIỂU LUẬN MÔN AN NINH CƠ SỞ DỮ LIỆU
NÉN ÂM THANH SỐ
GV hướng dẫn : PGS. TS. Trịnh Nhật Tiến
Học viên : Nguyễn Khắc Minh
Lớp : K19HTTH
1
GIỚI THIỆU
Trong bài tiểu luận này, em xin trình bày về Nén âm thanh số. Bài trình bày đi vào tìm
hiểu về âm thanh số, các phương pháp nén âm thanh số, độ an toàn của nén âm thanh số
cũng như là các ứng dụng của nén âm thanh số. Trong bài tiểu luận em đi sâu vào nghiên
cứu định dạng nén có mất mát “AAC – Advanced Audio Coding”, là một bước kế tiếp so
với chuẩn nén MP3 mà rất phổ biến hiện nay.
Cuối bài, em xin giới thiệu một chương trình nén file từ định dạng không nén (wav)
sang định dạng aac và đồng thời giải nén theo hướng ngược lại (từ định dạng mp3 sang
định dạng aac).
Bài tiểu luận của em được trình bày theo những điều em tìm hiểu được, hoặc được
trích dẫn lại từ các website mà em tham khảo. Có điều gì chưa đúng, mong thầy góp ý để
bài tiểu luận của em hoàn thiện hơn, chính xác hơn.
Em xin chân thành cảm ơn!
Học viên: Nguyễn Khắc Minh
2
NỘI DUNG
CÁC THUẬT NGỮ
Từ/Thuật
ngữ
Viết đầy đủ/Từ tiếng Anh Giải thích/Tham chiếu
Âm thanh số Digital audio Âm thanh được lưu trữ dạng
số
ADC Analog To Digital Converter Bộ chuyển đổi từ tín hiệu
tương tự sang tín hiệu số
DAC Digital to Analog Converter Bộ chuyển đổi từ tín hiệu số

trong khi không che giấu với
một số người khác
Mã hóa Encode Cũng là cách thức thay đổi dữ
liệu được trình bày, nhưng là
bảo toàn dữ liệu, và dễ dàng
hồi phục sau một số loại
chuyển đổi.
CD Compact Disc Là loại đĩa quang, có thể lưu
trữ 80 phút âm thanh hoặc
700MB dữ liệu máy tính được
mã hóa theo kĩ thuật số
DVD Digital Versatile Disc, hoặc
Digital Video Disc
Là định dạng lưu trữ đĩa
quang, để lưu trữ video và dữ
liệu, có dung lượng lớn hơn
đĩa CD.
Codec Compressor-Decompressor,
hoặc Coder-Decoder, hoặc
Compression/Decompression
algorithm
Là thiết bị, hoặc chương trình
có khả năng mã hóa và giải
mã một dòng dữ liệu hoặc tín
hiệu.
MPEG The Moving Picture Experts
Group
Hội phim ảnh thế giới, là một
sản phẩm nhóm mang tính
ISO/IEC được phát triển cho

Là quá trình nhúng thông tin
vào tín hiệu số được dùng để
xác minh tính xác thực hoặc
nhận dạng tác giả…
CHƯƠNG 1: GIỚI THIỆU ÂM THANH SỐ
1.1. Âm thanh số
Âm thanh là những gì chúng ta nghe thấy bằng tai. Những âm thanh đó là sóng do áp lực
của không khí truyền tới tai qua không khí. Nếu không có không khí, chúng ta không thể
nghe thấy gì cả. Và cũng không có âm thanh trong không gian. Chúng ta nghe thấy âm
thanh vì tai của chúng ta nhạy cảm với những dạng sóng áp lực đó. Sóng có thể ở dạng sự
kiện như tiếng vỗ tay hoặc theo chu kì như tiếng bấm chuông, lắc đồng hồ.
Hình vẽ dưới đây mô phỏng một dạng sóng đã được lượng tử hóa và loại bỏ các giá trị
ngưỡng 0 (Sóng âm thanh, là đường màu xám)
5
Figure : Sóng âm thanh (Nguồn tham khảo:
/>Âm thanh số là việc tái tạo lại âm thanh bằng cách sử dụng điều chế mã xung và tín hiệu
số. Hệ thống âm thanh số gồm bộ chuyển đổi từ tương tự sang số (ADC), chuyển đổi từ
số sang tương tự (DAC), lưu trữ số, các thành phần xử lý và truyền dữ liệu. Thuận lợi
chính của việc sử dụng âm thanh số là khả năng lưu trữ, truy xuất và truyền tín hiệu mà
không có tổn thất nhiều về chất lượng.
Figure : Hệ thống chuyển đổi âm thanh số
( />Những âm thanh mà chúng ta nghe thấy thường là những âm thanh có tần số nằm trong
khoảng 20Hz-20kHz. Có 2 yếu tố xác định chất lượng của việc ghi âm số gồm:
• Tỉ lệ lấy mẫu (sample rate): Tỉ lệ mà các mẫu được ghi âm hoặc phát lại, đo bằng
đơn vị Hertz (Hz), hoặc số lượng mẫu trong mỗi giây. Một đĩa âm thanh số thường
có tỉ lệ mẫu là 44,100Khz, được viết tắt thành 44kHz.
6
• Định dạng mẫu hoặc gọi là kích thước mẫu: Nó là số bit để thể hiện dạng số cho
mỗi mẫu. Nếu coi tỉ lệ lấy mẫu là độ chính xác theo chiều ngang của sóng âm
thanh số, thì kích thước mẫu sẽ là độ chính xác theo chiều dọc. Một đĩa CD âm

Bảng các định dạng file phổ biến:
Kiểu file Phần file mở rộng Codec
AIFF (Mac) .aif, .aiff *PCM
AU (Sun/Next) .au *u-law
CD Audio (CDDA) N/A PCM
MP3 .mp3 MPEG Audio Layer-
III
Windows Media
Audio
.wma Proprietary
(Microsoft)
QuickTime .qt Proprietary (Apple
Computer)
RealAudio .ra, ram Proprietary (Real
Networks)
WAV .wav *PCM
Có thể được sử dụng với nhiều codec khác nhau
MP3
Định dạng MP3, là định dạng file âm thanh phổ biến nhất, là ví dụ tiêu biểu của hệ thống
nén có mất mát. Định dạng MP3 được phát triển vào cuối những năm 1980 và bắt đầu
phổ biến vào giữa những năm 1990 với sự phổ biến của các phương tiện chia sẻ file trên
Internet. Những file MP3 là lý tưởng cho việc chia sẻ trực tuyến, hoặc trong bất cứ hoàn
cảnh nào mà không gian lưu trữ là trung bình, bởi vì chúng có thể được nén xuống kích
8
thước nhỏ hơn nhiều so với định dạng WAV. Chất lượng của các file MP3 giảm, hầu hết ở
trong khoảng 160 và 320kb/s, so với 1411.2kb/s của các file WAV, nhưng với rất nhiều
người, sự mất mát chất lượng âm thanh đó là không đáng chú ý, đặc biệt với những người
nghe không có nhu cầu đòi hỏi chất lượng âm thanh cao.
AAC – Advanced Audio Coding
Ra đời năm 1997 từ Fraunhofer Institue (Đức) kết hợp với một số công ty như AT&T,

phương tiện dễ dàng sản xuất sản phẩm với chi phí rẻ hơn và tương thích nhiều với các
phần khác hơn. Tính tương thích cung cấp những định dạng chuẩn giúp đảm bảo khách
hàng sao cho nhạc của họ và các thiết bị không bị lạc hậu. Băng cassette, đĩa nén và PCM
là những ví dụ của định dạng âm thanh chuẩn mà phù hợp với cả khách hàng và nhà sản
xuất
PCM
PCM (Điều biến mã xung) là một phương pháp phổ biến để lưu trữ và truyền dữ liệu âm
thanh số không nén. Vì nó là loại định dạng chung, nó có thể được đọc bởi hầu hết các
ứng dụng âm thanh – tương tự với cách file văn bản thuần túy được đọc bởi các ứng dụng
xử lý văn bản. PCM được sử dụng trong Audio CDs và băng âm thanh số (DAT). PCM
cũng là định dạng phổ biến trong các file AIFF và WAV. PCM cũng là cách thể hiện rõ
ràng của những dãy số nhị phân cho các giá trị mẫu (1s và 0s). Khi âm thanh PCM được
truyền, mỗi byte ‘1’ sẽ được thể hiện bằng xung điện áp dương và mỗi giá trị ‘0’ được thể
hiện bởi sự có mặt của một xung.
DPCM
DPCM (Điều biến các mã xung khác biệt) là dạng đơn giản của nén có mất mát mà chỉ
lưu trữ sự khác nhau giữa các mẫu liên tiếp. DCPM sử dụng 4 bits để lưu trữ sự khác
10
nhau, bất kể độ phân giải của file gốc. Với DPCM, một file 8-bit sẽ có tỉ lệ nén là 2=1, và
một file 16bit sẽ có tỉ lệ nén là 4=1.
ADPCM
ADPCM (Điều chế mã xung khác biệt thích ứng) tương tự với DPCM ngoài trừ số bit
được sử dụng để lưu trữ sự khác nhau giữa các mẫu thay đổi phụ thuộc vào độ phức tạp
của tín hiệu. ADPCM hoạt động bằng cách phân tích một mẫu tiếp theo trong các mẫu và
dự đoán giá trị của mẫu tiếp theo. Nó sau đó lưu sự khác giữa các giá trị tính được và giá
trị thực tế.
Nén u-law
u-law (phát âm là mew-law) là loại nén mất mát phổ biến, tương tự với ADPCM, có thể
được dùng trong AU, AIFF, và WAV files
Âm thanh MPEG

như các file chạy) gồm:
• Chuyển đổi Burrows-Wheeler (việc xử lý sắp xếp các khối làm cho việc nén hiệu quả
hơn)
• LZ77
• LZW
• PPM
Các thuật toán để tạo ra chuỗi bit gồm:
• Mã hóa Huffman
• Mã hóa số học
Rất nhiều phương pháp trong số này được cài đặt bằng các công cụ mã nguồn mở và bản
quyền, ví dụ như LZW và các biến thể của chúng. Một vài thuật toán được sang chế ở Mỹ
và các nước khác và việc sử dụng chúng đòi hỏi sự cấp quyền của những nhà, các tổ chức
sáng chế.
Như đã đề cập trước đó, việc nén âm thanh không mất mát là lĩnh vực chuyên sâu. Thuật
toán nén âm thanh không mất mát có thể tận dụng lợi thế của các chuỗi giá trị lặp lại
được chỉ ra bởi bản chất sóng của dữ liệu – cần sử dụng các mô hình để dự đoán giá trị
tiếp theo và mã hóa sự khác nhau giữa các giá trị thực tế và giá trị dự đoán. Nếu sự khác
nhau giữa thực tế và dự đoán (gọi là lỗi) có xu hướng nhỏ, thì những giá trị khác nhau
(như 0, +1, -1, vv ở các dữ liệu mẫu) trở nên rất thường xuyên và có thể được khai thác
để mã hóa chúng thành dạng vài bit. Phương pháp này được gọi là mã hóa Delta.
2.1.2. Nén có mất mát
Một phương pháp nén có mất mát thì dữ liệu được nén và sau đó quá trình giải nén dữ
liệu sẽ trả lại dữ liệu không giống với nguyên gốc, nhưng đủ gần để có thể sử dụng hiệu
quả theo cách nào đó. Nén dữ liệu có mất mát được sử dụng thường xuyên trên Internet
và đặc biệt là trong việc truyền thông đa phương tiện (streaming media) và các ứng dụng
13
điện thoại (telephony). Những phương pháp này thường ám chỉ tới các codec. Hầu hết
các định dạng nén mất mát thì đều có mất mát chung, việc nén lặp lại và giải nén file sẽ
gây ra quá trình mất mát chất lượng. Nó tương phản với phương pháp nén không mất
mát.

trung vào đặc tính của cơ thể con người, ví dụ, có tính đến là mắt người chỉ có thể nhìn
được ở một dải bước sóng ánh sáng xác định. Các mô hình tâm lý-âm thanh sẽ mô tả âm
thanh có thể được nén ở tỉ lệ nào mà vẫn đảm bảo chất lượng nhận được không bị giảm
nhiều. Những sai sót gây ra trong quá trình nén mà có ảnh hưởng đáng kể tới mắt hoặc tai
người thì được coi là những nhiễu/thành phần lạ của việc nén.
Các thuật toán nén không mất mát thường khai thác việc giảm bớt/nén theo thống kê như
vậy để đảm bảo dữ liệu của người gửi chính xác hơn, nhưng vẫn đảm bảo chất lượng/độ
hoàn hảo. Việc nén không mất mát là có thể bởi vì hầu hết dữ liệu thực tế thì đều có dự
phòng thống kê. Ví dụ, trong văn bản tiếng Anh, kí tự e thì thường phổ biến hơn kí tự z,
và xác suất mà kí tự q theo sau kí tự z là rất nhỏ.
Một loại nén khác, gọi là nén dữ liệu có mất mát, là có thể nếu một vài mất mát của thông
tin đúng là chấp nhận được. Ví dụ, khi một người xem một bức ảnh hoặc đoạn video trên
tivi có thể không để ý nếu có một vài chi tiết bị loại bỏ hoặc thể hiện không hoàn hảo.
Tương tự, 2 clips của audio có thể được nhận thức là giống nhau thậm chí có một đoạn
thiếu thông tin mà được tìm thấy ở audio còn lại. Các thuật toán nén dữ liệu có mất mát
được giới thiệu là có sự khác biệt nhỏ và việc thể hiện ảnh, video hoặc audio sử dụng
thiếu vài bit.
Các chiến lược nén không mất mát lại ngược lại, do vậy mà dữ liệu nguyên gốc có thể
được khôi phục, trong khi chiến lược nén mất mát chấp nhận một số mất mát về dữ liệu
để có thể đạt được tỉ lệ nén tốt hơn. Các thuật toán nén không mất mát sẽ không nén được
một vài file; bất cứ thuật toán nén nào cũng thất bại khi nén bất cứ loại dữ liệu nào mà
chứa các mẫu không được nhận dạng rõ. Nỗ lực nén dữ liệu mà đã được nén rồi sẽ làm
chúng nở phình ra, ví dụ khi nén dữ liệu đã được mã hóa (encrypted).
15
2.3. Một phương pháp nén dữ liệu âm thanh số - AAC
Chuẩn AAC (Advanced Audio Coding ) là chuẩn nén audio tiếp nối chuẩn MP3, đang
được sử dụng trong kho lưu trữ âm nhạc trực tuyến của Apple là iTunes. Về mặt kiến
trúc, AAC có kiến trúc tương tự như Mp3 nhưng khác ở chỗ AAC dùng phương pháp
module hóa, phát triển thêm nhiều công cụ mã hóa mới, giúp cải tiến audio ở tốc độ bit
thấp.

Quá trình nén thực sự gồm các bước sau:
• Tín hiệu được chuyển từ miền không gian sang miền tần số sử dụng chuyển đổi
cosine rời rạc sửa đổi forward (MDCT). Nó được thực hiện bằng cách sử dụng
filter banks lấy số lượng mẫu thời gian phù hợp và chuyển chúng sang dạng mẫu
không gian.
• Tín hiệu ở miền tần số được lượng tử hóa dựa trên mô hình cảm nhận âm thanh và
được nén.
• Thêm các mã sửa lỗi nội bộ
• Tín hiệu được lưu trữ và truyền
• Để phòng ngừa các mẫu bị hỏng, cài đặt mới nhất của thuật toán Luhn mod N
được áp dụng cho mỗi frame.
Chuẩn audio MPEG-4 không định nghĩa một hoặc một tập chiến lược nén hiệu quả cao,
nhưng có đề cập tới toolbox phức tạp để thực hiện các thao tác ở phạm vi rộng từ mã hóa
speech ở mức tốc độ bit thấp tới mã hóa âm thanh chất lượng cao và tổng hợp nhạc.
• Dòng thuật toán mã hóa MPEG-4 mở rộng phạm vi từ mã hóa speech tốc độ bit
thấp (xuống tới 2 kbps) tới mã hóa âm thanh chất lượng cao (tới 64 kbps cho mỗi
kênh và cao hơn).
• AAC khuyến nghị tần số lấy mẫu giữa khoảng 8kHz tới 96kHz và bất kể số lượng
kênh từ 1 tới 48 kênh.
17
• Ngược với filter banks lai của MP3, AAC sử dụng chuyển đổi cosine rời rạc có
sửa đổi (MDCT) cùng với việc tăng độ dài cửa sổ lên 1024 hoặc 960 điểm.
Bộ mã hóa AAC có thể chuyển đổi linh động giữa một khối MDCT đơn với độ dài 1024
points hoặc 8 khối 128 điểm (hoặc 960 điểm với 120 điểm, tương ứng)
• Nếu một tín hiệu thay đổi hoặc một sự kiện thoáng qua xảy ra, 8 cửa sổ ngắn mỗi
128/120 điểm sẽ được chọn để cho độ phân giải tạm thời tốt hơn.
• Mặc định, cửa sổ dài hơn 1024/960-điểm sẽ được chọn bởi vì việc tăng độ phân
giải cho phép mô hình cảm nhận sẽ chi tiết hơn, sẽ dẫn tới việc mã hóa sẽ được cải
thiện hơn.
Nén Modular

• Công cụ này cũng tương thích ngược với bộ giải mã đơn giản và đã có trước của
AAC. Một phần lớn chức năng của bộ sửa lỗi dựa vào thông tin lan tỏa của tín
hiệu audio ngang bằng hơn trong luồng dữ liệu.
AAC phục hồi lỗi (ER – Error Resilient)
ER là kĩ thuật dùng để nén chính nó để chống lại lỗi tốt hơn. Với AAC, có 3 phương thức
tùy chỉnh được phát triển và định nghĩa trong MPEG-4 Audio.
• Sắp xếp lại từ mã Huffman (HCR) để tránh việc lây lan lỗi trong dữ liệu phổ.
• Khối mã ảo (Virtual Codebooks – VCB11) để phát hiện lỗi nghiêm trọng trong dữ
liệu phổ.
• Mã độ dài biến thiên ngược (RVLC – Reversible Variable Length Code) để giảm
việc lây lan lỗi trong dữ liệu scale factor data.
Cấp phép và bằng sáng chế
Để có thể truyền trực tiếp hoặc phân phối nội dung ở định dạng AAC thì không yêu cầu
bản quyền hoặc trả tiền. Đó là lý do mà AAC là định dạng hấp dẫn hơn so với MP3, đặc
biệt là việc streaming content (như Internet radio).
19
Tuy nhiên, để phát triển những AAC codec thì nhà sản xuất hoặc người phát triển phải trả
tiền bản quyền. Vì lý do này mà FOSS cài đặt FFmpeg và FAAC chỉ được phân phối ở
dạng mã nguồn, để tránh việc vi phạm bản quyền.
Việc mở rộng và cải tiến
Một vài mở rộng được thêm vào chuẩn AAC đầu tiên (được định nghĩa trong MPEG-2
Part 7 năm 1997).
• Thay thế nhiễu cảm nhận (PNS), được thêm vào MPEG-4 năm 1999. Nó cho phép
việc mã hóa nhiễu như một loại dữ liệu giả ngẫu nhiên.
• Bộ dự đoán dài hạn (LTP), được thêm vào trong MPEG-4 năm 1999. Nó là bộ dự
đoán trước với độ phức tạp tính toán thấp.
• Kháng lỗi (ER) được thêm vào chuẩn MPEG-4 Audio version 2 năm 2000, dùng
cho việc truyền trên các kênh dễ gặp lỗi.
• AAC-LD được định nghĩa năm 2000, sử dụng cho các ứng dụng chuyển đổi thời
gian thực.

Transform). MDCT sẽ chia tiếp đầu ra của giàn lọc thành 1024 băng con (so với 576
băng con của MP3) nhằm đạt độ phân giải tốt hơn trong miền tần số. Việc phân chia các
băng con để tận dụng đặc điểm độ nhạy của tai người đối với các thành phần tần số khác
nhau. Độ phân giải của giàn lọc AAC tốt hơn so với MP3.
2.3.1.2. Mô hình cảm nhận
Khâu này có tính chất quyết định chất lượng của tín hiệu AAC. Bộ mã hóa AAC sẽ tiến
hành ánh xạ từ miền thời gian sang miền tần số bằng phép biến đổi Fourier nhanh FFT
(Fast Fourier Transform) 1024 điểm, để giúp giải tần số tốt hơn nhằm ước lượng ngưỡng
mặt nạ chính xác hơn.
2.3.1.3. Lượng tử hóa và nén
Thực hiện các lượng tử hóa và nén các thành phần phổ với yêu cầu nhiễu lượng tử hóa
thấp hơn ngưỡng của mặt nạ. Các giá trị lượng tử hóa được mã hóa Huffman với giá trị
bảng mã thay đổi đối với các dải tần khác nhau, để thích nghi tốt hơn với các tín hiệu. Vì
mã Huffman là mã có độ dài từ mã thay đổi và cần giữ cho nhiễu thấp hơn ngưỡng mặt
nạ nên phải tính độ lợi và các hệ số trước khi lượng tử hóa. Để tìm được độ lợi và hệ số tỉ
lệ tối ưu đối với một khối cho trước, AAC dùng hai vòng lặp lồng nhau.
2.3.2. Những cải tiến so với chuẩn Layer-3
2.3.2.1. Cải tiến để nâng cao hiệu quả mã hóa
• Độ phân giải tần số cao hơn: Số lượng dòng tần số trong AAC được nâng cao tới
1024 kênh, thay vì 576 nhý trong chuẩn Layer-3
• Dự đoán: Một dự đoán backward lựa chọn, tính theo từng dòng, sẽ đạt được kết
quả mã hóa tốt hơn, đặc biệt với các tín hiệu gần giống như tone (ví dụ, pitchpipe).
Chức năng này chỉ sẵn có trong main profile hiếm khi được sử dụng.
22
• Nâng cao mã hóa joint stereo: So với Layer-3, cả mã hóa mid/side và mã hóa mật
độ cũng linh động hơn, cho phép áp dụng để giảm bit-rate thường xuyên hơn.
• Nâng cao mã hóa Huffman: Trong AAC, việc mã hóa bằng cách gấp 4 lần số dòng
tần số (frequency lines) được áp dụng thường xuyên hơn.Thêm nữa, sự phân công
của bảng mã Huffman với các phần bộ mã hóa có thể được linh động hơn.
2.3.2.2. Cải tiến để nâng cao chất lượng audio

Nếu người không được phép xem thông tin vô tình tải được đoạn audio trên mạng cũng
sẽ không thể xem được.
Bên gửi cũng có thể che giấu các thông tin trong âm thanh số, ở dạng nén dữ liệu thành
các mẩu dữ liệu với dải tần cao hoặc thấp ngẫu nhiên. Với các âm thanh số nằm ngoài
“cảm nhận của tai người”, thì hầu hết các chương trình codec sẽ coi là “nhiễu”, và nếu
không được thỏa thuận trước, thì sẽ loại bỏ các thông tin này, vì coi nó là không có giá
trị.
2.4. Ứng dụng của phương pháp nén dữ diệu âm thanh số
Với sự phát triển của máy tính và internet, nhu cầu chia sẻ thông tin và nhạc ngày càng
cao hơn. Nhưng người ta không thể nào gửi hoặc phải đợi chờ quá lâu khi gửi cả album
nhạc đến 1000MB qua internet với tốc độ thấp được. Do đó các nhóm nghiên cứu, các tổ
chức, các công ty khác nhau đã cố gắng tìm ra những định dạng âm thanh mới sử dụng
những thuật toán riêng để nhằm giảm bớt dung lượng dữ liệu cần để diễn tả âm thanh gốc
cùng lúc đó cố gắng giữ cho âm thanh gần với âm thanh gốc nhất. Do vậy việc nén dữ
liệu âm thanh số cho ta các file đầu ra với kích thước nhỏ hơn nhiều so với file gốc, giúp
cho việc lưu trữ hay chia sẻ dễ dàng hơn.
24
CHƯƠNG 3: CHƯƠNG TRÌNH NÉN ÂM THANH SỐ
3.1. Giới thiệu
Chương trình “Switch Sound File Converter” để nén và giải nén các file âm thanh số.
Đây là chương trình miễn phí,
Bước 1: Cài đặt chương trình
Giao diện chương trình
Bước 2: Chọn file audio cần nén
Để thực hiện nén audio chọn “add file” ; chọn file audio cần nén; chọn định dạng đầu
ra file nén dạng *.aac
25


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status