Tiểu luận môn xử lý số nâng cao Nén tín hiệu tiếng nói bằng phương pháp mã hóa băng con - Pdf 22

Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Mục Lục
3.5. Thiết kế mạch lọc 29
3.5 1 Lấy mẫu dới 30
3.4.2 Lấy mẫu trên 33
3.6. Kết luận 34
Lời nói đầu
Hiện nay, việc số hoá các hệ thống thông tin liên lạc đã và đang đợc thực hiện mạnh
mẽ ở trên thế giới cũng nh ở Việt nam. Chính vì vậy mà xử lý tín hiệu và lọc số đã trở
thành một lĩnh vực khoa học khá quan trọng. Nó đợc phát triển nhanh chóng bởi sự ra đời
các vi mạch điện tử cỡ lớn VLSI làm nền tảng cho sự phát triển của phần cứng số chuyên
dụng giá thành rẻ, kích thớc nhỏ gọn, tốc độ tính toán cao, mềm dẻo linh hoạt, đáng chú
ý là các chip chuyên cho xử lý số tín hiệu. ứng dụng của lĩnh vực khoa học này là rất to
lớn, nh xử lý tiếng nói, xử lý ảnh,
Từ lâu, lĩnh vực nén tín hiệu tiếng nói đã đợc các nhà khoa học rất quan tâm nghiên
cứu để ứng dụng cho mục đích quân sự, sau này phát triển cho cả các mục đích chung
khác. Những kiến thức cơ bản về xử tín hiệu và lọc số là rất cần thiết để tiếp cận với
ngành khoa học này. Nội dung của tiểu luận sẽ đề cập đến vấn đề nén tín hiệu tiếng nói và
ứng dụng xử lý số để nén tín hiệu tiếng nói, bao gồm các phần sau:
Chơng1: Cơ sở lý thuyết nén tín hiệu
Chơng 2: Nén và xử lý số tín hiệu tiếng nói.
Chơng 3: Nén tín hiệu tiếng nói bằng phơng pháp mã hoá băng con
Em xin chân thành cảm ơn thầy giáo TS.Nguyễn Ngọc Minh đã nhiệt tình, tận tụy giúp
đỡ nhóm em hoàn thành tiểu luận này.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- I -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Chơng I. Cơ sở lý thuyết nén tín hiệu
1.1 Giới thiệu:
Trong một vài thập kỷ qua sự phát triển của khoa học và kỹ thuật truyền tin thực sự là
một cuộc cách mạng đối với phơng tiện truyền thông. Đáng kể nhất là các mạng internet,

1.2. Các kỹ thuật nén:
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 1 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Kỹ thuật nén và thuật toán nén. Trên thực tế thuộc về hai thuật toán. Đó là thuật toán
nén đầu vào là X và đa ra yêu cầu một số bít nào đó, và một thuật toán khôi phục lại,
hoạt động trên cơ sở tín hiệu đã đợc nén để khôi phục lại Y. Ta qui ớc gọi hai thuật toán
này là thuật toán nén.
Dựa trên các yêu cầu về khôi phục dữ liệu. Các sơ đồ nén có thể chia ra làm hai loại,
đó là các sơ đồ nén không tiêu hao, theo đó Y giống hệt X và các sơ đồ nén tiêu hao, mức
nén cao hơn nhiều so với nén không tiêu hao (lossless) nhng Y khác X.
1.2.1. Kỹ thuật nén không tiêu hao:
Các kỹ thuật nén không tiêu hao, có hàm ý là không mất thông tin. Nếu nh dữ liệu
đã đợc nén, thì ở phía thu có thể khôi phục chính xác dữ liệu gốc. Các kỹ thuật nén này sử
dụng cho các ứng dụng cần khôi phục chính xác so với tín hiệu gốc ban đầu.
Nén văn bản, là thí dụ điển hình của nén không tiêu hao. Sau khi khôi phục văn bản
thu đợc phải giống hệt văn bản gốc, nh vậy chỉ cần một khá biệt nhỏ cũng có thể dẫn đến
kết quả sai hẳn về ý nghĩa của câu. Nhiều loại dữ liệu đòi hỏi khắt khe đối với dữ liệu
khôi phục và dữ liệu gốc.
Có rất nhiều ứng dụng yêu cầu nén khôi phục chính xác nguyên gốc. Song cũng có
một số ứng dụng chỉ có các yêu cầu đơn giản là nén đợc nhiều dữ liệu. Đó là kỹ thuật nén
có tiêu hao.
1.2.2. Kỹ thuật nén có tiêu hao:
Các kỹ thuật nén có tiêu hao đòi hỏi mất một số thông tin, dữ liệu đã đợc nén bằng kỹ
thuật tiêu hao thì không thể khôi phục hay xây dựng lại đợc chính xác. Sự sai lệch này coi
nh phải chấp nhận khi khôi phục lại. Nén có tiêu hao có thể đạt đợc tỷ lệ nén cao hơn rất
nhiều so với nén không tiêu hao .
Trong nhiều ứng dụng, sự sai lệch giữa dữ liệu gốc và dữ liệu khôi phục là không quá
phải quan tâm. Ví dụ khi lu dữ và truyền tiếng nói, giá trị chính xác của mỗi frame tín
hiệu tiếng nói là không cần thiết. Giả sử có mất một lợng tín hiệu thông tin đáng kể trong

2.1.1 Giới thiệu chung
Trong các hệ thống liên lạc (analog và digital) vấn đề hạn chế phổ tần tín hiệu là rất
đáng quan tâm. Nó hiệu quả trong xử lý, lu trữ và truyền dẫn tín hiệu. Sự phát triển của
công nghệ tích hợp IC đã cho ra đời các vi mạch cỡ rất lớn VLSI và xử lý tín hiệu số DSP
làm xu hớng phát triển của các hệ thống thông tin là số hoá, chúng thực hiện một quá
trình biến đổi tín hiệu từ nguồn tin liên tục (nh tiếng nói, hình ảnh, âm nhạc, ) thành
chuỗi tín hiệu số, chuỗi tín hiệu số này dễ xử lý theo các thuật toán khác nhau, góp phần
nâng cao chất lợng tín hiệu và hiệu quả sử dụng phổ tần trong truyền dẫn. Sau khi xử lý,
lọc, truyền dẫn, hệ thống thông tin số sẽ chuyển đổi ngợc tín hiệu sang tơng tự để phù
hợp với tín hiệu tự nhiên.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 3 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.1 Minh hoạ hệ thống mã hoá tiếng nói.
Các bộ nén phổ tín hiệu tiếng nói bao gồm đầy đủ các bớc trên. Cơ bản của một bộ
nén tín hiệu tiếng nói là tỷ lệ giữa tốc độ bit đợc truyền đi và chất lợng tiếng nói đạt
đợc. Tuỳ theo từng ứng dụng cụ thể mà điều chỉnh tốc độ bít thấp nhất nhng tiếng nói
vẫn phải đạt chất lợng theo yêu cầu.
Hình 2.2 minh hoạ mối quan hệ này
Ta biết là giới hạn phổ tần tín hiệu tiếng nói là 200 3400Hz, theo tiêu chuẩn
Nyquist thì tần số lấy mẫu là 8KHz và nh vậy khi số hoá tín hiệu thì phổ tần sẽ mở rộng.
(Theo CCITT dùng bộ mã PCM 8 bit, tốc độ sẽ là 64000bps). Khi nén tín hiệu tiếng
nói các mẫu sẽ đợc thể hiện bằng một số ít bít có thể. Khi khôi phục lại chất lợng tiếng
nói tơng tự nh không mã hoặc gần nh thế. [3,4].
Để đơn giản các kỹ thuật nén tín hiệu tiếng nói có thể chia ra làm ba loại:
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 4 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
(Hình 2.3) là: các bộ mã hoá dạng sóng ( Waveform Codes ), các bộ mã nguồn
( source codes ) và các bộ mã hoá lai ( hybrid codes ).

thờng dùng lợng tử hoá logarit. Lợng tử hoá logarit là lợng tử hoá đều các tín hiệu đợc
nén, nh thế sẽ đạt tỷ lệ S/N là một hằng số, với 8 bit/mẫu tốc độ đạt đợc là 64kbps và khi
khôi phục, sự sai khác với tín hiệu nguyên thuỷ hầu nh không phân biệt đợc. Các luât
nén logarit đợc chuẩn hoá từ những năm 1960, nhng cho đến nay vẫn đợc dùng. ở Mỹ
dùng theo luật , trong khi đó ở Châu Âu dùng luật A
Theo CCITT : A= 87,6, =255 hoặc 100
Phơng pháp trên có u điểm là đơn giản, tiếng nói khôi phục đạt chất lợng cao, tuy
vậy yêu cầu tốc độ bít vừa phải, và dễ nhạy cảm lỗi đờng truyền. [4] Một kỹ thuật
chung hay đợc sử dụng trong mã hoá tiếng nói là dự đoán trớc giá trị của mẫu
tiếp theo từ các mẫu trớc. Điều này là thực hiện đợc dựa vào độ tơng quan giữa các
mẫu tiếng nói là khá lớn, sai lệch giữa hai mẫu kề nhau khá nhỏ so với giá trị của từng
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 6 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
mẫu [4]. Khi dự đoán này là hợp lý thì sai lệch tín hiệu giữa các mẫu dự đoán và các mẫu
tín hiệu thực tế sẽ có sự khác nhau thấp hơn các mẫu tín hiệu nguyên thuỷ. Do đó thay vì
mã hoá các giá trị mẫu của tín hiệu tiếng nói vào ta chỉ cần mã sai lệch giữa các mẫu với
một số ít bit hơn tín hiệu tiếng nói nguyên thuỷ. Đây chính là nguyên tắc cơ bản của điều
chế xung mã vi sai DPCM_ Differential Pulse Code Modulation. Sơ đồ khối cách điều chế
DPCM với bộ dự đoán nh hình vẽ 2.4
Hình 2.4: Sơ đồ khối điều chế xung mã vi sai có dự đoán
Các phơng pháp mã trên có thể đợc cảI tiến nếu các quá trình dự doán và lợng tử đợc
thực hiện một cách thích nghi để chúng thay đổi thích hợp với đặc điểm của tín tiệu tiếng
nói cần mã. Đó là phơng pháp ADPCM_ điều chế xung mã vi sai thích nghi. Vào giữa
năm 1980, CCITT đã chuẩn hoá tốc độ của bộ mã ADPCM là 32kbps, với tốc độ này chất
lợng tiếng nói đạt rất gần với bộ mã
Tất cả các phơng pháp mã hoá dạng sóng đợc mô tả trên có thể đợc thực hiện trên
miền thời gian. Trong miền tần số cũng có thể thực hiện và nó có đôi chút thuận lợi. Ví dụ
nh trong cách mã hoá băng con ( SBC _ SubBand Coding ) tín hiệu tiếng nói đầu vào đ-
ợc chia thành một số băng tần (gọi là các băng con), mỗi băng tần con đợc mã độc lập

đổi theo thời gian mà đợc kích thích bởi nguồn nhiễu trắng đối với đoạn âm vô thanh
( unvoice ), hoặc là một chuỗi các xung độc lập, chuỗi xung này đợc quyết định bởi chu
kỳ pitch đối với âm hữu thanh ( voice ). Thông tin này phải đợc gửi tới bên giải mã để bộ
lọc định rõ đâu là vô thanh, đâu là hữu thanh, nhất thiết phải thay đổi tín hiệu kích thích
và chu kỳ pitch của âm thoại, cứ khoảng 10 20ms lại phải cập nhật theo sự thay đổi tự
nhiên của tiếng nói.
Các tham số kiểu này có thể đợc xác định theo một số cách, dùng các kỹ thuật xử lý
trong miền thời gian hay miền tần số. Cũng nh vậy, các tham số có thể đợc mã hoá và
truyền đi theo nhiều cách khác nhau. Các phơng pháp Vocoder chủ yếu hoạt động ở
khoảng tốc độ 2400bps hoặc thấp hơn.
2.2.2.1. Phơng pháp Vocoder:
Không giống nh các phơng pháp dạng sóng, các phơng pháp vocoder sẽ làm suy
yếu các tín hiệu không phải là hữu thanh và dựa vào đặc trng của tiếng nói để phân tích
nó, chủ yếu nh là dựa vào kiểu hệ nguồn phát âm. Thử nghe một ngời phát âm một vần,
sau đó nghe ngời khác phát âm lại. Ta thấy ngời giọng cao (high-pitch), ngời giọng thấp
( low-pitch), ngời nói rõ , ngời luyến nhng ta vẫn hiểu đợc nội dung. Phơng pháp
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 8 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Vocoder phân tích phổ tiếng nói thành các tham số đặc trng ( các tham số của mô hình tạo
tiếng nói ), sau đó các tham số này để tổng hợp thành tín hiệu hữu thanh có đầy đủ nội
dung nh ban đầu mà tai ngời có thể hiểu đợc. Tuy nhiên kết qủa của dạng sóng tín hiệu
sau khi tổng hợp có thể không đợc nh tín hiệu lúc đầu.
Hình 2.5: Hai nguồn âm tạo ra tiếng nói
Đánh giá về phơng pháp vocoder thì hiệu quả phổ tần tốt ( tốc độ bit 2,4-9,6kbps ),
tuy nhiên chất lợng tiếng nói còn nhiều hạn chế và chỉ thích hợp cho các ứng dụng trong
an ninh và quân sự. Tuy nhiên trong những năm gần đây, công nghệ DSP phát triển, các
thuật toán mới cũng dựa vào phơng pháp này, tất cả sử dụng các phép cộng, phép nhân để
xử lý chuỗi các giá trị số liệu và các hệ số , Có rất nhiều kiểu vocoder khác nhau nh
Vocoder kênh, H Vocoder homomorphic, Vocoder pha. Tuy nhiên tất cả đều chia tín hiệu

thuật số.
Hình 2.6 Bộ lọc băng chia kênh đẻ phân tích tín hiệu nói
ở phần nhận, tín hiệu tiếng nói đợc tổng hợp ( nh hình 2.7 ). Các mẫu tín hiệu cho
qua bộ chuyển đổi DAC, khi đó các đầu ra sẽ đợc dồn lại theo các tín hiệu voice và
unvoice sau đó các tín hiệu đợc cho qua các bộ hạn băng, đầu ra các bộ hạn băng đợc
cộng lại và tổng hợp thành tín hiệu tiếng nói.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 10 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.7 Nhận , tổng hợp và khôi phục lại tiếng nói
Tóm lại: thông tin về pitch và các thông số hữu thanh đợc nén với các thông tin về
băng con và đợc truyền đi, phía nhận tổng hợp và khôi phục lại nh Hình 2.7
2.2.2.3 Phơng pháp vocoder pha:
Phơng pháp này tơng tự nh phơng pháp vocoder kênh ở phạm vi các bộ lọc đợc sử
dụng để ớc lợng đờng bao phổ tần trong một đoạn ngắn của tín hiệu tiếng nói. Tuy nhiên
, thay vì dự đoán cao độ (pitch), phơng pháp vocoder pha dự đoán pha của tín hiệu từ đầu
ra của mỗi bộ lọc. Khi mã và truyền pha loại vocoder này sẽ phá hỏng các thông tin về
pha trong số các tín hiệu điều hoà khác nhau của tín hiệu tiếng nói. Hình 2.8 là sơ đồ
phân tích của hệ thống vocoder phase.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 11 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.8 Sơ đồ phân tích của hệ thống vocoder pha
2.2.2.4. Phơng pháp mã dự đoán tuyến tính (LPC):
Giả sử có tín hiệu liên tục theo thời gian s(t), để áp dụng phơng pháp xử lý số tín
hiệu, s(t) cần phải rời rạc với tần số lấy mẫu là F
s
thoả mãn định lý lấy mẫu của Shannon.
Nh vậy tín hiệu s(t) chỉ lấy các giá trị rời rạc tại các điểm theo thời gian có chu kỳ T=
1/Fs. Kết quả của phép rời rạc này là chuỗi tín hiệu {s(nT)}, trong đó n= 1, 2, Để đơn

của bộ lọc
thay đổi theo mỗi frame.
ở phần phân tích tiếng nói, cửa sổ đầu vào đầu tiên thờng là cửa sổ Hamming
(khoảng 20 40ms). Các cửa sổ sẽ đợc lặp lại sau 10 30ms, nh vậy các cửa sổ liên tục
đợc chồng lên nhau. Sự lựa chọn hai tham số này phụ thuộc vào tốc độ bít ra mong muốn
sao cho nhỏ hơn hai giá trị, lớn hơn tốc độ bít để đạt chất lợng tiếng nói yêu cầu.
Nh ta đã biết trong phần trớc âm thoại có đặc trng là chỉ tập chung thông tin ở vùng
tần số thấp. Để đảm bảo rằng bộ Vocoder LPC làm việc chính xác trên tất cả các tần số,
thì tín hiệu đầu tiên phải cho qua bộ lọc thông cao để loại bỏ các tần số cao, phần tổng
hợp sau đó sẽ dùng bộ lọc để bù lại.
Các hệ số lọc âm đợc xác định bằng cách dự đoán tín hiệu s(n) kết hợp với p mẫu tr-
ớc đó:
s(n) = -a
1
s(n-1) - - a
p
s(n-p) (2.10)
Khi đó xác định các giá trị của a
i
theo các sai số dự đoán trung bình bình phơng:
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 13 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
(s(n) s(n))
2
(2.11)
n
Tổng này càng nhỏ thì s(n) càng chính xác với s(n)
cuối cùng ta có các phơng trình:
a

có khả năng cho chất lợng tiếng nói tốt đến tốc độ bit 16kbps, nhng đây là giới hạn dới
đối với phơng pháp này. Các phơng pháp Vocoder có thể cho chất lợng tiếng nói có thể
hiểu đợc ở tốc độ 2400bps hoặc thấp hơn, nhng chất lợng không đợc tự nhiên ở bất cứ tốc
độ nào. Mặc dù các phơng pháp khác với các phơng pháp mã Hybrid đã có, hầu hết là th-
ờng đợc phân tích theo tổng hợp trên miền thời gian ( AbS: phân tích qua tổng hợp ). Nh
là Phơng pháp LPC xây dựng các bộ lọc dự đoán tuyến tính giống nh bộ máy phát âm.
Tuy nhiên thay vì chỉ đơn giản đa vào hai trạng thái hữu thanh và vô thanh, các phơng
pháp này tìm các giá trị đầu vào cần thiết cho bộ lọc cũng nh tín hiệu kích thích đợc chọn
sao cho thích hợp với quá trình tái tạo lại dạng sóng tín hiệu tiếng nói gần nhất có thể với
dạng sóng tín hiệu nguyên thuỷ. Các loại mã Hybrid điển hình nh MPE_ kích thích đa
xung, RPE_ kích thích xung đều, CELP_ dự đoán tuyến tính mã kích thích. Dới đây ta sẽ
tóm lợc qua các phơng pháp này.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 14 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.10 Sơ đồ tổng quát các mã dạng AbS
Trong sơ đồ trên: Bộ lọc tổng hợp, là một bộ lọc toàn cực (nh trong các bộ mã hoá
kiểu phát âm LPC), biến đổi theo thời gian để mô hình hoá đờng bao phổ ngắn hạn của
dạng sóng tiếng nói. Nó thờng đợc gọi là các bộ lọc tơng quan ngắn hạn, do các hệ số
của nó đợc tính bằng cách dự đoán một mẫu tiếng nói từ một vài (8-16) mẫu trớc đó.
Các phơng pháp AbS chia tín hiệu tiếng nói đầu vào để mã thành từng frame 10
30ms. Các tham số của mỗi frame đợc xác định bởi một bộ lọc tổng hợp và sau đó xác
định nguồn kích thích cho bộ lọc này. Tín hiệu kích thích đợc tối u hoá kỹ lỡng và đợc mã
một cách có hiệu quả nhờ sử dụng các kỹ thuật mã hoá dạng sóng. Thực chất của việc làm
này là tìm nguồn kích thích nào mà khi cấp cho bộ lọc tổng hợp nó cực tiểu hoá đợc sai số
giữa tiếng nói tái tạo và tiếng nói đầu vào, khoảng thời gian cho tối u hoá kích thích là
quãng 4,5 7ms. Cuối cùng mỗi frame ở phía mã truyền đi các thông tin mô tả các tham
số của bộ lọc tổng hợp và nguồn kích thích, và ở bên nhận đa nguồn kích thích đã giải mã
vào bộ lọc tổng hợp để tái tạo lại tiếng nói.
Nh đã nói ở trên, các bộ lọc tổng hợp thờng là bộ lọc toàn cực ngắn hạn bộ lọc tuyến

Sự khác nhau giữa các phơng pháp MPE, RPE và CELP xuất phát từ tín hiệu kích
thích u(n) đợc sử dụng. Trong các cách mã đa xung (Multi Pulse) u(n) đợc cố định bởi
một số xung non-zero cho mỗi frame tiếng nói. Vị trí và biên độ của các xung này trong
mỗi frame phải đợc xác định bởi bên mã ( trong mạch vòng tối thiểu hoá theo từng xung
một ) rồi gửi sang bên giải mã. Trong lý thuyết nó có thể tìm các giá trị chính xác nhất
cho tất cả các vị trí và các biên độ của các xung, nhng trong thực tế đây là một việc làm
không thể vì thực hiện nó là rất phức tạp. Trong thực tế có một vài phơng pháp tối u nhỏ
để tìm các vị trí và các biên độ cho các xung đợc sử dụng. Theo cách này ngời ta dùng cứ
5ms khoảng 4 xung, và nh thế tốc độ để cho chất lợng tiếng nói tốt sau khôi phục quãng
10kbps.
Giống nh mã MPE, giải pháp mã RPE cũng sử dụng một số các xung khác không để
tạo tín hiệu kích thích u(n). Tuy nhiên trong cách mã RPE dãy các xung kích thích đối với
một khung độ dài N bao gồm M xung đợc phân bố đều với khoảng cáchvà cố định D
trong đó M= N div D, tuỳ thuộc vào vị trí xung đầu sẽ có D mẫu kích thích khác nhau, vị
trí các xung là
m
i
(k)
= k + iD (2.15) Trong đó k= 0, 1, , D-1 là vị trí của xung đầu tiên hay còn
gọi là pha đầu.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 16 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
i= 0, 1, , M-1
ở bên mã chỉ cần xác định vị trí xung đầu tiên và biên độ của tất cả các xung. Do đó
cần ít thông tin hơn về các vị trí xung khi truyền sang bên giải mã, và do đó các cách RPE
có thể dùng nhiều xung khác không hơn phơng pháp MPE. Với RPE ở tốc độ 10kbps cứ
mỗi 5ms cần khoảng 10 xung, điều này cho phép chất lợng tiếng nói sau khôi của RPE là
tốt hơn MPE. Tuy nhiên đi theo nó là độ phức tạp nhiều hơn. Hệ thống điện thoại di động
châu Âu sử dụng một cách mã đơn giản RPE với bộ dự đoán dài hạn, hoạt động ở tốc độ

Nếu là nhiệt độ, thì các dây thần kinh ngoài ra có trách nhiệm cảm nhận rồi đa lên
não phân tích rồi có những đáp ứng thích hợp. Với ánh sáng cũng vậy, nhng là do mắt
cảm nhận. Nói chung loài ngời đợc trang bị đầy đủ và giải quyết đợc hầu hết các sự kiện
cảm nhận đợc. Tuy nhiên không phải lúc nào, công việc gì con ngời cũng trực tiếp xử lý,
càng ngày ngời ta dùng máy móc để xử lý thay cho bộ não ngời. Yêu cầu các máy là phải
có các bộ cảm nhận (sensor) để nó làm nhiệm vụ thu nhận và chuyển thành tín hiệu thích
hợp. Khi đó cần có một bộ phận tính toán, xử lý giống nh bộ não con ngời. Tuy nhiên bộ
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 18 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
não con ngời làm việc với các tín hiệu có trong thực tế là các tín hiệu biến thiên liên tục,
các tín hiệu kiểu này gọi chung là tín hiệu Analog. Cũng theo cách của con ngời, nhng
chúng ta dùng các sensor để chuyển thành các tín hiệu điện, nhng phải đổi chúng thành
các số, quá trình này gọi là chuyển từ tơng tự ( analog ) sang số ( digital) hay A/D. Sau
đó đầu ra đợc đa qua bộ tính toán số để xử lý và nh vậy đợc gọi là xử lý tín hiệu số hay
DSP (Digital Signal Processing). Bộ xử lý số ở đây thờng đợc thiết kế đặc biệt chuyên cho
các thuật toán xử lý tín hiệu số.
2.3.1.2. Lợi ích của xử lý tín hiệu số: có rất nhiều thuận lợi khi dùng xử lý tín hiệu
số nói chung. Các thuận lợi của xử lý tín hiệu số nh sau:
- Dễ chơng trình hoá
- Độ ổn định cao
- Tính lặp lại cao
- Dễ dàng thực hiện các thuật toán thích hợp
- Có khả năng thực hiện các thuật toán sửa sai phức tạp
- Khả năng truyền và lu trữ dữ liệu tốt
- Có thể thực hiện nén dữ liệu
- Có nhiều các chức năng đặc biệt khác
+/ Tính dễ chơng trình hoá ở đây đợc hiểu là trong cùng một cấu trúc phần cứng, có
thể cho ra rất nhiều các ứng dụng khác nhau bằng các chơng trình khác nhau, hoặc có thể
nâng cao tính năng sản phẩm mà không phải thay đổi lại cấu trúc phần cứng, trong khi đó

từ 4-8 băng con ) bởi các bộ lọc băng. Mỗi băng con đó đợc mã theo nhiều phơng pháp
khác nhau, thờng là mã hoá thích nghi nh ADM, ADPCM, APC , bằng cách mã riêng
từng băng con, tạp âm lợng tử sẽ đợc hạn chế trong băng đó khó xuyên sang các băng
khác. Số các bít đợc dùng để mã hoá các băng con là không đều nhau và đợc cấp phát
theo tiêu chuẩn cảm giác. Thật vậy, ta thấy rằng phổ tần năng lợng tín hiệu tiếng nói tập
chung chủ yếu ở dải tần khá thấp, khi đó một số bit lớn sẽ đợc tập chung mã hoá các băng
tần này và ở các băng tần số cao thì chỉ dùng một số ít bít
3.2. Cơ sở kỹ thuật mã hoá băng con
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 20 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Trong thực tế chúng ta có rất nhiều phơng pháp nén khác nhau. Mỗi phơng pháp có
hiệu quả khác nhau. Một phơng pháp mã khác có hiệu quả khi sự khác nhau giữa các mẫu
kề nhau nhỏ. Nếu nguồn đầu vào là thực sự ngẫu nhiên tốt nhất là sử dụng lợng tử hoá vô
hớng hoặc lợng tử hoá vector lới. Do vậy, nếu một nguồn biểu diễn đúng các đặc tính đã
định nghĩa, chúng ta nên chọn một lợc đồ nén với đầy đủ các đặc tính đó. Nhng hầu hết
các nguồn đa ra tổ hợp rất khó chọn một lợc đồ nén chính xác phù hợp với nguồn đầu ra.
Ta sẽ xem xét công nghệ phân tích nguồn đầu ra với các dải tần số khác nhau sử
dụng các khối biến đổi. Các hệ số biến đổi không có sự đồng nhất giữa các phép thống
kê và nhận thức cảm giác. Có thể sử dụng sự khác nhau phục vụ cấp phát các bits mã hoá
với hệ số khác nhau. Việc thay đổi cách cấp phá làm giảm số lợng bits trung bình đã yêu
cầu để mã nguồn đầu ra. Một trong những hạn chế của mã biến đổi là sự phân chia
không tự nhiên của nguồn đầu ra, dẫn dến sự sinh mã dạng khối hoặc tạo thành khối.
Một phơng pháp để loại bỏ sự đóng khối này là biến đổi trực giao LOT (Lapped
Orthogonal Transform). Ta xét một cách tiếp cận phổ biến để phân tích ảnh thành các
băng tần số khác nhau. Khi đầu vào đã đợc phân tích thành các thành phần riêng có thể
sử dụng kỹ thuật mã phù hợp nhất cho từng thành phần để tăng khả năng nén. Hơn nữa,
mỗi thành phần của nguồn đầu ra có thể có các đặc tính theo cảm giác khác nhau. Ví dụ,
lỗi lợng tử hoá là cảm giác khó chịu trong một thành phần nhng lại có thể chấp nhận đợc
trong một thành phần khác của nguồn đầu ra. Do vậy, một bộ lợng tử hoá sử dụng một số

}, mà không phải dãy {y
n
}. Do vậy, dới đây thực hiện việc mã
dãy trung bình {y
n
} bởi một dãy khác là {z
n
}:
Các dãy {y
n
} và {z
n
} có thể đợc mã độc lập với nhau. Có thể sử dụng các lợc đồ nén phù
hợp với từng dãy. Với y
n
và z
n
đã nhận đợc, có thể khôi phục x
n
bằng biểu thức:
x
n
= y
n
+ z
n
(3.3)
Nh thế lỗi lợng tử hoá lớn nhất của dãy sẽ nhỏ hơn nếu ta mã hoá dãy {x
n
} trực tiếp.

2
, y
4
, }. Tơng tự,
ta chia dãy {z
n
} thành các dãy con {z
2n
} và {z
2n-1
}. Nếu truyền đi các dãy con chỉ số chẵn
hoặc các dãy con chỉ số lẻ, thì chỉ cần truyền số lợng phần tử bằng với lợng phần tử của
dãy ban đầu. Để thể hiện cách khôi phục dãy {x
n
} từ các dãy con này, ta giả sử chỉ truyền
đi nhng dãy con {y
2n
} và {z
2n
}:
Để khôi phục các phần tử có chỉ số chẵn của dãy {x
n
}, ta đa vào hai dãy con. Để nhận đợc
các phần tử có chỉ số lẻ của dãy {x
n
}, ta tính sự khác biệt sau:
y
2n
+z
2n

Lọc số bao gồm cả việc tính tổng của đầu vào hiện thời và đầu vào trớc đó tới bộ
lọc, và trong một số trờng hợp bao gồm cả những đầu ra trớc đđó của bộ lọc. Dạng tổng
quát của quan hệ đầu vào và đầu ra của bộ lọc nhận đợc là:
với dãy {x
n
} là đầu vào của bộ lọc, dãy {y
n
} là đầu ra của bộ lọc, và các giá trị {a
i
}
và {b
i
} đợc gọi là các hệ số bộ lọc.
Nếu đầu vào là dãy chỉ có một giá trị 1 và theo sau là toàn 0, thì dãy đợc gọi là
đáp ứng xung của bộ lọc. Nếu b
i
là các giá trị 0, thì đáp ứng xung sẽ tắt sau N mẫu. Gọi
là các bộ lọc đáp ứng xung hữu hạn (FIR filter). Số N đôi khi đợc gọi là số bớc (taps)
trong bộ lọc. Nếu một số b
i
có giá trị khác 0, thì đáp ứng xung có thể là vô hạn (trong lý
thuyết). Gọi là bộ lọc đáp ứng xung vô hạn ( IIR filter).
Chú ý rằng nếu biết đáp ứng xung, thì cũng có thể biết các giá trị a
i
và xác định đ-
ợc bộ lọc. Hơn nữa, vì đáp ứng xung trở về 0 sau một số hữu hạn mẫu (trong trờng hợp
này là 2 mẫu), bộ lọc là một bộ lọc FIR filter. Với IIR không thật rõ ràng nh FIR, biết tất
cả các đáp ứng xung sẽ xác định bộ lọc. Mỗi khi ta biết về đáp ứng xung của bộ lọc, biết
về quan hệ giữa đầu vào và đầu ra của bộ lọc. Nếu {x
n

bộ lọc dải thấp nhận đợc là {h
n
}, thì đáp ứng xung dải cao nhận đợc là {(-1)
n
h
N-1-n
}. Các
bộ lọc QMF thiết kế bởi Johnston đợc sử dụng trong một số ứng dụng. Chú ý rằng các bộ
lọc là đối xứng, tức là:
h
N-1-n
= h
N
, với n = 0, 1, , N/2 - 1. (3.10)
Hình 3.2. Mô tả sự phân lớp của bộ lọc băng
Với các bộ lọc có ít bớc trong phân tích sẽ kém hiệu quả hơn là các bộ lọc nhiều b-
ớc. Tuy nhiên, từ biểu thức (3.9) có thể thấy rằng số các bớc khống chế số lợng các phép
tính cộng và nhân cần thiết để tạo ra các đầu ra bộ lọc. Do vậy, muốn có các phân tích
hiệu quả hơn, thì bằng cách nào đó tăng khả năng tính toán.
3.4. Thuật toán mã băng con cơ bản
Hình 3.3 là một ví dụ thể thể hiện thuật toán mã hoá băng con
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 24 -

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Tiểu luận môn xử lý số nâng cao Nén tín hiệu tiếng nói bằng phương pháp mã hóa băng con - Pdf 22

Tài liệu, ebook tham khảo khác

Học thêm