Đồ án tốt nghiệp
Luận văn
Đề tài: "Tìm hiểu về Speech
Enhancement"
SVTH: Nguyễn Thị Ngọc Diệp Trang 1
Đồ án tốt nghiệp
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
LỜI CAM ĐOAN
Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _
Trường Đại học Bách Khoa Đà Nẵng.
Em tên là: Nguyễn Thị Ngọc Diệp
Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học
Bách Khoa Đà Nẵng.
Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép
của bất cứ đồ án hoặc công trình đã có từ trước.
Sinh viên thực hiện
Nguyễn Thị Ngọc Diệp
MỤC LỤC
LỜI CAM ĐOAN 2
MỤC LỤC 2
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH 5
MỞ ĐẦU 6
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 10
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 26
SVTH: Nguyễn Thị Ngọc Diệp Trang 2
Đồ án tốt nghiệp
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER
FILTERING 36
CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 47
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 67
Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch 51
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB 51
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
SS với SNR = 10dB 52
Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
WF với SNR = 10dB 52
Hình 4.8 Quy trình thực hiện đánh giá 54
Hình 4.9. Đồ thị kiŒm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi 54
Hình 4.10. Đồ thị kiŒm tra độ ổn định của đánh giá OE đối với nhiễu người nói
xung quanh 55
Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 56
Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 58
Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và
NoiseMargin = 2 59
Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2 61
Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật
toán WF, gama=1 cho thuật toán SS 62
Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh 63
SVTH: Nguyễn Thị Ngọc Diệp Trang 4
Đồ án tốt nghiệp
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG
ANH
Từ viết
tắt
Tiếng Anh Nghĩa tiếng Việt
SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu
PC Personal Computer Máy tính cá nhân
SPL Sound Pressure Level Mức áp suất của âm thanh
MMSE Minium Mean-Squared Error
Tối thiŒu hoá sai lệch trung
OE Objective Evaluation Đánh giá khách quan
IS Itakura_Saito
LLR Log likehook Raito
WSS Weighted Spectral Slope Đo theo trọng số của phổ
LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính
VAD Voice Activity Detection
Thăm dò sự hoạt động của
tiếng nói
Speech Enhancement Nâng cao chất lượng tiếng nói
SS Spectral Subtraction
Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng phương
pháp trừ phổ.
WF Wiener Filter
Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng cách sử
dụng bộ lọc Wiener.
Statistical-model-based
Thuật toán giảm nhiễu tín
hiệu tiếng nói dựa trên
nguyên lý thống kê
Frame
Khung tín hiệu.
Hamming Cửa sổ Hamming
Overlap và Adding Xếp chồng và cộng
MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con
người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như
ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là
SVTH: Nguyễn Thị Ngọc Diệp Trang 6
Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương
này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.
Phần 2 : Thực hiện và đánh giá
SVTH: Nguyễn Thị Ngọc Diệp Trang 7
Đồ án tốt nghiệp
Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết
quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai
thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng
cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực
hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi
xử lý, sau đó sử dụng các phương pháp đánh giá khách quan đŒ đánh giá tính
hiệu quả của các thuật toán xử lý trong môi trường thực tế.
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong
Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở
đŒ đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điŒm mới trong đồ án
của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu.
SVTH: Nguyễn Thị Ngọc Diệp Trang 8
Đồ án tốt nghiệp
SVTH: Nguyễn Thị Ngọc Diệp Trang 9
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
1.1 Giới thiệu chương
Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói
là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc
điŒm cuả tín hiệu tiếng nói. Chương này còn giới thiệu khái quát về các thuật
toán sử dụng trong speech enhancement.
1.2 Nâng cao chất lượng tiếng nói là gì ?
Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối
với tiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói.
lượng và tính dễ nghe hay sự trong suốt của tiếng nói. Tuy nhiên, xét trên
phương diện thực tế thì các thuật toán Speech enhancement chỉ có thŒ cải thiện
được chất lượng của tiếng nói. Nó có thŒ làm giảm được nhiễu nền trong tiếng
nói nhưng nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này
làm giảm đi tính dễ nghe của tiếng nói. Do đó, yêu cầu chính trong việc thiết kế
một thuật toán Speech enhancement phải đảm bảo nén được nhiễu và không
được gây ra méo trong sự cảm nhận tín hiệu tiếng nói.
Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc
rất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu
và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone
và cảm biến có thŒ có. Sự giao thoa có thŒ xem như là nhiễu hoặc được xem như
tín hiệu tiếng nói, nó tuỳ thuộc vào môi trường ta đang xét, nó có thŒ được xem
như là sự tranh chấp giữa các speaker. Đặc tính âm nhiễu có thŒ được cộng thêm
vào tín hiệu sạch nếu âm thanh được hình thành trong căn phòng bị dội âm thanh.
Hơn nữa, nhiễu có thŒ có tính tương quan hoặc không tương quan về mặt thống
kê với tín hiệu sạch. Số lượng microphone cũng có khả năng ảnh hưởng đến tính
hiệu quả của các thuật toán Speech enhancement.
1.3 Lý thuyết về tín hiệu và nhiễu
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu
1.3.1.1 Tín hiệu
dùng đŒ chỉ một đại lượng vật lý mang tin tức. Về mặt toán
học, ta có thŒ mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các
SVTH: Nguyễn Thị Ngọc Diệp Trang 11
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
biến độc lập khác. Chẳng hạn như, hàm: x(t) = 20t
2
mô tả tín hiệu biến thiên theo
biến thời gian t. Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y
2
mô tả tín hiệu
Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết
bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần cứng và
phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là
phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt
các phép toán thực hiện bởi chương trình phần mềm. Khi xử lý bằng các bộ vi xử
lý-hệ thống bao gồm kết hợp cả phần cứng và phần mềm, mỗi phần thực hiện các
công việc riêng nào đó.
1.3.1.4 Phân loại tín hiệu
Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào
đặc điŒm của tín hiệu. Có những phương pháp riêng áp dụng cho một loại tín
hiệu nào đó. Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên quan
đến những ứng dụng cụ thŒ. Chúng ta có thŒ phân tín hiệu thành các loại :
- Tín hiệu nhiều hướng và tín hiệu đa kênh
- Tín hiệu liên tục và tín hiệu rời rạc
- Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc
- Tín hiệu xác định và tín hiệu ngẫu nhiên
1.4 Lý thuyết về nhiễu
1.4.1 Nguồn nhiễu
Nhiễu một hiện thực, nó tồn tại ở mọi nơi, trên đường phố, trên xe, trong
văn phòng, trong nhà hàng, trong các toà nhà. Nó có thŒ là tiếng xe chạy trên
đường, tiếng ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt chạy
SVTH: Nguyễn Thị Ngọc Diệp Trang 13
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
trong PC, chuông điện thoại…, nó tồn tại với các hình dạng và hình thức khác
nhau trong cuộc sống hằng ngày của chúng ta.
Nhiễu có thŒ hình thành ở một nơi cố định, và không thay đổi theo thời
gian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC. Nhiễu cũng có thŒ
không đứng yên một chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói của
nhiều người xen lẫn với nhiều cách khác nhau với tiếng ồn phát ra từ nhà bếp.
Các đặc tính về phổ cũng như thời gian của nhiễu trong nhà hàng thay đổi không
mức cường độ âm giảm đi 6 dB[6].
Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa tiếng nói
và nhiễu trong các môi trường khác nhau. Mức độ của nhiễu nhỏ nhất ở trong các
môi trường như phòng học, trong nhà ở, trong bệnh viện và trong các toà nhà.
Trong các môi trường khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi
biến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB
SPL. Và khuyến nghị đưa ra là mức tỷ số SNR có hiệu quả trong các môi trường
này là 5 đến 15 dB. Mức độ âm của nhiễu rất cao trong các môi trường ở tàu điện
ngầm, ở trên máy bay, nó đạt khoảng 70 đến 75 dB SPL. Và mức độ âm của
tiếng nói trong các môi trường này cũng đạt mức đó, nên mức tỷ số SNR trong
các môi trường này gần như là 0 dB.
SVTH: Nguyễn Thị Ngọc Diệp Trang 16
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
Hình 1.589)*:01:7-;<=>?7@AB
0CD@5 !
1.5 Tín hiệu rời rạc theo thời gian
Tín hiệu rời rạc theo thời gian x(n) có thŒ tạo ra bằng cách lấy mẫu tín hiệu
liên tục theo thời gian x
a
(t) với chu kỳ lấy mẫu là T
s
(tần số lấy mẫu F
s
= 1/ T). Ta
có
x
a
(t)|
t=nT
= x
7
,0
,1
(1.3)
1.5.2 Tín hiệu xung đơn vị
≠
=
=
0,0
0,1
][
δ
(1.4)
Tín hiệu xung dịch chuyŒn có dạng sau
SVTH: Nguyễn Thị Ngọc Diệp Trang 17
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
≠
=
=−
7
7
θπ
(1.8)
A : là biên độ của tín hiệu sin
θ
: pha ban đầu của tín hiệu sin
E: tần số số, E=
G
G
, F : là tần số của tín hiệu, F
s
: tần số lấy mẫu
-0.5 < EH0.5
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT
Phép biến đổi này áp dụng đŒ phân tích cho cả tín hiệu và hệ thống. Nó
được dùng trong trường hợp dãy rời rạc dài vô hạn và không tuần hoàn.
DTFT :
∑
∞
−∞=
Ω−
=Ω
I
43% ][)(
(1.9)
Ta nhận xét thấy rằng tuy tín hiệu rời rạc trong miền thời gian nhưng DTFT
lại liên tục và tuần hoàn trong miền tần số.
DTFT chính là hàm phức theo biến tần số thực. Ta gọi DTFT là .9
7A434A hay ngắn gọn là phổ của tín hiệu rời rạc x[n].
Ω−
∞
−∞=
Ω−
≤
≤
≤
I
I
I
I
I
343
4343
4343
|][|][
|||][|][
][][
(1.11)
Như vậy, nếu x[n] thoả điều kiện
∑
∞
−∞=
3 |][|
Như vậy, biến đổi Fourier chính là biến đổi Z tính trên đường tròn đơn vị.
Dựa vào đây, ta có thŒ phát biŒu lại điều kiện tồn tại của DTFT như sau :
Biến đổi Fourier của một tín hiệu chỉ tồn tại khi ROC của biến Z của tín
hiệu đó có chứa đường tròn đơn vị.
1.6.3 Phép biến đổi Fourier ngược
- BiŒu thức tính biến đổi Fourier ngược
Ta thấy X(
Ω
) là một hàm tuần hoàn với chu kỳ
π
2
, do
Ω
I
4
tuần hoàn với
chu kỳ
π
2
ΩΩ+ΩΩ
===
IIIII
44444
ππ
2)2(
(1.14)
Do đó dải tần số của tín hiệu rời rạc là một dải tần bất kỳ rộng 2
π
, thường
(
),
ππ
−
tacó
SVTH: Nguyễn Thị Ngọc Diệp Trang 19
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
][
2
1
][][
2
1
)(
2
1
)(
3>43>443>4%
I
I
II
=
πππ
(1.15)
Thay l = n và thay cận tích phân, không nhất thiết phải là (
),
ππ
−
mà chỉ
cần khoảng giữa cân trên và dưới là 2
π
, ta được biŒu thức tính biến đổi Fourier
ngược (IDTFT) như sau
∫
ΩΩ=
Ω
π
π
2
)(
2
1
][ >4%3
I
(1.16)
Ta có thŒ tính IDFT bằng hai cách : một là tính trực tiếp tích phân trên, hai
là chuyŒn về biến đổi Z rồi tính như biến đổi Z ngược. Tuỳ vào từng trường hợp
cụ thŒ mà ta chọn phương pháp nào cho thuận tiện.
1.6.4 Các tính chất của phép biến đổi Fourier
)()(][][
2121
Như vây, việc điều chế gây ra dịch tần số[12].
NC
Tương tự như biến đổi Z, với biến đổi Fourier ta cũng có:
)()(][*][
2121
ΩΩ→←
%%33
G
(1.19)
,C
∫
−Ω↔
π
λλλ
π
2
2121
)()(
2
1
][].[ >%%33
(1.20)
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc
Trong miền tần số, mỗi tín hiệu đều có một đặc điŒm riêng của nó. Ví dụ
như, tín hiệu sin chỉ có duy nhất một tần số đơn, trong khi nhiễu trắng chứa tất cả
SVTH: Nguyễn Thị Ngọc Diệp Trang 20
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
các thành phần tần số. Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi
sự biến thiến nhanh và những xung nhọn là do tần số cao. Như xung vuông chẳng
hạn, nó chứa tất cả tần số và cả tần số cao.
(
Ω
) là phổ pha.
Ta dễ dàng chứng minh được rằng đối với tín hiệu thực, phổ biên độ là một
hàm chẵn theo tần số
Ω
và phổ pha là một hàm lẻ theo
Ω
.
Do đó, nếu biết phổ X(
Ω
) trong khoảng 0 đến
π
, ta có thŒ suy ra phổ trong
toàn dải tần số. ĐŒ dễ giải thích phổ, tần số số
Ω
từ 0 đến
π
thường được chuyŒn
đổi thành tần số tương tự từ 0 đến f
s
/2 nếu tần số lấy mẫu là f
s
.
SVTH: Nguyễn Thị Ngọc Diệp Trang 21
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
Hình 1.68OP444Q:01RAO)SK$RAOTD#JUU !
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói
1.7.1 Trừ phổ
Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán giảm
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
1.9 Cơ chế tạo tiếng nói
1.9.1.1 Bộ máy phát âm của con người
Hình 1.8AZ[>6\](7UU !
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói
Hình 1.9AB2D^N(7UU !
SVTH: Nguyễn Thị Ngọc Diệp Trang 24
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
1.9.3 Phân loại âm
Các âm trong tiếng Anh được phân loại gồm: nguyên âm và nguyên âm đôi,
bán nguyên âm, âm mũi, âm stops, fricative, africatives, whisper.
Hình 1.10-_,7(,A)7F60C8^UU
1.9.4 Thuộc tính âm học của tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, biŒu diễn cho thông tin về mặt ngôn
ngữ và được thŒ hiện bằng các âm vị khác nhau. Số lượng các âm vị tuỳ thuộc
vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50. Đối với từng
loại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợp các âm vị tạo nên âm tiết.
Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa.
1.10 Kết luận chương
Chương này đã trình bày được mục đích chính của speech enhancement là
triệt nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu. Ngoài ra, nội
dung của chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môi
trường cụ thŒ đŒ từ đó chúng ta có tìm ra được thuật toán xử lý thích hợp ứng với
mỗi trường hợp cụ thŒ.
SVTH: Nguyễn Thị Ngọc Diệp Trang 25