Đồ án tốt nghiệp
Thuật toán xử lý tiếng
nói trong Speech
Enhancement và đánh
giá tính hiệu quả của
thuật toán
Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệp Trang 1
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
LỜI CAM ĐOAN
Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _
Trường Đại học Bách Khoa Đà Nẵng.
Em tên là: Nguyễn Thị Ngọc Diệp
Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học
Bách Khoa Đà Nẵng.
Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép
của bất cứ đồ án hoặc công trình đã có từ trước.
Sinh viên thực hiện
1.3.1.2 Nguồn tín hiệu 15
1.3.1.3 Hệ thống và xử lý tín hiệu 16
1.3.1.4 Phân loại tín hiệu 16
1.4 Lý thuyết về nhiễu 17
1.4.1 Nguồn nhiễu 17
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau 19
1.5 Tín hiệu rời rạc theo thời gian 20
1.5.1 Tín hiệu bước nhảy đơn vị 21
1.5.2 Tín hiệu xung đơn vị 21
1.5.3 Tín hiệu hàm mũ 21
1.5.4 Tín hiệu hàm sin rời rạc 21
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT 22
1.6.1 Sự hội tụ của phép biến đổi Fourier 22
Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệp Trang 3
1.6.2
Quan hệ giữa biến đổi Z và biến đổi Fourier 22
1.6.3 Phép biến đổi Fourier ngược 23
1.6.4 Các tính chất của phép biến đổi Fourier 23
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc 24
1.6.6 Phổ tín hiệu và phổ pha 25
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói 26
1.7.1 Trừ phổ 26
1.7.2 Mô hình thống kê 26
1.8 Tín hiệu tiếng nói 26
1.9 Cơ chế tạo tiếng nói 28
1.9.1.1 Bộ máy phát âm của con người 28
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói 28
3.1 Giới thiệu chương 41
3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering 41
3.3 Thuật toán Spectral Subtraction 41
3.3.1 Giới thiệu chung 41
3.3.2 Spectral subtraction đối với phổ biên độ 42
3.3.3 Spectral subtraction đối với phổ công suất 43
3.4 Thuật toán Wiener Filtering 45
3.4.1 Giới thiệu chung 45
3.4.2 Nguyên lý cơ bản của Wiener Filtering 46
3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói 48
3.5.1 Phân tích tín hiệu theo từng frame 48
3.5.2 Overlap và Adding 49
Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệp Trang 5
3.6
Ước lượng và cập nhật nhiễu 50
3.6.1 Voice activity detection 51
3.6.2 Quá trình ước lượng và cập nhật nhiễu 51
3.7 Kết luận chương 52
CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 53
4.1 Giới thiệu chương 53
4.2 Quy trình thực hiện và đánh giá thuật toán 53
4.3 Lưu đồ thuật toán Spectral Subtraction 55
4.4 Lưu đồ thuật toán Wiener Filtering 56
4.5 Thực hiện thuật toán 57
4.6 Đánh giá chất lượng tiếng nói đã được xử lý 59
4.6.1 Cơ sở dữ liệu cho việc đánh giá 59
4.6.2 Tổng quan về quy trình đánh giá 59
trong từ “her” [11]. 27
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11]. 28
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11]. 28
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] 29
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] 31
Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR 32
Bảng 2.5. Thang đánh giá DCR 32
Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF 41
Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26]. 45
Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering. 48
Hình 3.4 Phân tích tín hiệu thành các frame [31]. 49
Hình 3.5 quá trình thực hiện overlap và adding [32]. 50
Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường 53
Hình 4.2 Lưu đồ thuật toán SS 55
Hình 4.3 Lưu đồ thuật toán WF 56
Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch 57
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB 57
Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệp Trang 7
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
SS với SNR = 10dB. 58
Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
WF với SNR = 10dB. 58
Hình 4.8 Quy trình thực hiện đánh giá 60
Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi 61
Từ viết
tắt
Tiếng Anh Nghĩa tiếng Việt
SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu
PC Personal Computer Máy tính cá nhân
SPL Sound Pressure Level Mức áp suất của âm thanh
MMSE Minium Mean-Squared Error
Tối thiểu hoá sai lệch trung
bình bình phương
SVD Singular Value Decomposition Phép phân tích giá trị đơn
DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc
FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
DTFT Discrete-Time Fourier Transform
Phép biến đổi Fourier của tín
hiệu rời rạc.
ZT Z Transform Phép biến đổi Z
ROC Region of Convergence Miền hội tụ
IDTFT
Inverse Discrete Fourier
Transform
Phép biến đổi ngược Fourier
rời rạc
LTI Linear Time-Invariant
Hệ thống tuyến tính và bất
biến theo thời gian
ITU-T
InternationalTelecommunications
Union-Telecommunication
Hiệp hội tiêu chuẩn viễn
thông quốc tế
hiệu tiếng nói dựa trên
nguyên lý thống kê
Frame
Khung tín hiệu.
Hamming Cửa sổ Hamming
Overlap và Adding Xếp chồng và cộng
Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệp Trang 10
MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con
người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như
ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là
điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng
của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như
ban đầu. Vì lý do đó mà
các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y
nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường
được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến
người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu
đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng
trong lĩnh vực thoạ
ật toán.
Phần 2 : Thực hiện và đánh giá
Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết
quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai
thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng
cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lư
u đồ của thuật toán, thực
hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi
xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính
hiệu quả của các thuật toán xử lý trong môi trường thực tế.
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong
Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở
để
đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mới trong đồ án
của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu.
Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệp Trang 12
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 13
nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nâng
cao chất lượng trước khi được nhận dạng. Trong thông tin liên lạc hàng không,
các kỹ thuật nâng cao tiếng nói c
ần được sử dụng để cải thiện chất lượng và tính
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 14
dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái. Vì
vậy mà nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc
của quân sự. Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một
vùng nào đó thì nó sẽ được truyền đến tất cả các vùng khác. Các thuật toán nâng
cao chất lượng tiếng nói được sử dụng như tiề
n xử lý hoặc làm sạch nhiễu trong
tiếng trước khi được khuếch đại.
Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cường
tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng. Xét trên phương diện lý
tưởng, thì chúng ta mong muốn Speech enhancement cải thiện được cả chất
lượng và tính dễ nghe hay sự trong suốt của tiếng nói. Tuy nhiên, xét trên phương
diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện
được chất
lượng của tiếng nói. Nó có thể làm giảm được nhiễu nền trong tiếng nói nhưng
nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm
đi tính dễ nghe của tiếng nói. Do đó, yêu cầu chính trong việc thiết kế một thuật
toán Speech enhancement phải đảm bảo nén được nhiễu và không được gây ra
méo trong sự cảm nhận tín hiệu tiếng nói.
Giải pháp tổng quát trong các vẩn đề của Speech enhancement ph
ụ thuộc
rất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu
và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone
và cảm biến có thể có. Sự giao thoa có thể xem như là nhiễu hoặc được xem như
thời gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễn
như hình trên.
1.3.1.2 Nguồn tín hiệu
Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào
đó. Ví dụ tín hiệu tiếng nói được tạo ra băngg cách ép không khí đi qua dây thanh
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 16
âm. Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đối
tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống,
hệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ
thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây thanh…Kích thích liên quan
đến hệ thống được gọi là nguồn tín hiệu. Như v
ậy ta có nguồn tiếng nói, nguồn
ảnh và các nguồn tín hiệu khác.
1.3.1.3 Hệ thống và xử lý tín hiệu
Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.
Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ
thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng
đã xử lý tín hiệu đó. Trong trường này, xử lý tín hiệu liên quan đến lọc nhi
ễu ra
khỏi tín hiệu mong muốn.
Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán
được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức
chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác.
Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết
bị vật lý mà còn là phần mềm x
ử lý tín hiệu hoặc là sự kết hợp giữa phần cứng và
phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là
phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt
Các đặc tính về phổ cũng như thời gian của nhiễu trong nhà hàng thay đổi không
theo quy luật nên việc nén nhiễu trong các môi trường có nhiễu thay đổi như vậy
sẽ khó khăn hơn nhiều so với các nguồn nhiễu đứng yên không thay đổi.
Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ
và sự phân bố của năng lượng nhiễu trong miền tần số. Ví dụ, nhiễu gây ra b
ởi
gió thì năng lượng của nó tập trung ở tần số thấp dưới 500Hz. Nhưng đối với
nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượng của nó được phân bố
trên một dải tần số rộng [3].
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 18 Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4].
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên
tàu [4].
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 19 Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong
nhà hàng[4].
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau
Điểm tới hạn trong việc thiết kế các thuật toán của Speech enhancement là
sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi
trường thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ t
ỷ số tín
hiệu trên nhiễu(SNR) được bắt gặp trong môi trường thực tế. Điều này rất quan
trọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement trong
a
(t) với chu kỳ lấy mẫu là T
s
(tần số lấy mẫu F
s
= 1/ T).
Ta có
x
a
(t)|
t=nT
= x
a
(nT) = x(n) , -∞ < n< ∞ (1.1)
Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giá
trị n nguyên. Khi n không nguyên, thì x(n) không xác định, chứ không phải bằng
0. Trong nhiều sách về xử lý tín hiệu số, người ta quy ước: khi biến nguyên thì
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 21
biến được đặt trong dấu ngoặc vuông và khi biến liên tục thì được đặt trong dấu
ngoặc tròn. Từ đây trở đi, ta ký hiệu tín hiệu rời rạc là: x[n].[7]
Một số tín hiệu rời rạc cơ bản
1.5.1 Tín hiệu bước nhảy đơn vị
u[n] =
⎩
⎨
⎧
<
≥
n
n
n
δ
(1.4)
Tín hiệu xung dịch chuyển có dạng sau
⎩
⎨
⎧
≠
=
=−
non
non
non
,0
,1
][
δ
(1.5)
Chúng ta có thể biểu diễn tín hiệu rời rạc theo thời gian x[n] thông qua tín
hiệu xung đơn vị như sau
x[n] =
∑
∞
−∞=
−
k
knkx ][][
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 22
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT
Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống. Nó
được dùng trong trường hợp dãy rời rạc dài vô hạn và không tuần hoàn.
DTFT :
∑
∞
−∞=
Ω−
=Ω
n
nj
enxX ][)( (1.9)
Ta nhận xét thấy rằng tuy tín hiệu rời rạc trong miền thời gian nhưng DTFT
lại liên tục và tuần hoàn trong miền tần số.
DTFT chính là hàm phức theo biến tần số thực. Ta gọi DTFT là phổ phức
(complex spectrum) hay ngắn gọn là phổ của tín hiệu rời rạc x[n].
1.6.1 Sự hội tụ của phép biến đổi Fourier
Không phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ h
ội tụ khi
∞<
∑
∞
−∞=
Ω−
n
nj
enx ][ (1.10)
n
nj
n
nj
nxenx
enxenx
enxenx
|][|][
|||][|][
][][
(1.11)
Như vậy, nếu x[n] thoả điều kiện
∑
∞
−∞=n
nx |][| <
∞
thì biến đổi Fourier hội tụ [7].
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier
Biểu thức tính ZT là:
∑
∞
−∞=
−
=
n
n
znxzX ][)( (1.12)
Giả sử ROC có chứa đường tròn đơn vị. Tính X(Z) trên đường tròn đơn vị,
ta được
tuần hoàn với
chu kỳ
π
2ΩΩ+ΩΩ
===
jjjjj
eeeee
ππ
2)2(
(1.14)
Do đó dải tần số của tín hiệu rời rạc là một dải tần bất kỳ rộng 2
π
, thường
chọn là:
),(
π
π
−
hay (0,2
π
).
Vậy ta có thể khai triển X(
Ω ) thành chuỗi Fourier trong khoảng
(
),
π
π
)(
lxdenxdeenxdeX
nlj
n
lj
n
njlj
=
⎥
⎦
⎤
⎢
⎣
⎡
Ω=Ω
⎥
⎦
⎤
⎢
⎣
⎡
=ΩΩ
∫
∑
∫
∑
∫
−
−Ω
∞
Ω
π
π
2
)(
2
1
][ deXnx
nj
(1.16)
Ta có thể tính IDFT bằng hai cách : một là tính trực tiếp tích phân trên, hai
là chuyển về biến đổi Z rồi tính như biến đổi Z ngược. Tuỳ vào từng trường hợp
cụ thể mà ta chọn phương pháp nào cho thuận tiện.
1.6.4 Các tính chất của phép biến đổi Fourier
Tính tuyến tính
)()(][][
2121
Ω+Ω↔+ bXaXnbxnax
(1.17)
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 24
Tính dịch thời gian
(1.18)
Qua đây ta thấy sự dịch chuyển tín hiệu trong miền thời gian sẽ không ảnh
hưởng biên độ của DTFT, tuy nhiên pha được thêm một lượng.
Tính dịch tần số / điều chế
)(
2
π
λλλ
π
2
2121
)()(
2
1
][].[ dXXnxnx
(1.20)
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc
Trong miền tần số, mỗi tín hiệu đều có một đặc điểm riêng của nó. Ví dụ
như, tín hiệu sin chỉ có duy nhất một tần số đơn, trong khi nhiễu trắng chứa tất cả
các thành phần tần số. Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi
sự biến thiến nhanh và nhữ
ng xung nhọn là do tần số cao. Như xung vuông chẳng
hạn, nó chứa tất cả tần số và cả tần số cao.
Phổ của tín hiệu là mô tả chi tiết các thành phần tần số chứa bên trong tín
hiệu. Ví dụ như tín hiệu xung vuông, phổ của nó chỉ ra tất cả các đỉnh nhọn của
các sóng sin riêng có thể kết hợp lại hợp với nhau tạo ra xung vuông. Thông tin
này quan trọng vì nhiều lý do. Ví dụ, thành phần tần số
trong một mẫu nhạc chỉ
cho ta biết các đặc trưng của loa, để từ đó khi sản xuất ta lại có cải tiến cho hay
hơn. Để dự đoán các ảnh hưởng của bộ lọc trên tín hiệu, cần phải biết không chỉ
bản chất của bộ lọc mà còn phải biết cả phổ của tín hiệu nữa.