Xử lý nâng cao chất lượng tiếng nói - Pdf 32

Đồ án tốt nghiệp PDF by http://www .ebook.edu.vn
SVTH: Nguyễn Thị Ngọc Diệp Trang 1

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
LỜI CAM ĐOAN
Kính g ửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _
Trường Đại học Bách Khoa Đà Nẵng.
Em tên là: Nguyễn Thị Ngọc Diệp
Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học
Bách Khoa Đà Nẵng.
Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép của
bất cứ đồ án hoặc công trình đã có từ trước.
Sinh viên thực hiện
Nguyễn Thị Ngọc Diệp

SVTH: Nguyễn Thị Ngọc Diệp Trang 2
Đồ án tốt nghiệp PDF by http://www .ebook.edu.vn

MỤC LỤC
LỜI CAM ĐOAN .................................................................................................. 1
MỤC LỤC.............................................................................................................. 2
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH ........ 8
MỞ ĐẦU.............................................................................................................. 10
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ... 13
1.1 Giới thiệu chương ................................................................................ 13
1.2 Nâng cao chất lượng tiếng nói là gì ? .................................................. 13
1.3 Lý thuyết về tín hiệu và nhiễu ............................................................. 15
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu ...................................................15
1.3.1.1 Tín hiệu .............................................................................................. 15
1.3.1.2 Nguồn tín hiệu.................................................................................... 15

1.10 Kết luận chương .................................................................................. 29
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI .................................. 30
2.1 Giới thiệu chương ................................................................................ 30
2.2 Phương pháp đánh giá chủ quan.......................................................... 30
2.2.1 Các phương pháp đánh giá tuyệt đối..................................................31
2.2.1.1 Phương pháp đánh giá tuyệt đối ACR ............................................... 31
2.2.2 Các phương pháp đánh giá tương đối ................................................31
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu ...................... 31
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng ......................... 32
2.3 Phương pháp đánh giá khách quan...................................................... 33

SVTH: Nguyễn Thị Ngọc Diệp Trang 4
Đồ án tốt nghiệp PDF by http://www .ebook.edu.vn

2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung .....................................33
2.3.2 Đo khoảng cách phổ dựa trên LPC ....................................................35
2.3.2.1 Phương pháp đo LLR ......................................................................... 35
2.3.2.2 Phương pháp đo IS ............................................................................. 36
2.3.2.3 Phương pháp đo theo khoảng cách cepstrum..................................... 36
2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con người ...................37
2.3.3.1 Phương pháp đo Weighted Spectral Slope......................................... 37
2.3.3.2 Phương pháp đo Bark Distortion ....................................................... 38
2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ ................. 39
2.4 Kết luận chương .................................................................................. 39
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER
FILTERING ......................................................................................................... 41
3.1 Giới thiệu chương ................................................................................ 41
3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering ........ 41
3.3 Thuật toán Spectral Subtraction .......................................................... 41
3.3.1 Giới thiệu chung.................................................................................41

4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu................................................. 68
4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác..... 69
4.6.5 Kết luận chương .................................................................................71
TÀI LIỆU THAM KHẢO ............................................................................... 72
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI ............................... 75
PHỤ LỤC ............................................................................................................. 76

SVTH: Nguyễn Thị Ngọc Diệp Trang 6
Đồ án tốt nghiệp PDF by http://www .ebook.edu.vn

DANH

MỤC

CÁC

HÌNH

VẼ

VÀ

BẢNG
Hình 1.1 Tín hiệu tiếng nói [2]. ........................................................................... 15
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4]....... 18
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4].
.............................................................................................................................. 18
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà
hàng[4]. ................................................................................................................ 19
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường

Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi...... 61
Hình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu người nói
xung quanh ........................................................................................................... 61
Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3............ 63
Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2.......... 64
Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và
NoiseMargin = 2 .................................................................................................. 66
Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2. ........ 67
Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật
toán WF, gama=1 cho thuật toán SS.................................................................... 69
Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh. ....................... 70

SVTH: Nguyễn Thị Ngọc Diệp Trang 8
Đồ án tốt nghiệp PDF by http://www .ebook.edu.vn

DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG
ANH
Từ viết
tắt
Tiếng Anh Nghĩa tiếng Việt
SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu
PC Personal Computer Máy tính cá nhân
SPL Sound Pressure Level Mức áp suất của âm thanh
MMSE Minium Mean-Squared Error
Tối thiểu hoá sai lệch trung
bình bình phương
SVD Singular Value Decomposition Phép phân tích giá trị đơn
DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc
FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
DTFT Discrete-Time Fourier Transform

LLR Log likehook Raito
WSS Weighted Spectral Slope Đo theo trọng số của phổ
LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính
VAD Voice Activity Detection
Thăm dò sự hoạt động của
tiếng nói
Speech Enhancement Nâng cao chất lượng tiếng nói
SS Spectral Subtraction
Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng phương
pháp trừ phổ.
WF Wiener Filter
Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng cách sử
dụng bộ lọc Wiener.
Statistical-model-based
Thuật toán giảm nhiễu tín
hiệu tiếng nói dựa trên
nguyên lý thống kê
Frame
Khung tín hiệu.
Hamming Cửa sổ Hamming
Overlap và Adding Xếp chồng và cộng

SVTH: Nguyễn Thị Ngọc Diệp Trang 10
Đồ án tốt nghiệp PDF by http://www .ebook.edu.vn

MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với
con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại

thiệu khái quát về một số thuật toán trong Speech Enhancement .
Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu một số
phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm
có đánh giá chủ quan và đánh giá khách quan.
Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương
này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.
Phần 2 : Thực hiện và đánh giá
Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết
quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai
thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng
cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực
hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi
xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính
hiệu quả của các thuật toán xử lý trong môi trường thực tế.
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong
Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở
để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mới trong đồ án của
nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu.

SVTH: Nguyễn Thị Ngọc Diệp Trang 12
Đồ án tốt nghiệp PDF by http://www .ebook.edu.vnChương 1 : Tổng quan về nâng cao chất lượng tiếng nói
SVTH: Nguyễn Thị Ngọc Diệp Trang 13

CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
1.1 Giới thiệu chương
Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói

dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái. Vì
vậy mà nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc
của quân sự. Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một
vùng nào đó thì nó sẽ được truyền đến tất cả các vùng khác. Các thuật toán nâng
cao chất lượng tiếng nói được sử dụng như tiền xử lý hoặc làm sạch nhiễu trong
tiếng trước khi được khuếch đại.
Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cường
tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng. Xét trên phương diện
lý tưởng, thì chúng ta mong muốn Speech enhancement cải thiện được cả
chất lượng và tính dễ nghe hay sự trong suốt của tiếng nói. Tuy nhiên, xét trên
phương diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện
được chất lượng của tiếng nói. Nó có thể làm giảm được nhiễu nền trong tiếng
nói nhưng
nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm
đi tính dễ nghe của tiếng nói. Do đó, yêu cầu chính trong việc thiết kế một thuật
toán Speech enhancement phải đảm bảo nén được nhiễu và không được gây ra
méo trong sự cảm nhận tín hiệu tiếng nói.
Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc
rất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu
và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone
và cảm biến có thể có. Sự giao thoa có thể xem như là nhiễu hoặc được xem như
tín hiệu tiếng nói, nó tuỳ thuộc vào môi trường ta đang xét, nó có thể được xem
như là sự tranh chấp giữa các speaker. Đặc tính âm nhiễu có thể được cộng thêm
vào tín hiệu sạch nếu âm thanh được hình thành trong căn phòng bị dội âm thanh.
Hơn nữa, nhiễu có thể có tính tương quan hoặc không tương quan về mặt thống
kê với tín hiệu sạch. Số lượng microphone cũng có khả năng ảnh hưởng đến tính
hiệu quả của các thuật toán Speech enhancement.

SVTH: Nguyễn Thị Ngọc Diệp Trang 15
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

âm. Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đối
tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống,
hệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói,
hệ thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây thanh…Kích thích liên
quan đến hệ thống được gọi là nguồn tín hiệu. Như vậy ta có nguồn tiếng nói,
nguồn ảnh và các nguồn tín hiệu khác.
1.3.1.3
Hệ thống và xử lý tín hiệu
Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.
Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ
thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng
đã xử lý tín hiệu đó. Trong trường này, xử lý tín hiệu liên quan đến lọc nhiễu ra
khỏi tín hiệu mong muốn.
Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán
được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức
chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác.
Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết
bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần cứng và
phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là
phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt
các phép toán thực hiện bởi chương trình phần mềm. Khi xử lý bằng các bộ vi xử
lý-hệ thống bao gồm kết hợp cả phần cứng và phần mềm, mỗi phần thực hiện các
công việc riêng nào đó.
1.3.1.4
Phân loại tín hiệu
Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào
đặc điểm của tín hiệu. Có những phương pháp riêng áp dụng cho một loại
tín hiệu nào đó. Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên
quan đến những ứng dụng cụ thể. Chúng ta có thể phân tín hiệu thành các loại :

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4].
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên
tàu [4].

SVTH: Nguyễn Thị Ngọc Diệp Trang 19
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong
nhà hàng[4].
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau
Điểm tới hạn trong việc thiết kế các thuật toán của Speech enhancement là
sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi
trường thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín
hiệu trên nhiễu(SNR) được bắt gặp trong môi trường thực tế. Điều này rất quan
trọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement
trong việc nén nhiễu và cải thiện chất lượng của tiếng nói trong dải biến thiên của
mức
SNR.
Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh. Phép
đo lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB
SPL(sound pressure level)[4]. Khoảng cách giữa người nói và người nghe cũng
ảnh hưởng đến mức cường độ âm thanh, nó tương ứng với phép đo được
thực hiện khi microphone được đặt tại những vị trí có khoảng cách khác nhau.
Khoảng cách đặc trưng trong giao tiếp face-to-face là 1m, khi khoảng cách đó
tăng gấp đôi thì

SVTH: Nguyễn Thị Ngọc Diệp Trang 20
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

(t)|
t=nT
= x
a
(nT) = x(n) , -∞ < n< ∞ (1.1)
Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giá
trị n nguyên. Khi n không nguyên, thì x(n) không xác định, chứ không phải bằng
0. Trong nhiều sách về xử lý tín hiệu số, người ta quy ước: khi biến nguyên thì

s
SVTH: Nguyễn Thị Ngọc Diệp Trang 22
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

biến được đặt trong dấu ngoặc vuông và khi biến liên tục thì được đặt trong dấu
ngoặc tròn. Từ đây trở đi, ta ký hiệu tín hiệu rời rạc là: x[n].[7]
Một số tín hiệu rời rạc cơ bản
1.5.1 Tín hiệu bước nhảy đơn vị

1, n
≥
0
u[n] =


2, n
<
0
(1.2)
Tín hiệu bước nhảy dịch chuyển có dạng sau:
u[n - n



0,
n = no
n ≠ no
(1.5)
Chúng ta có thể biểu diễn tín hiệu rời rạc theo thời gian x[n] thông qua tín
hiệu xung đơn vị như sau
1.5.3 Tín hiệu hàm mũ
∞
x[n] =
∑
x[k ]
δ
[n
−
k
]
k =−∞
(1.6)
x[n] = C.a
n
(C,a : là những hằng số) (1.7)
Tín hiệu hàm mũ phía phải : x[n] = C.a
n
.u[n]
Tín hiệu hàm mũ phía trái : x[n] = C.a
n
.u[-n]
1.5.4 Tín hiệu hàm sin rời rạc

: pha ban đầu của tín hiệu sin
f : tần số số, f =
F
, F : là tần số của tín hiệu, F
F
s
: tần số lấy mẫu

SVTH: Nguyễn Thị Ngọc Diệp Trang 23
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói

-0.5 < f < 0.5

1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT
Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống. Nó
được dùng trong trường hợp dãy rời rạc dài vô hạn và không tuần hoàn.
DTFT : X
(
∞
)

=

∑

x
[n]
e
−
j

∞
∞
≤

∑

x[n]e
−
j n
n=−∞
∞
Ta luôn luôn có :
∑

x[n]e
−
j
n
n=−∞
∞
∑

x[n]e
−
j
n
n=−∞
≤

∑

n=−∞
(1.12)
Giả sử ROC có chứa đường tròn đơn vị. Tính X(Z) trên đường tròn đơn vị,
ta được
X (
z
z =e
j
∞
=

∑

x[n]e
−
j
n=−∞
n
=
X ( )
(1.13)
Như vậy, biến đổi Fourier chính là biến đổi Z tính trên đường tròn đơn vị.
Dựa vào đây, ta có thể phát biểu lại điều kiện tồn tại của DTFT như sau :

Trích đoạn Quá trình ước lượng và cập nhật nhiễu Quy trình thực hiện và đánh giá thuật toán Đánh giá chất lượng tiếng nói đã được xử lý Đánh giá thuật toán với các hệ số dự đoán ban đầu

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Xử lý nâng cao chất lượng tiếng nói - Pdf 32

Tài liệu, ebook tham khảo khác

Học thêm