52(4): 47 - 51 Tạp chí KHOA HỌC & CÔNG NGHỆ 4 - 2009
1
MỘT SỐ ĐÁNH GIÁ VỀ HIỆU QUẢ NHẬN DẠNG TIẾNG NÓI
DÙNG KỸ THUẬT PHÂN TÍCH BĂNG CON
Phùng Trung Nghĩa (Khoa Công nghệ thông tin - ĐH Thái Nguyên)
Tóm tắt
Trong báo cáo này, chúng tôi sử dụng phân tích wavelet rời rạc DWT để phân tích tiếng nói thành các băng
con và thực hiện nhận dạng tiếng nói đã phân tích. Các kết quả nhận dạng cho thấy các băng con có ảnh hưởng
khác nhau tới hiệu quả nhận dạng tiếng nói sạch và tiếng nói có nhiễu. Đặc biệt, một số băng con cho hiệu quả
nhận dạng cao hơn tiếng nói gốc không phân tích băng con. Cụ thể với phân tích DWT, băng A
1
là ảnh hưởng
nhiều nhất đối với tiếng nói sạch còn băng A
2
ảnh hưởng nhiều nhất đối với tiếng nói có nhiễu. Các kết quả này
cho thấy việc sử dụng phân tích băng con để phân tách ra một số băng tần chọn lọc sẽ cho hiệu quả cao hơn nhận
dạng với tiếng nói gốc. Các băng con khác nhau ảnh hưởng khác nhau tới hiệu quả nhận dạng cho thấy trong kỹ
thuật nhận dạng tiếng nói dùng phân tích băng con, khi kết hợp kết quả nhận dạng trong các băng con để cho ra kết
luận nhận dạng cuối cùng thì các băng con cần phải gán các trọng số khác nhau tương ứng với độ ảnh hưởng lên
kết quả nhận dạng. Ở một khía cạnh khác, các kết quả thực nghiệm ở đây cũng cho thấy việc cắt bỏ các thông tin
tần số cao ở một mức độ thích hợp sẽ làm tăng hiệu quả nhận dạng tiếng nói. Đây là cơ sở cần thiết để khẳng định
việc sử dụng các bộ triệt nhiễu tiếng nói trong khối tiền xử lý của các hệ thống nhận dạng tương ứng với việc cắt
bỏ bớt thông tin tần số cao ở một mức độ thích hợp dù loại bỏ một số thông tin quan trọng nhưng vẫn làm tăng kết
quả nhận dạng.
I. Đặt vấn đề
Nhiều nghiên cứu gần đây về nhận dạng tiếng
nói quan tâm đến các phương pháp nâng cao tỉ lệ
nhận dạng trong môi trường có nhiễu (noise robust
speech recognition). Đã có rất nhiều phương pháp
Cũng trong thời gian gần đây, trên thế giới đã
có một số tác giả đề xuất các phương pháp nhận
dạng tiếng nói dùng phân tích băng con trong đó
nhận dạng tiếng nói trong từng băng và kết hợp
các kết quả lại để cho ra kết quả nhận dạng cuối
cùng. Các nghiên cứu hiện tại thường sử dụng kỹ
thuật đặt trọng số cân bằng (equal weighting) cho
các băng con [7]. Mặc dù các kết quả thực nghiệm
cho thấy các kỹ thuật này nâng cao được hiệu quả
nhận dạng đặc biệt với tiếng nói có nhiễu, kỹ thuật
đặt trọng số cân bằng không phản ánh được thực tế
các băng con khác nhau ảnh hưởng khác nhau tới
hiệu quả nhận dạng. Vì vậy đánh giá hiệu quả
nhận dạng của từng băng con độc lập sẽ là cơ sở
để xây dựng một phương pháp đặt trọng số phù
hợp cho các băng con.
52(4): 47 - 51 Tạp chí KHOA HỌC & CÔNG NGHỆ 4 - 2009
2
Trong báo cáo này, chúng tôi sử dụng phân
tích đa phân giải DWT phân tích tiếng nói thành 5
mức và sau đó tái tạo thành 5 băng tần thấp khác
nhau. Để đánh giá ảnh hưởng của từng băng tần
tới kết quả nhận dạng, các mô hình âm thanh cho
mỗi băng tần được lần lượt nhận dạng thử nghiệm
sau khi đã huấn luyện với tiếng nói gốc. Các kết
quả nhận dạng thực nghiệm thu được cho thấy tỉ lệ
nhận dạng ứng với mô hình âm thanh băng 1 là lớn
nhất với tiếng nói sạch, tỉ lệ nhận dạng ứng với mô
hình âm thanh băng 2 là lớn nhất với tiếng nói có
( ) ( )
ab
tb
t
a
(1)
*
1
( , ) ( ) ( )
tb
W x a b x t dt
a
a
(2)
CWT được tính toán bằng các hệ số tại các tỉ
lệ khác nhau ở các đoạn khác nhau của tín hiệu.
Tính toán các hệ số wavelet ở mọi tỷ lệ dẫn tới
một khối lượng tính toán rất lớn. Ta có thể chọn
một tập con các tỉ lệ và vị trí để giảm sự phức tạp
tính toán bằng cách dùng phép biến đổi wavelet
. Hệ số tỉ
lệ a
1 (trường hợp Dyadic SCWT a =2
m
), tham số
dịch là cố định bằng một hằng số b
0
để tránh việc
lấy mẫu không đều.
SCWT khi đó được định nghĩa như sau:
0
0
[ /T ] + nb
*
f a 0
k= - [ /T ] + nb
SCWT (a,n)= f(k) ( )k nb
(4)
với
1
băng lọc thỏa mãn một số ràng buộc. Ví dụ như
với DWT, mỗi mức phân rã sẽ cho ra hai nhánh
lọc thông cao và thông thấp theo sau bởi các bộ
giảm mẫu 2 lần. DWT sẽ thực hiện việc đa phân rã
lặp lại trên nhánh thông thấp, trong khi đó cây
phân rã trong WPT có thể lặp lại việc phân rã
trong bất kì nhánh nào (thông cao hoặc thông
thấp). Kết quả của phân tích WPT sẽ chia vùng tần
số biểu diễn tín hiệu thành nhiều băng con và cho
phép khôi phục lại tín hiệu ban đầu từ các hệ số
wavelet trong các băng con này.
Hình 1. Lọc một tầng DWT cho xấp xỉ và chi tiết
52(4): 47 - 51 Tạp chí KHOA HỌC & CÔNG NGHỆ 4 - 2009
3 Hình 2. Phân tích wavelet gói
III. Phân rã DWT và tái tạo các băng tần thấp
Hình 3. biểu diễn phân tích wavelet 5 mức của
tín hiệu tiếng nói S. Trong đó, Di là thành phần chi
tiết mức i, Ai là thành phần xấp xỉ mức i của tiếng
nói gốc S. Trong nghiên cứu này, chúng tôi thực
nghiệm với tiếng nói có tần số lấy mẫu 16 KHz
(có độ rộng phổ tần là 8 KHz), do đó các băng tần
thấp được tái tạo tương ứng là A
0
: 0 – 8000 Hz
(băng tần gốc không phân rã), A
1
1. Chuẩn bị dữ liệu
Dữ liệu tiếng nói được thu từ 5 nam và 5 nữ
nói đủ số cụm từ trong bộ dữ liệu, mỗi người thu 1
lần ở tần số lấy mẫu 16 KHz, 16 bit / 1 mẫu . Tất
cả các giọng nói đều là giọng miền Bắc từ một số
tỉnh, thành như: Thái Nguyên, Thái Bình, Thanh
Hóa, Nghệ An, ... Tiếng nói được thu trong phòng
đóng kín cửa có chất lượng cách âm khá tốt.
Tổng số có 99 cụm từ các số điện thoại nội bộ
trong khoảng 101 đến 199, 10 cụm từ các tên
riêng, như vậy có tổng cộng có 10x109 = 1090
cụm từ trong bộ dữ liệu dùng để huấn luyện. Đánh
giá kết quả nhận dạng với tiếng nói sạch và tiếng
nói có nhiễu Gauss trắng nhân tạo. Trong đó 2
nam, 2 nữ (không tham gia quá trình huấn luyện)
mỗi người nói đủ 109 cụm từ. Tổng cộng số lần
nhận dạng thử là 2x109 = 218 lần.
2. Môi trường xây dựng hệ thống
Chúng tôi xây dựng hệ thống nhận dạng trên
MATLAB 7.01. Trong MATLAB 7.01, các
Toolbox Signal Processing, Wavelet, Statistic
HMM hỗ trợ hầu hết các hàm cần thiết cho quá
trình tiền xử lý và trích đặc trưng, huấn luyện và
nhận dạng.
3. Tiền xử lý và phân khung tiếng nói
Tiếng nói trước khi tham số hoá được làm rõ
bằng bộ lọc với phương trình sai phân:
( ) ( ) ( 1)s n s n as n
2
đều cho
kết quả nhận dạng tốt hơn toàn băng A
0
(với tiếng
nói có nhiễu thậm chí băng A
3
cũng cho kết quả
nhận dạng tốt hơn toàn băng A
0
). Các băng tần A
4
và A
5
cho kết quả nhận dạng rất thấp.
Với tiếng nói sạch kết quả nhận dạng trên băng
con A
1
(0 – 4000 Hz) là cao nhất, với tiếng nói có
nhiễu, kết quả nhận dạng trên băng con A
2
(0 –
2000 Hz) cho kết quả cao nhất.
Băng con Clean Speech Noisy Speech
SNR=10dB
A
0
78.44 (171/218) 38.07 (83/218)
A
tới hiệu quả nhận dạng.
Trong nghiên cứu này, chúng tôi chưa tập trung
xây dựng một hệ thống nhận dạng hoàn chỉnh trong
môi trường có nhiễu. Trong các nghiên cứu tiếp
theo, chúng tôi sẽ hoàn thiện về mặt phương pháp
và xây dựng thực nghiệm hệ thống nhận dạng tiếng
Việt liên tục trong môi trường có nhiễu.
Tài liệu tham khảo
[1] Lê Tiến Thường, Hoàng Đình Chiến, Vietnamese
Speech Recognition Applied to Robot Communications,
Au Journal of Technology, Published by Assumption
University (ABAC) Hua Mak, Bangkok, Thailand,
2004.
[2] Phùng Trung Nghĩa, Nhận dạng tiếng Việt sử dụng
biến đổi Wavelet và mô hình Markov ẩn, Luận văn thạc
sỹ, Đại học Quốc Gia Hà Nội, 2006.
[3] Q.C.Nguyen, Eric Castelli, Ngoc-Yen Pham , Tone
Recognition for Vietnamese, Euro-Speech 2003,
Geneva.
[4] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong,
John-Paul Hosom, Vietnamese Large Vocabulary
Continuous Speech Recognition, EuroSpeech05
International Conference, 2005.
[5] Beng T. TAN, Minyue Fu, Andrew Spray, Phillip
Dermody, The use of wavelet transforms in phoneme
recognition, 1994.
[6] Donoho, D. L, “Denoising via soft thresholding'',
IEEE Trans. Information Theory, 1995.
[7] Long Yan, Gang Liu, and Jun Guo, A Study on
Robustness of Large Vocabulary Mandarin
Speech Using Spectral Subtraction”, IEEE
Transactions on Acoustics, Speech, and Signal
Processing, vol. 27, April 1979, pp. 113-120.
[15] Y. Ephraim and D. Malah, “Speech enhancement
using a minimum mean square error log-spectral
amplitude estimator” IEEE Trans. on ASSP, 1985, pp.
443-445.