đánh giá các thuật toán phát hiện tiếng nói dùng ngưỡng thích nghi và mạng neural trong miền WAVELET - Pdf 29

Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
228
ĐÁNH GIÁ CÁC THUẬT TOÁN PHÁT HIỆN TIẾNG NÓI DÙNG
NGƯỠNG THÍCH NGHI VÀ MẠNG NEURAL TRONG MIỀN WAVELET
PERFORMANCE ASSESSMENT ON VOICE ACTIVITY DETECTION
ALGORITHMS USING ADAPTIVE THRESHOLD AND NEURAL NETWORK IN
WAVELET DOMAIN

SVTH: Nguyễn Trí Phước, Trần Lê Anh Thư, Nguyễn Ngọc Như Trang
Lớp05DT2 - 05DT3 , Khoa Điện tử Viễn thông , Trường Đại học Bách Khoa
GVHD: TS. Phạm Văn Tuấn
Khoa Điện tử Viễn thông, Trường Đại học Bách Khoa

TÓM TẮT
Mục đích của bài báo là nghiên cứu các thuật toán phát hiện tiếng nói (VAD) dựa trên biến
đổi Wavelet. Các thuộc tính được trích trong miền Wavelet sẽ được đem so sánh với các mức
ngưỡng thích nghi hoặc được nhận dạng bởi mạng neural (NN) để thực hiện việc phân loại.
Những thuật toán VAD này được đánh giá và so sánh với các phương pháp VAD tiêu chuẩn khác
được đề xuất bởi ITU-T và ETSI. Kết quả mô phỏng trên cơ sở dữ liệu TIMIT đã trộn nhiễu cho
thấy các phương pháp dùng biến đổi Wavelet đạt hiệu suất phân loại cao hơn các phương pháp
khác, đồng thời cho khối lượng tính toán thấp hơn.
ABSTRACT
The objective of this paper is to study on voice activity detection (VAD) algorithms based
on Wavelet transform. The feature extracted in Wavelet domain is then compared to adaptive
thresholds or recognized by a neural network (NN) to do classification. These VAD algorithms are
evaluated with the noisy TIMIT corpus and compared to other VAD methods standardized by ITU-T
and ETSI. The experimental results show that Wavelet approaches lead to superior classification
performance and offer a much lower computational complexity than other VAD methods.
1. Giới thiệu
Kỹ thuật phát hiện tiếng nói đóng vai trò quan trọng trong các phương pháp xử lý
tiếng nói và ứng dụng trong thông tin liên lạc như mã hóa, truyền dẫn, nhận dạng [1]. Do

a
a
N
N
m i m i
n n N
aa
D i X n X n
N N N
,
2
w
1
1 16
( ) ( ) log 1 2 ( )
2 log(2)
N
i
k
D i D i x k
(1)
Với N là số mẫu trong một khung,
a
N
và
a
NN
là chiều dài của tập các hệ số
wavelet
,

Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
230
Bốn đặc trưng sử dụng cho việc quyết định VAD gồm: sai khác năng lượng tại băng thấp
(0-1kHz), sai khác năng lượng toàn băng, sai khác tỷ lệ qua điểm 0, méo phổ.
2.2.2. VAD ETSI ES 202 050
Chuẩn ETSI 202 050 [5] với bộ VAD được tích hợp trong khối tiền xử lí để ước
lượng nhiễu. ETSI-Nest (noise estimation) thực hiện tính năng lượng thời đoạn ngắn (80
mẫu mỗi khung). Năng lượng này được dùng để cập nhật mức năng lượng trung bình rồi
tính chênh lệch giữa hai mức năng lượng và so với mức ngưỡng để quyết định.
2.2.3. Thuộc tính Mel-Frequency Cepstral Coefficients (MFCCs) và mô hình NN
Trong [6], một thuật toán VAD được thiết kế dựa trên việc huấn luyện mạng neural
với thuộc tính phổ MFCC (Mel-Frequency Cepstral Coefficients) tương tự như trong mục
2.1.3. Việc trích các đặc trưng MFCC dựa trên sự cảm thụ tần số âm thanh của tai người.
Các khung tín hiệu tiếng nói sau khi qua bộ biến đổi Fourier (FFT) sẽ được đưa qua dãy bộ
lọc thang Mel dạng hình tam giác xếp chồng nhau. Ngõ ra băng lọc được nén và lấy log.
Cuối cùng biến đổi cosine rời rạc (DCT) được áp dụng để tính 13 hệ số MFCC. Các đạo
hàm bậc 1 và bậc 2 cũng được trích đưa vào lớp ngõ vào của NN.
3. Mô phỏng và phân tích kết quả
Các thuật toán VAD được đánh giá trên cơ sở dữ liệu TIMIT Test được trộn với 4
loại nhiễu khác nhau: nhiễu nhà máy(factory), nhiễu tiếng nói (babble), nhiễu xe hơi (car)
và nhiễu trắng (white). Mỗi loại nhiễu được trộn với tín hiệu sạch ở các tỷ số SNR (signal-
to-noise ratio) khác nhau gồm [-5 0 5 10 15 20 25 30] dB. Hiệu năng của mỗi thuật toán
VAD được đánh giá thông qua các phép đo Recall (RC), Precision (PR) và Fscore.

1
10
t
RC
tf

giảm. Với nhiễu Car, RC ở mức cao mặc dù SNR rất thấp.
WSDM-PF: Ở SNR cao, cho kết quả RC và PR cao. Khi SNR giảm, RC tăng, PR
giảm nhẹ, nghĩa là các thông tin tiếng nói không bị mất. Nhìn chung cho kết quả tốt tại mọi
trường hợp và độ phức tạp là thấp nhất.
MFCC-NN, WSDM-NN: Hiệu suất hoạt động tốt và khá ổn định trong mọi trường
hợp. Tuy nhiên độ phức tạp của thuật toán cao hơn do sử dụng 39 hệ số MFCC.
Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010
231
0.88 0.9 0.92 0.94 0.96 0.98
0.88
0.9
0.92
0.94
0.96
0.98
1
Precision
RecallWSDM-NN Factory
WSDM-NN Babble
WSDM-NN White
WSDM-NN Car
G729B Factory
G729B Babble
G729B White
G729B Car
MFCC-NN Factory
MFCC-NN Babble

PF hầu hết đạt được Fscore rất cao. Tại
mức SNR=0dB Thuật toán VAD này vẫn
đạt được hiệu suất bền vững với nhiễu
Car và White. WSDM-NN cho Fscore
tốt và ổn định trong tất cả các trường hợp.
3.2. Đánh giá tác động của các họ Wavelet khác nhau
Từ kết quả phân tích, thuật toán VAD WSDM-PF với hiệu suất tốt, ổn định với
nhiễu và có độ phức tạp thấp nhất được tiếp tục phân tích khi sử dụng các họ Wavelet khác
nhau. Kết quả Fscore trên hình 5 cho thấy về cơ bản, các họ Wavelet cho Fscore khá giống
nhau khi SNR thay đổi từ 30 đến 5dB. Tuy nhiên với điều kiện môi trường nhiễu khắc
nghiệt hơn, họ Wavelet Battle cho kết quả tốt hơn so với các họ khác.
30 25 20 15 10 5 0
0.75
0.85
0.95
1
Fscore
SNRs (dB)
Factory Noise30 25 20 15 10 5 0
0.75
0.85
0.95
1
Fscore
SNRs (dB)
Babble noise

đánh giá cũng cho phép chọn được các nhóm họ Wavelet cho ra hiệu suất ổn định nhất đối
với các SNR khác nhau. Trong nghiên cứu tiếp theo, chúng tôi sẽ đánh giá tính hiệu quả
của các thuật toán VAD khi tích hợp chúng vào khối tiền xử lí của hệ thống nhận dạng
tiếng nói nhằm nâng cao hiệu suất nhận dạng.

TÀI LIỆU THAM KHẢO

[1] Peter Vary, Rainer Martin (2006), “Digital Speech Transmission”, Wiley.
[2] Tuan V. Pham, et al. (2008), “Voice Activity Detection Algorithms Using Subband
Power Distance Feature For Noisy Environments”, Proc. Interspeech, pp. 2586-2589.
[3] Jiang Shaojun, et al. (2004), “A new algorithm for voice activity detection based on
Wavelet transform”, Proc. IEEE IMVSP, pp 222-225
[4] A. Benyassine et al. (1997), “ITU-T Recommendation G.729 Annex B: A silence
compression scheme for use with G.729 optimized for V.70 digital simultaneous voice
and data applications”, IEEE Communications Magazine, vol. 35, no. 9, pp. 64–73.
[5] ETSI (2003), “Speech Processing, Transmission and Quality Aspects (STQ),
Distributed speech recognition, Advanced frontend feature extraction algorithm,
Compression algorithms”, ETSI ES 202 050 V1.1.3, pp 14-15 and pp 40-41.
[6] Tuan V. Pham et al. (2009), “Using artificial neural network for robust voice activity
detection under adverse conditions”, Proc. IEEE RIVF, pp.1-8.
30 25 20 15 10 5 0 -5
0.85
0.9
0.95
1
Fscore
SNR (dB)Haar, factory

0.85
0.9
0.95
1
F score
dBHaar, factory
Haar, babble
Haar, white
Haar, car
Vaidyanathan, factory
Vaidyanathan, babble
Vaidyanathan, white
Vaidyanathan, car
Coiflet, factory
Coiflet, babble
Coiflet,white
Coiflet, car
Beylkin, factory
Beylkin, babble
Beylkin, white
Beylkin, car
Daubechies, factory
Daubechies, babble
Daubechies, white
wDaubechies, car
Battle, factory
Battle, babble

Daubechies, white
Daubechies, car
Battle, factory
Battle, babble
Battle, white
Battle, car
Symmlet, factory
Symmlet, babble
Symmlet, white
Symmlet, car
30 25 20 15 10 5 0 -5
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
F score
dBHaar, factory
Haar, babble
Haar, white
Haar, car

1
F score
dBHaar, factory
Haar, babble
Haar, white
Haar, car
Vaidyanathan, factory
Vaidyanathan, babble
Vaidyanathan, white
Vaidyanathan, car
Coiflet, factory
Coiflet, babble
Coiflet,white
Coiflet, car
Beylkin, factory
Beylkin, babble
Beylkin, white
Beylkin, car
Daubechies, factory
Daubechies, babble
Daubechies, white
wDaubechies, car
Battle, factory
Battle, babble
Battle, white
Battle, car
Symmlet, factory

Daubechies, factory
Daubechies, babble
Daubechies, white
wDaubechies, car
Battle, factory
Battle, babble
Battle, white
Battle, car
Symmlet, factory
Symmlet, babble
Symmlet, white
Symmlet, car
30 25 20 15 10 5 0 -5
0.75
0.8
0.85
0.9
0.95
1
F score
dBHaar, factory
Haar, babble
Haar, white
Haar, car
Vaidyanathan, factory
Vaidyanathan, babble
Vaidyanathan, white
Haar, factory
Haar, babble
Haar, white
Haar, car
Vaidyanathan, factory
Vaidyanathan, babble
Vaidyanathan, white
Vaidyanathan, car
Coiflet, factory
Coiflet, babble
Coiflet,white
Coiflet, car
Beylkin, factory
Beylkin, babble
Beylkin, white
Beylkin, car
Daubechies, factory
Daubechies, babble
Daubechies, white
Daubechies, car
Battle, factory
Battle, babble
Battle, white
Battle, car
Symmlet, factory
Symmlet, babble
Symmlet, white
Symmlet, car

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

đánh giá các thuật toán phát hiện tiếng nói dùng ngưỡng thích nghi và mạng neural trong miền WAVELET - Pdf 29

Tài liệu, ebook tham khảo khác

Học thêm