XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI - Pdf 29

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN

Đà Lạt, ngày……tháng….năm 2014
GIÁO VIÊN HƯỚNG DẪN

2

LỜI CẢM ƠN

Xin chân thành cảm ơn thầy Nguyễn Đức Minh đã tận tình
hướng dẫn em để em có thể hoàn thành luận văn này. Các buổi học
cùng thầy trên khoa cùng những tài liệu mà thầy đã cung cấp cho
em thật là quý giá, không những thầy đã dạy kiến thức chuyên
ngành mà còn truyền đạt những kỹ năng và phương pháp học tiếng
anh giúp em cải thiện hơn vốn tiếng anh hiện có.
Em xin gởi lời cảm ơn đến các thầy cô trong trường, đặc biệt
là các thầy cô trong khoa Công Nghệ Thông Tin đã tạo điều kiện tốt
nhất để em có thể học tập và nghiên cứu.
Em cũng không thể không nhắc đến sự động viên chăm sóc
của gia đình, sự cộng tác giúp đỡ và ủng hộ tinh thần của bạn bè.

Em xin được tri ơn tất cả. Đà lạt, tháng 06 năm 2014 Trần Mạnh Hải

4

MỤC LỤC

NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN 1
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 2
LỜI CẢM ƠN 3

c) Tính toán các giá trị và tham số 38
d) Các bước xây dựng thuật toán 42
2) Mô phỏng trên Matlab và ứng dụng vào nhận dạng tiếng nói 44
IV. Kết luận 50
KẾT LUẬN 51
TÀI LIỆU THAM KHẢO: 53
5 LỜI NÓI ĐẦU
Ngày nay với sự phát triển mạnh mẽ của công nghệ, con ngƣời đã tự động hóa
khá nhiều công việc mà ngày trƣớc phải tốn sức ngƣời là chính. Các hệ thống
thông minh ra đời đã nâng cao nâng suất cũng nhƣ chất lƣợng của công việc. Tuy
nhiên để điều khiển máy móc, con ngƣời phải làm khá nhiều thao tác tốn nhiều
thời gian và cần phải đƣợc đào tạo. Điều này gây trở ngại không ít đối với việc sử
dụng các máy móc, thành tựu khoa học kỹ thuật. Trong khi đó, nếu điều khiển máy
móc thiết bị bằng tiếng nói sẽ dễ dàng hơn. Nhu cầu điều khiển máy móc thiết bị
bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay, nhƣ: điện thoại di
động, máy Palm/Pocket PC,…
Con ngƣời dễ dàng để hiểu nhau nhờ ngôn ngữ, nhƣng điều đó là khó khăn
đối với máy móc. Nhƣng không phải là không làm đƣợc, trên thế giới đã hình
thành các hệ thống nhận dạng tiếng nói từ đơn giản tới các hệ thống cực kỳ phức
tạp, chứng tỏ rằng máy móc sau quá trình huấn luyện của con ngƣời thì chúng cũng
có khả năng hiểu chúng ta qua tiếng nói.
Luận văn này em tập trung vào nghiên cứu hai phần lớn trong nhận dạng tiếng
nói đó là rút trích đặc trưng và phương pháp Neural cho nhận dạng và huấn luyện.
Luận văn gồm các phần chính nhƣ sau:
CHƢƠNG I: Cung cấp cái nhìn tổng quan về tín hiệu tiếng nói và nhận
dạng tiếng nói.
CHƢƠNG II: Xữ lý và rút trích đặc trƣng. Giới thiệu các bộ lọc cơ bản

Hình 3. 2 Mô hình mạng nhiều lớp _______________________________________________ 34
Hình 3. 3 Mô hình tổng quát 3 lớp _______________________________________________ 37
Hình 3. 4 Mô hình chi tiết cơ bản _______________________________________________ 37
Hình 3. 5 Hình minh họa đồ thị _________________________________________________ 44
Hình 3. 6 Hình minh họa quá trình huấn luyện _____________________________________ 46
Hình 3. 7 Đồ thị dạng tam giác (xi) ______________________________________________ 46
Hình 3. 8 Mạng Neural sử dụng _________________________________________________ 47

7

Chương I – TỔNG QUAN VỀ NHẬN DẠNG GIỌNG
NÓI
I. Nhận dạng
Nhƣ chúng ta đã biết nhận biết đƣợc tiếng nói là một khả năng tuyệt vời mà
tạo hóa ban cho chúng ta, nhƣ đôi mắt giúp con ngƣời nhìn thấy đƣợc sự chuyển
động biến đổi của thế giới thì đôi tai giúp con ngƣời nghe đƣợc những âm thanh
mà môi trƣờng xung quanh muốn truyền đạt tới chúng ta. Quá trình nhận thức
đƣợc một âm than h, tiếng nói trong cơ thể chúng ta là một quá trinh vô cùng
phức tạp và tinh vi.
Sóng âm thanh đƣợc truyền vào trong tai ngƣời và tạo nên các rung động cơ
học trên các bộ phận trong tai. Trong cùng của tai là Ốc tai, đây là nơi tín hiệu
đƣợc phân tích thành những khung tần số nhất định.

Hình 1. 1 Cấu trúc của tai người

8

Quá trình xữ lý và nhận dạng trong bộ não con ngƣời là một quá trình
rất phức tạp và độ chính xác vô cùng cao. Các mô hình nhận dạng tiếng nói
về mặt lý thuyết đều dựa trên sự mô phỏng giống nhƣ tai ngƣời, về cấu trúc

khớp mẫu
Kết quả
Tín hiệu để học
Tín hiệu cần nhận dạng
Huấn luyện
Tín hiệu tiếng nói
Hình 1. 2 Mô hình nhận dạng tiếng nói
9

 Tín hiệu tiếng nói đƣợc thu lại thông qua các thiết bị ghi âm nhƣ:
microphone… và nó đƣợc chuyển sang tín hiệu điện.
 Xữ lý và rút trích đặc trƣng: là quá trình tinh chỉnh tín hiệu đầu vào, tạo
ra tín hiệu mẫu tốt nhất. Sau đó sử dụng các phƣơng pháp để rút trích
các đặc trƣng cơ bản của tín hiệu đó.
 Xây dựng cơ sở dữ liệu tiếng nói: Tín hiệu tiếng nói sau khi đƣợc xữ lý
và rút trích đặc trƣng đƣợc lƣu lại thông qua quá trình huấn luyện hay
học bằng các mô hình nhận dạng.
 Nhận dạng so sánh khớp mẫu: Tín hiệu tiếng nói sau khi đƣợc xữ lý và
rút trích đặc trƣng có thể là tín hiệu cần nhận dạng. Nó đƣợc đem so
sánh với mẫu bằng các phƣơng pháp nhận dạng tiếng nói. Nếu nhƣ tín
hiệu đó so khớp nhất ứng với một lớp tín hiệu nào đó thì hệ thống nhận
dạng xác định tín hiệu đó thuộc vào nhóm tín hiệu nào đó với một tỉ lệ
nhất định.
 Kết quả: tín hiệu đầu ra sẽ phục vụ cho các ứng dụng, tùy ứng dụng mà
kết quả đầu ra sẻ khác nhau.

Các mô hình nhận dạng tiếng nói phổ biến:
Mô hình Markov - ẩn (Hidden Markov Model – HMM)
 Mô hình Markov ẩn (Hidden Markov Model - HMM) là mô hình
thống kê trong đó hệ thống đƣợc mô hình hóa đƣợc cho là một quá trình Markov

tần số của âm thanh trong một khoảng thời gian. Âm nào cũng có một cao độ
nhất định, độ trầm bổng phụ thuộc vào tần số giao động và đối với tiếng nói
thì tần số dao động của dây thanh quy định quyết định độ cao của giọng nói
con ngƣời. Và mỗi ngƣời có một độ cao giọng nói khác nhau.
 Âm nhấn là độ cảm nhận cường độ rung động của âm thanh qua
một khoảng thời gian và cao độ. Cường độ chính là độ to nhỏ của âm thanh,
cƣờng độ càng lớn thì âm càng truyền đƣợc xa hơn, nếu xét về mặt sóng âm
thì cƣờng độ chính là biên độ giao động, nó quyết định năng lƣợng của sóng
âm.
 Âm sắc là một thuật ngữ trong âm nhạc, nó thể hiện sự hài hòa
các đặc tính động của âm thanh nhƣ là điều biên, tăng lên hay rớt xuống của
tín hiệu. Cùng một cao độ nhƣng mỗi ngƣời lại có một âm sắc khác nhau

2. Phân loại nhận dạng tiếng nói
 Nhận dạng theo các từ hay các âm rời rạc.
 Nhận dạng tiếng nói độc lập hay phụ thuộc vào ngƣời nói.
 Nhận dạng với từ điển cỡ vừa, nhỏ hay cỡ lớn.
 Nhận dạng với môi trƣờng nhiễu cao hay thấp.
12 3. Những khó khăn
 Tốc độ nói của ngƣời khác nhau, có ngƣời nói nhanh có ngƣời nói chậm.
 Độ dài ngắn của âm khác nhau.
 Kết quả phân tích ở hai lần đối với một ngƣời nói khác nhau.
 Chất giọng theo vùng miền thì chất giọng khác nhau hoặc là giọng nam hay
giọng nữ.
 Các yếu tố của môi trƣờng làm nhiễu tín hiệu, đôi khi bị nhiễu từ chính thiết
bị thu.
III. Ứng dụng

thiên nhỏ nhất.
 Tiền nhấn: Tăng cƣờng tín hiệu, làm rõ các đặc trƣng của tín hiệu.
Lƣợng tử hóa: việc biểu diễn số tín hiệu đòi hỏi lƣợng tử hóa mỗi mẫu tín hiệu
với một giá trị rời rạc hữu hạn. Mỗi mẫu tín hiệu đƣợc lƣợng tử hóa, mã hóa rồi
truyền đi. Bên thu nhận tín hiệu sẽ giải mã và thu đƣợc tín hiệu tƣơng tự.
Hình 2. 1 Sơ đồ các khối của mô hình lấy mẫu
14

II. Rút trích đặc trưng
Để cho việc nhận dạng tiếng nói dễ dàng hơn và giảm chi phí thì việc rút
trích đặc trƣng tín hiệu là một phần vô cùng quan trọng. Tín hiệu thô ban đầu có
dung lƣợng rất lớn, và độ phức tạp cao. Việc rút trích các đặc trƣng từ tín hiệu
đó sẽ giúp cho khâu so sánh khớp mẫu dễ dàng hơn, và tạo ra độ chính xác cao
hơn.
Các bƣớc rút trích đặc trƣng:

nhiều hơn. Nhƣ hình 1.2 minh họa chồng lấp 1/3. Khung thứ nhất có N mẫu,
khung thứ hai bắt đầu từ mẫu thứ M và kết thúc ở vị trí M+N. Khi M << N thì
khung này sang khung khác đƣợc hoàn toàn trơn. Ngƣợc lại, nếu M > N thì sẽ
không có sự chồng lấp giữa các khung kề nhau, dẫn đến một số mẫu tiếng nói bị
mất (tức là không xuất hiện trong bất kỳ khung nào).

Hình 2. 4 Phân đoạn tiếng nói thành các khung chồng lấp
Giả sử các tín hiệu âm thanh trong một khung là không thay đổi, chúng ta
có thể trích các đặc trƣng chẳng hạn nhƣ tỷ lệ điểm qua zero, âm lƣợng, cao độ,
MFCC, LPC,…
Chúng ta có thể thực hiện phát hiện điểm đầu và cuối của tín hiệu dựa tỷ
lệ điểm qua zero và âm lƣợng, và giữ lại các khung tín hiệu có tiếng nói để phân
tích về sau.

2. Lấy cửa sổ
Bƣớc tiếp theo trong xử lý là lấy cửa sổ tín hiệu ứng với mỗi khung để giảm
thiểu sự gián đoạn tín hiệu ở đầu và cuối mỗi khung. Gọi mẫu thứ n của khung
thứ l là
l
h
n
, w(n) là hàm cửa sổ:

l
ĥ
n
=
l
h
n

đƣợc sử dụng. Tuy nhiên trong nhận dạng giọng nói, nó không có vấn đề gì hết
bởi vì chúng thƣờng có vừa đủ khung chồng lên nhau trong việc tính toán đặc
trƣng .
18





= 0.5

1 cos

2
1

Với cửa sổ Hamming thì các tần số thấp rơi xuống một cách nhanh chóng và
sau đó gần nhƣ trở thành phẳng với các tần số cao. Mặt khác, cửa sổ Hann rơi
chậm hơn một chút với tần số cao nhƣng nhanh chóng với tần số thấp. Vì vậy,
với mỗi loại đều có ƣu điểm hoặc hạn chế riêng của chúng.

Cửa sổ Tam giác: nhƣ tên gọi thì nó chỉ là một tam giác với đỉnh nằm ở
trung tâm của cửa sổ (n =

2
). Cửa sổ này quan trọng và thƣờng đƣợc sử dụng
trong phƣơng pháp MFCC. Biểu thức của cửa sổ tam giác:
Hình 2. 7 Cửa sổ Tam giác theo miền thời gian và tần số
Hình 2. 8 Minh họa cửa sổ hình chữ nhật
20

Một số ví dụ minh họa:

3. Biến đổi tín hiệu sang miền tần số (Biến đổi Fourier rời rạc - DFT)
Bƣớc tiếp theo trong việc xữ lý tín hiệu tiếng nói để có thể tính toán đƣợc
các đặc trƣng quang phổ là biến đổi Fourier rời rạc trên các cửa sổ tín hiệu.




=  



2


Phép biến đổi nhanh fourier rời rạc (FFT)
Phép biến đổi nhanh này đều dựa trên kỹ thuật phân chia theo cơ số 2,
nghĩa là thay vì biến đổi trên toàn bộ tín hiệu thì phép biến đổi này sẽ phân chia
chuỗi tín hiệu thành 2 chuỗi tín hiệu con, và lại áp dụng phép biến đổi lần nữa
cho 2 phần này một cách đệ quy. Do phép chia cho 2, nên chuỗi tín hiệu đòi hỏi
phải có chiều dài là lũy thừa của 2 (điều này có thể dễ dàng giải quyết đƣợc
bằng cách tăng kích thƣớc chuỗi tín hiệu lên và điền 0 vào).
4. Đặc trƣng MFCC (Mel Frenquency Cepstral Coefficients)
Định nghĩa Mel (Melody): Mel là từ viết tắt của âm điệu (melody), nó là
một đơn vị của âm vực.Nó được xác định là bằng với 1000 Pitch trong một tần
số âm vực 1000 Hz với biên độ là 40dB nằm trên ngưỡng nghe.
Hình 2. 11 Minh họa biến đổi Fourier
22

Đặc trƣng trích ra nhờ dựa trên khả năng cảm nhận âm của thính giác con

=









21


2


1
=0


Trong đó
l
C
m
là biến đổi cosin rời rạc (DCT) :


=  



m
:


=


1

,  = 0
2

,  > 0


24

Lọc tín hiệu theo thang Mel Hình 2. 13 Minh họa bộ lọc tam giác

Dãy bộ lọc Mel-scale bao gồm một dãy các bộ lọc tam giác chồng lên
nhau với tần số và độ rộng dãy tính theo tỉ lệ tần số Mel. Tỉ lệ tần số Mel, giống

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI - Pdf 29

Tài liệu, ebook tham khảo khác

Học thêm