Mô hình markov ẩn và ứng dụng trong nhận dạng tiếng nói - Pdf 28

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ─────── NGUYỄN DUY PHƯƠNG M Ô H ÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG
NHẬN DẠNG TIẾNG NÓI

Ngành: Công nghệ thông tin
Mã số: 1.01.10 LUẬN VĂN THẠC SỸ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. HỒ THUẦN
Hà Nội - 2007
2
4.3 Ví dụ về nhận dạng từ đơn dựa trên HMM 49
3

5 Mô hình HMM cho âm vị đƣợc sử dụng trong luận văn 53
6 Kết luận chƣơng 1 55
CHƢƠNG 2. TIỀN XỬ LÝ TÍN HIỆU TIẾNG NÓI 56
1 Ý nghĩa 56
2 Một số thao tác tiền xử lý tín hiệu 57
2.1 Làm nổi tín hiệu (pre-emphais) 57
2.2 Lọc tiếng ồn 58
3 Trích rút đặc trƣng 60
3.1 Giới thiệu 60
3.2 Một số phƣơng pháp trích rút đặc trƣng 61
3.2.1 Phƣơng pháp Mã hoá dự báo tuyến tính (LPC) 61
3.2.2 Phƣơng pháp Mã hoá cepstral tần số Mel (MFCC) 63
3.2.3 Phƣơng pháp Mã hoá cepstral tần số Mel dựa trên LPC (MFCC) 68
3.2.4 Các hệ số delta (D) và hệ số gia tốc (A) 69
3.3 So sánh các phƣơng pháp trích đặc trƣng 70
4 Kết luận chƣơng 2 71
CHƢƠNG 3. THUẬT TOÁN HUẤN LUYỆN NHÚNG – XÂY DỰNG MÔ
HÌNH HMM TỰ ĐỘNG CHO ÂM VỊ 72
1 Tách và nhận dạng âm vị tự động dựa trên HMM 72
1.1 Thuật toán huấn luyện đối với những đơn vị độc lập - Huấn
luyện trên dữ liệu gán nhãn 72

CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT

Thuật ngữ
Từ viết tắt
Ý nghĩa
Artificial Neural Network
ANN
Mạng nơron nhân tạo
Fast Fourier Transform
FFT
Biến đổi Fourier nhanh
Dicrette Cosine
Transform
DCT
Biến đổi cosin rời rạc.
Hidden Markov Model
HMM
Mô hình Markov ẩn
Linear predictive code
LPC
Mã hoá dự báo tuyến tính
Mel-scale Frequency
Cepstral Coefficient
MFCC
Mã hoá cepstral tấn số Mel
Multi Layer Perceptron
MLP
DANH SÁCH CÁC HÌNH VẼ
HÌNH 1 – Mô hình HMM 5 trạng thái 34
HÌNH 2 – Sơ đồ huấn luyện mô hình HMM 44
HÌNH 3 - Sơ đồ nhận dạng từ mô hình HMM đã đƣợc huấn luyện 44
HÌNH 4 – Mô hình nhận dạng theo 3 cấp 46
HÌNH 5 - Vấn đề nhận dạng từ tách rời 50
HÌNH 6 - Tách riêng một phần của mô hình Markov 51
HÌNH 7 - Dùng HMM cho nhận dạng từ tách rời 53
HÌNH 8 – Sóng âm của chữ “hai” trƣớc khi (hình trái) và sau khi (hình phải)
đƣợc làm phẳng 58
HÌNH 9 - Sơ đồ khối của quá trình trích chọn đặc trƣng MFCC 64
HÌNH 10 - Các bộ lọc mel-scale tam giác (triangle mel-scale filters) 66
HÌNH 11 – Sơ đồ của bộ lọc MFCC dựa trên biến đổi dự báo tuyến tính và
các biến đổi Fourier 69
HÌNH 12 – Lƣu đồ huấn luyện từ đơn của công cụ HRest (HTK) 72
HÌNH 13 – Dãy sóng âm “MO6T MO6T HAI HAI BA MO6T” 74
HÌNH 14 – Mô hình huấn luyện nhúng 75

7

MỞ ĐẦU
Ngay khi máy tính ra đời con ngƣời đã mơ ƣớc máy tính có thể nói
thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói
những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản
[1]:
 Tín hiệu tiếng nói đƣợc biểu diễn chính xác bởi các biên độ phổ trong
một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta
có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn
và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói.
 Nội dung của tiếng nói đƣợc biểu diễn dƣới dạng chữ viết, là một dãy
các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm đƣợc bảo toàn khi
chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.
 Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ
nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình
nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.
Lĩnh vực nghiên cứu của nhận dạng tiếng nói là khá rộng liên quan đến
nhiều ngành khác nhau, nhƣ xử lý tín hiệu số (digital signal proccessing), vật
lý hay âm học (acoustic), nhận dạng mẫu, lý thuyết thông tin và khoa học máy
tính (information and computer science theory), ngôn ngữ học (linguistics),
sinh lý học (physiology), tâm lý học ứng dụng (applied psychology). Các hệ
thống nhận dạng tiếng nói có thể đƣợc phân chia thành hai loại khác nhau: hệ
thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục. Trong hệ thống
nhận dạng tiếng nói liên tục, ngƣời ta lại phân biệt hệ thống nhận dạng có
kích thƣớc từ điển nhỏ và hệ thống nhận dạng với kích thƣớc từ điển trung
bình hoặc lớn.
9
10

lƣợng của lời nói nhƣ thiết bị thu không tốt, tín hiệu bị nhiễu điện,…
Do đó, việc nhận dạng trở nên rất khó khăn.
 Trong nhận dạng tiếng nói theo hƣớng nhận dạng từng âm vị, một khó
khăn chúng ta gặp phải là: các âm vị liền nhau trong chuỗi tiếng nói
không có vách ngăn rõ ràng (2 âm vị sát nhau có một phần giao nhau,
khó xác định đƣợc phần giao nhau thuộc âm vị trƣớc hay âm vị sau).
Ngay cả đối với con ngƣời, tách âm vị từ một âm tiết (xác định vị trí
bắt đầu và vị trí kết thúc của âm vị đó trên sóng âm của âm tiết) cũng
không phải là công việc đơn giản.
Hiện nay, hầu hết các hƣớng tiếp cận để nhận dạng âm vị là nhận dạng
theo học mẫu thống kê. Thông thƣờng để học mẫu ngƣời ta cung cấp cho
chƣơng trình học một nguồn dữ liệu có nhiều mẫu đã đƣợc phân loại thành
nhiều lớp và có gán nhãn (nhãn cho biết mỗi mẫu thuộc lớp nào). Nguồn dữ
liệu này phải đƣợc phân lớp và gán nhãn chính xác hoàn toàn để máy học.
Tuy nhiên do không thể tách âm vị một cách chính xác, nguồn dữ liệu âm vị
đƣa vào khó đạt đƣợc mức độ chính xác, kết quả là việc huấn luyện giảm hiệu
suất, làm cho hiệu suất của chƣơng trình nhận dạng cũng giảm theo.
Chúng tôi xin nêu ra một hƣớng giải quyết để tránh việc gán
nhãn âm vị không chính xác: thay vì đánh nhãn âm vị, chúng ta sẽ đánh nhãn
âm tiết, đồng thời cho biết các âm vị cấu thành âm tiết đó. Nhƣ vậy, dữ liệu
mẫu cung cấp cho quá trình học là các âm tiết. Thuật toán học đƣợc sử dụng
để tách âm vị là thuật toán huấn luyện nhúng (Embedded training). Kết quả
thu đƣợc là các mô hình HMM cho từng âm vị. Do mỗi dãy âm vị đƣợc chọn

Giới thiệu mô hình HMM và sự lựa chọn mô hình HMM để nhận dạng
tiếng nói.
 Chƣơng 2 : Tiền xử lý tín hiệu tiếng nói
Chƣơng này sẽ giới thiệu về tiền xử lý tiếng nói và một số phƣơng pháp
trích đặc trƣng đƣợc sử dụng trong nhận dạng tiếng nói.
 Chƣơng 3 : Thuật toán huấn luyện nhúng (Embedded training)
12

Giới thiệu thuật toán huấn luyện nhúng. Đây là quá trình xây dựng mô
hình HMM tự động cho các âm vị từ kho dữ liệu không gán nhãn âm vị.
 Chƣơng 4 : Cài đặt thuật toán - Giới thiệu phần mềm từ điển tiếng nói.
 Kết luận
13

CHƢƠNG 1.
MÔ HÌNH HMM VÀ ỨNG DỤNG TRONG NHẬN
DẠNG TIẾNG NÓI
1 Giới thiệu

 Mục 2 : Những khái niệm toán học liên quan tới HMM.
Những khái niệm chung về nhận dạng thống kê, định lý Bayes
 Mục 3 : Mô hình HMM.
Các định nghĩa, các tập tham số của mô hình HMM
 Mục 4 : Giới thiệu về Nhận dạng tiếng nói và nhận dạng âm
vị dựa trên HMM
 Mục 5 : Mô hình HMM cho âm vị đƣợc sử dụng trong luận văn.
2 Những khái niệm toán học liên quan tới HMM
Mô hình Markov ẩn HMM là một mô hình thống kê dựa vào mô hình
Markov. Vì vậy để hiểu đƣợc mô hình HMM, trƣớc tiên chúng ta cần phải tìm
hiểu xem xét về mô hình thống kê nói chung.
2.1 Giới thiệu về nhận dạng thống kê
Quá trình thống kê [12] là quá trình xác định xác suất của một số sự
kiện và xác suất mối quan hệ giữa các sự kiện trong một tiến trình tại các thời
điểm khác nhau.
 Biến cố ngẫu nhiên và hàm mật độ xác suất:
Gọi X là tập các biến ngẫu nhiên X={X
1
, X
2
, …, X
n
} mà tồn tại ít nhất
một sự kiện của tập X này xuất hiện. Gọi xác suất của sự kiện X
i
là P(X
i
).
Khi đó ta có xác suất của X là P(X)=1. Nếu gọi P(X
i

hoặc chúng không hề có quan hệ nhân quả nào.
Việc cập nhật các xác suất này để xét đến các thông tin (có thể mới) có
thể đƣợc thực hiện qua Định lý Bayes.
Định nghĩa
Nếu A và B là các biến cố, và P(B) > 0, thì xác suất có điều kiện của A
nếu biết B là

Tƣơng đƣơng, ta có

16

Độc lập thống kê
Hai biến cố A và B là độc lập thống kê khi và chỉ khi

Do đó, nếu A và B độc lập, thì xác suất giao của chúng có thể đƣợc biểu
diễn bởi tích của các xác suất của từng biến cố.
Tƣơng đƣơng, với hai biến cố độc lập A và B,

và

Nói cách khác, nếu A và B độc lập thì xác suất có điều kiện của A nếu
biết B chỉ đơn giản là xác suất của riêng A. Cũng nhƣ vậy, xác suất có điều
kiện của B nếu biết A chỉ đơn giản là xác suất của riêng B.
Loại trừ lẫn nhau

nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này đƣợc ký hiệu là
P(A|B), và đọc là "xác suất của A nếu có B". Đại lƣợng này đƣợc gọi xác suất
có điều kiện hay xác suất hậu nghiệm vì nó đƣợc rút ra từ giá trị đƣợc cho của
B hoặc phụ thuộc vào giá trị đó.
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu
tố:
 Xác suất xảy ra A của riêng nó, không quan tâm đến B. Kí hiệu là P(A)
và đọc là xác suất của A. Đây đƣợc gọi là xác suất biên duyên hay xác
suất tiên nghiệm, nó là "tiên nghiệm" theo nghĩa rằng nó không quan
tâm đến bất kỳ thông tin nào về B.
 Xác suất xảy ra B của riêng nó, không quan tâm đến A. Kí hiệu là P(B)
và đọc là "xác suất của B". Đại lƣợng này còn gọi là hằng số chuẩn hóa
18

(normalising constant), vì nó luôn giống nhau, không phụ thuộc vào sự
kiện A đang muốn biết.
 Xác suất xảy ra B khi biết A xảy ra. Kí hiệu là P(B|A) và đọc là "xác
suất của B nếu có A". Đại lƣợng này gọi là khả năng (likelihood) xảy ra
A khi biết B đã xảy ra. Chú ý không nhầm lẫn giữa khả năng xảy ra A
khi biết B và xác suất xảy ra A khi biết B.
Khi biết ba đại lƣợng này, xác suất của A khi biết B cho bởi công thức:

Từ đó dẫn tới

và công thức tƣơng tự công thức xác suất đầy đủ:

Ý nghĩa của các thành phần trong các công thức trên là f(x, y) là mật độ
phân phối của phân phối đồng thời của các biến ngẫu nhiên X và Y, f(x|y) là
mật độ phân phối xác suất hậu nghiệm của X với điều kiện Y=y, f(y|x) = L(x|y)
là (một hàm của x) hàm khả năng của X với điều kiện Y=y, và f(x) và f(y) là
các mật độ phân phối của X và Y tách biệt nhau, với f(x) là mật độ phân phối
tiền nghiệm của X.
Điều kiện mặc định trong các công thức là hàm f khả vi và các tích
phân công thức tồn tại.
Suy luận Bayes (tiếng Anh: Bayesian inference) là một kiểu suy luận
thống kê mà trong đó các quan sát hay bằng chứng đƣợc dùng để cập nhật
hoặc suy luận ra xác suất cho việc một giả thuyết có thể là đúng. Cái tên
"Bayes" bắt nguồn từ việc sử dụng thƣờng xuyên Định lý Bayes trong quá
trình suy luận.
Suy luận Bayes sử dụng các khía cạnh của phƣơng pháp khoa học,
trong đó có việc thu thập các bằng chứng nhất quán hoặc không nhất quán với
một giả thuyết nào đó. Khi các bằng chứng tích lũy, mức độ tin tƣởng vào
20

một giả thuyết thay đổi. Khi có đủ bằng chứng, mức độ tin tƣởng này thƣờng
trở nên rất cao hoặc rất thấp. Do đó, theo lý thuyết, đây có thể đƣợc coi là một
cơ sở lôgic thích hợp cho việc phân biệt đối xử giữa các giả thuyết mâu thuẫn
nhau - các giả thuyết với mức độ tin tƣởng rất cao nên đƣợc chấp nhận là

trong đó
 H
0
đại diện cho một giả thuyết, gọi là một giả thuyết rỗng (null
hypothesis), giả thuyết này đƣợc suy luận trƣớc khi có đƣợc bằng
chứng mới E.
 P(H
0
) đƣợc gọi là xác suất tiên nghiệm của H
0
.
 P(E | H
0
) đƣợc gọi là xác suất có điều kiện của việc quan sát thấy bằng
chứng E nếu biết rằng giả thuyết H
0
là đúng. Đại lƣợng này còn đƣợc
gọi là hàm khả năng khi nó đƣợc biểu diễn dƣới dạng một hàm của H
0

khi cho trƣớc E.
 P(E) đƣợc gọi là xác suất biên duyên của E: xác suất của việc chứng
kiến bằng chứng mới E dƣới tất cả các giả thuyết loại trừ nhau đôi một.
Đại lƣợng này có thể đƣợc tính bằng tổng của tích tất cả các xác suất
của các giả thuyết loại trừ nhau đôi một và các xác suất có điều kiện
tƣơng ứng: .
 P(H
0
| E) đƣợc gọi là xác suất hậu nghiệm của H
0

giờ cho ra một xác suất lớn hơn 1. Đó là vì P(E) không nhỏ hơn ,
mà đại lƣợng này thì bằng P(E | H
0
) . P(H
0
).
P(E | H
0
), xác suất của E khi biết H
0
, có thể đƣợc biểu diễn bởi một hàm của
tham số thứ hai với tham số thứ nhất giữ một giá trị cho trƣớc. Một hàm nhƣ
vậy đƣợc gọi là hàm khả năng; đây là một hàm của H
0
khi cho trƣớc E. Một
tỷ lệ giữa hai hàm khả năng đƣợc gọi là tỉ lệ khả năng (likelihood ratio), Λ. Ví
dụ,

Xác suất biên duyên P(E) còn có thể đƣợc biểu diễn bằng tổng của tích tất cả
các xác suất đôi một loại trừ nhau với các xác suất có điều kiện tƣơng ứng:
P(E | H
0
)P(H
0
) + P(E | not H
0
)P(not H
0
).
Do đó, ta có thể viết lại định lý Bayes nhƣ sau

việc phạm sai lầm. Các xác suất đại diện cho khả năng hoặc niềm tin về việc
phạm sai lầm. Một hàm mất mát đại diện cho các hậu quả của việc phạm sai
lầm.
Các ví dụ suy luận Bayes đơn giản
Bánh quy từ hộp nào?
Để minh họa, giả sử có hai hộp đựng đầy bánh quy. Hộp thứ nhất có 10 chiếc
bánh quy sô-cô-la và 30 chiếc bánh quy bơ. Hộp thứ hai đựng mỗi loại bánh
24

20 chiếc. Bé Khoai chọn ngẫu nhiên một hộp, rồi nhặt đại một chiếc bánh. Ta
có thể giả thiết rằng bé Khoai còn rất nhỏ nên không phân biệt hộp này hộp
kia, và bé thích tất cả các loại bánh kẹo nên bánh loại nào với bé cũng vậy. Và
chiếc bánh mà bé Khoai chọn té ra là một chiếc bánh quy bơ. Vậy khả năng
Khoai nhặt chiếc bánh đó từ trong hộp thứ nhất là bao nhiêu?
Một cách trực quan, có vẻ rõ ràng là câu trả lời phải lớn hơn 1/2, do trong hộp
1 có nhiều bánh quy bơ hơn. Câu trả lời chính xác đƣợc tính theo định lý
Bayes. Giả sử H
1
tƣơng ứng với hộp 1, và H
2
tƣơng ứng với hộp 2. Ta biết
rằng đối với bé Khoai, hai hộp là nhƣ nhau, do đó, P(H
1
) = P(H

25

Ta thu đƣợc các kết quả dƣơng tính sai khi một kiểm nghiệm cho ra kết quả
dƣơng tính một cách sai lầm. Ví dụ, một xét nghiệm y học cho một bệnh có
thể trả về một kết quả dƣơng tính với hàm ý rằng bệnh nhân có mắc căn bệnh
đó ngay cả nếu bệnh nhân đó không hề mắc căn bệnh đó. Ta dùng định lý
Bayes để tính xác suất mà một kết quả dƣơng tính thực ra lại là một dƣơng
tính sai. Kết quả là nếu một căn bệnh hiếm gặp thì đa số các kết quả dƣơng
tính có thể là dƣơng tính sai, ngay cả nếu xét nghiệm có độ chính xác cao.
Giả sử rằng một xét nghiệm cho một căn bệnh cho ra các kết quả sau:
 Nếu ngƣời đƣợc xét nghiệm quả thực mắc bệnh đó, xét nghiệm trả về
kết quả dƣơng tính trong 99% các trƣờng hợp, hoặc nói cách khác là
với xác suất 0,99
 Nếu ngƣời đƣợc xét nghiệm thực ra không có bệnh, xét nghiệm trả về
kết quả âm tính trong 95% các trƣờng hợp, hoặc nói cách khác là với
xác suất 0,95
Giả sử rằng chỉ có 0,1% dân số mắc căn bệnh này, nghĩa là nếu chọn ngẫu
nhiên một ngƣời thì việc ngƣời đó mắc bệnh có xác suất tiên nghiệm là 0,001.
Ta có thể dùng định lý Bayes để tính xác suất cho việc một kết quả xét
nghiệm dƣơng tính là một dƣơng tính sai.
Giả sử A là tình huống ngƣời bệnh mắc căn bệnh đó, và B biểu diễn bằng
chứng - một kết quả xét nghiệm dƣơng tính. Khi đó, xác suất ngƣời bệnh thực
sự mắc bệnh khi biết rằng kết quả xét nghiệm là dƣơng tính là

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Mô hình markov ẩn và ứng dụng trong nhận dạng tiếng nói - Pdf 28

Tài liệu, ebook tham khảo khác

Học thêm