Computer Based Automatic Speech Processing
MỤC LỤC
Mục lục8
............................................................................... trang 1
1.
2.
3.
4.
5.
Giới thiệu.....................................................................................trang 2
MarKov Models (HM).................................................................trang 3
Hidden MarKov Models (HMM)- Mô hình Markov ẩn..............trang 5
Ba bài toán cơ bản của HMM......................................................trang 8
ứng dụng HMM trong tự động nhận dạng tiếng nói- ASR.......trang 17
HMM và ứng dụng HMM trong nhận dạng tiếng nói
Trang 1
Computer Based Automatic Speech Processing
1. Giới thiệu
Học thuyết về chuỗi Markov được phát triển vào những năm 1900. Mô hình
Markov ẩn phát triển vào cuối những năm 60 và được sử dụng rộng rãi trong
lĩnh vực nhận dạng tiếng nói vào những năm 1960-1970 và được đưa vào khoa
học máy tính năm 1989
Nhiều bài toán thực tế được biểu diễn dưới mối quan hệ nhân quả, nhưng chỉ
Trang 2
Computer Based Automatic Speech Processing
2. MarKov Models (HM):
Một dãy trạng thái ngẫu nhiên gọi là có thuộc tính Markov nếu như xác suất
chuyển sang trạng thái tiếp theo chỉ phụ thuộc vào trạng thái hiện tại và quá khứ.
Dãy chuyển trạng quan sát được được gọi là chuỗi Markov hay Xích
Markov. Dãy chuyển trạng không quan sát được gọi là mô hình Markov ẩn.
Có N trạng thái: s1, s2 .. sN
Các bước thời gian rời rạc tương ứng: t=0, t=1, …
Tại bước thời gian thứ t, hệ thống ở một trong các trạng thái trên, gọi là qt.
Với qt ∈{s1, s2 .. sN }
Trạng thái hiện tại
N=3
t=0, qt=q0=s3
S
3
S
1
S
3
Giữa mỗi bước thời gian, trạng thái
− S1: mưa
− S2: mây mù
− S3: nắng
S1
S1
A = {aij } =
S2
S3
S2
S3
0.4 0.3 0.3
÷
0.2
0.6
0.2
÷
0.1 0.1 0.8 ÷
HMM và ứng dụng HMM trong nhận dạng tiếng nói
0.1 0.8
P(O/Model) = P [3,3,3,1,1,3,2,3|Model]
= P [3]P[3|3]2P[1|3]P[1|1]
P[3|1]P[2|3]P[3|2]
= 3.(a33)2a31a11a13a32a23
= (1.0)(0.8)2(0.1)(0.4)(0.3)(0.1)(0.2)
= 1.536x10-4
ở õy chúng ta sử dụng
i = p [ q1 = i] 1 i N
3. Hidden MarKov Models (HMM)- Mụ hỡnh Markov n
Mụ hỡnh trc gi s rng mi trng thỏi cú th l duy nht tng ng vi
mt bng chng quan sỏt c.
Khi cú c mt quan sỏt, trng thỏi nhn c ca h thng s tr thnh
vụ giỏ tr(khụng cũn nhiu ý ngha s dng).
Mụ hỡnh ny quỏ hn ch gii quyt cỏc vn trong trong thc t.
xõy dng mt mụ hỡnh linh ng hn, chỳng ta gi s rng nhng quan
sỏt c ca mụ hỡnh l mt hm xỏc xut ca mi trng thỏi
HMM v ng dng HMM trong nhn dng ting núi
Trang 5
Computer Based Automatic Speech Processing
− Mỗi trạng thái có thể tạo ra một số đầu ra dựa trên phân bố xác xuất và
mỗi đầu ra riêng biệt có thể có khả năng được tạo ra bởi một trạng thái nào
đó.
− Mô hình Markov ẩn (HMM), bởi vì chuỗi trạng thái không thể quan sát
trực tiếp, nó chỉ có thể xấp xỉ gần đúng với các chuỗi quan sát được hệ thống
đưa ra.
B = {bik} Phân bố xác xuất kí hiệu quan sát được theo
trạng thái
HMM và ứng dụng HMM trong nhận dạng tiếng nói
Trang 7
Computer Based Automatic Speech Processing
HMM được xác định bởi 5 thành phần
( S , O, Π, A, B)
1- Tập hợp các trạng thái ẩn: N: số trạng thái, St trạng thái tại thời gian t
S = {1, 2,..., N }
2- Tập hợp các kí hiệu quan sát được, M:số kí hiệu quan sát được
O = {o1 , o2 ,..., oM }
3- Phân bố trạng thái ban đầu
π = {π i }
π i = P( s0 = i) 1 ≤ i ≤ N
4- Phân bố xác xuất chuyển trạng thái
A = {aij }
aij = P ( st = j | st −1 = i ),
Computer Based Automatic Speech Processing
Cho dãy quan sát O = (o1o2...oT ) và HMM - λ( hay Φ) hãy xác định xác suất
sinh dãy từ mô hình – P(O| λ).
Để thực hiện bài toán này ta nghiên cứu thuật toán lan truyền xuôi –
Straightforward.
Để tính xác xuất gần đúng P(O| λ)của
chuỗi quan sát O = (o1o2...oT ) của
HMM-λ , cách dễ thấy nhất là lấy
tổng xác xuất của tất các các chuỗi
trạng thái:
Áp dụng giả thuyết Markov:
Áp dụng giả thuyết đầu ra độc lập:
HMM và ứng dụng HMM trong nhận dạng tiếng nói
Trang 9
Computer Based Automatic Speech Processing
HMM và ứng dụng HMM trong nhận dạng tiếng nói
Trang 10
Computer Based Automatic Speech Processing
Độ phức tạp thời gian: O(N2T)
Độ phức tạp không gian: O(NT)
Computer Based Automatic Speech Processing
HMM và ứng dụng HMM trong nhận dạng tiếng nói
Trang 13
Computer Based Automatic Speech Processing
Quy trình:
Bài toán 3: Thuật toán Baum-Welch(Learning problem)
Hiệu chỉnh HMM -λ để cực đại hoá xác suất sinh Q – P(O|λ ) (tìm mô hình
“khớp” dãy quan sát nhất.)
HMM và ứng dụng HMM trong nhận dạng tiếng nói
Trang 14
Computer Based Automatic Speech Processing
K vng tỡm c dóy chuyn trng thỏi Q theo P(O| )
Để miêu ta lại quá trình tham số HMM, đầu tiên chúng ta phải định nghĩa
t (i,j), khả năng i tại thời điểm t và j tại điểm (t + 1) đa ra dạng và chuỗi.
HMM v ng dng HMM trong nhn dng ting núi
Trang 15
Cấu trúc của một mô hình nhận dạng tiếng nói đơn giản
HMM và ứng dụng HMM trong nhận dạng tiếng nói
Trang 17
Computer Based Automatic Speech Processing
Mô hình thông dụng nhất dùng cho tiếng nói là constrained (miễn cưỡng),
cho phép một trạng thái chuyển đổi thành chính nó hoặc thành một trạng thái
khác
HMM và ứng dụng HMM trong nhận dạng tiếng nói
Trang 18
Computer Based Automatic Speech Processing
HMM và ứng dụng HMM trong nhận dạng tiếng nói
Trang 19