Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
116
nhận dạng từ có thanh điệu khác nhau
trong tiếng việt sử dụng mô hình markov ẩn
Hoàng Hữu Việt
(a)Tóm tắt. Trên cơ sở nghiên cứu mô hình Markov ẩn (HMM) và ngữ âm tiếng Việt,
bài báo này đa ra một số đề xuất nhận dạng từ có thanh điệu khác nhau trong tiếng
Việt và một số kết quả thử nghiệm với hệ thống nhận dạng thanh điệu tiếng Việt. Các
thử nghiệm giới hạn là từ tiếng Việt giống nhau về âm đầu, vần và chỉ khác nhau về
thanh điệu, bộ từ vựng nhỏ, phụ thuộc ngời nói. Kết quả nhận dạng tốt nhất với độ
chính xác là 96.67% ở mức âm tiết và 82.50% ở mức câu.
1. Giới thiệu
Nhận dạng tiếng nói bằng máy tính cho phép con ngời giao tiếp với máy tính
bằng tiếng nói. Hiện nay trên thế giới đã có những hệ thống nhận dạng tiếng nói cỡ
lớn, độ chính xác tơng đối cao nhng chủ yếu đợc phát triển trên những cơ sở dữ
liệu tiếng nói khá hoàn chỉnh, chủ yếu là tiếng Anh. ở Việt Nam, việc nghiên cứu và
phát triển các hệ thống nhận dạng tiếng nói mới ở bớc đầu với rất ít kết quả đợc
công bố.
Để xây dựng đợc các hệ thống nhận dạng tiếng nói thành công của mỗi một
dân tộc, ngoài những nguyên tắc nhận dạng chung, đòi hỏi ngời nghiên cứu phải
Âm đầu
Âm đệm Âm chính Âm cuối
Âm đầu luôn luôn là một phụ âm hoặc có thể thiếu trong một số âm tiết. Vần
đợc phân thành âm đệm, âm chính và âm cuối. Âm đệm và âm cuối có thể thiếu
trong một số âm tiết. Âm chính là một nguyên âm đơn hoặc một nguyên âm đôi. Âm
cuối là một phụ âm hoặc bán nguyên âm. Tiếng Việt có 22 âm đầu, 155 vần, 1 âm
đệm, 16 âm chính và 8 âm cuối. Tổng số âm tiết phát âm khác nhau khoảng 18598
âm tiết nhng thực tế chỉ có 7000 âm tiết khác nhau đợc sử dụng [1].
Thanh điệu là một âm vị siêu đoạn tính, nó đợc biểu hiện trong toàn bộ âm
tiết bao gồm cả âm đầu, âm đệm, âm chính và âm cuối. Thanh điệu tiếng Việt có 6
thanh là thanh ngang (không dấu), thanh sắc, thanh ngã, thanh hỏi, thanh huyền
và thanh nặng.
Theo các nhà ngữ âm học, ba tiêu chí khu biệt cho 6 âm vị thanh điệu đợc
biểu diễn theo sơ đồ hình cây sau:
Trong hình 2.1 tính từ mỗi điểm phân nhánh, nhánh trái biểu thị vế đầu,
nhánh phải biểu thị vế sau của thế đối lập.
Âm vực là độ cao của thanh điệu. Âm điệu là sự biến thiên của độ cao theo thời
gian.
.
Tiêu chí khu biệt cho 6 âm vị th
anh điệu.
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
118
- Thanh ngã xuất phát gần ngang với độ cao xuất phát của thanh huyền.
Thanh này bắt đầu ở âm vực thấp nhng kết thúc ở âm vực cao. Đờng nét âm điệu
không bằng phẳng, có hai biến thể:
+ Đờng nét bắt đầu cao hơn thanh huyền một chút đến giữa âm tiết đi
xuống đột ngột, dốc đứng trong một thời gian ngắn, sau đó vút lên ngang với độ
cao ban đầu và đi thêm 1 quãng nữa.
+ Đờng nét bắt đầu và kết thúc tơng tự nh trên nhng bị gián đoạn ở
giữa.
- Thanh hỏi bắt đầu ở mức cao của độ xuất phát thanh huyền. Đờng nét âm
điệu thấp dần từ khi bắt đầu, đến quãng giữa thì chuyển sang một nét đi lên cân đối
với nét đi xuống ban đầu, và kết thúc ngang bằng với độ cao xuất phát.
- Thanh sắc có các biến thể:
+ Trong các âm tiết có âm cuối không phải là âm tắc, vô thanh, đờng nét
âm điệu bắt đầu xấp xỉ với thanh không dấu, với một âm điệu bằng ngang sau
đó âm điệu đi lên, kết thúc cao hơn thanh không dấu.
+ Trong các âm tiết có âm cuối là âm tắc, vô thanh. Nếu âm chính là
nguyên âm dài thì phần bằng ngang ngắn hơn nhiều hoặc có khi mất hẳn. Độ
cao xuất phát và độ cao kết thúc về cơ bản nh trờng hợp trên. Nếu âm chính
sự biến thiên theo thời gian.
Tín hiệu tiếng nói và sự biến thiên của tần số cơ bản của các âm tiết trong phát
ngôn "ma, mà, má, mạ, mả, mã" đợc trích chọn trong khoảng thời gian 10ms sử
dụng phần mềm Praat [8] đợc chỉ ra trong hình 2.2. Hình 2.2. Tín hiệu tiếng nói và sự biến thiên của tần số cơ bản của các âm tiết.
2.2. Nhận dạng từ có thanh điệu khác nhau trong tiếng Việt
Xét việc phát âm các từ ma, má, mà, mả, mã, mạ, nếu bỏ đi phần
thanh điệu thì đợc phát âm là /ma/, là những âm tiết đồng âm. Trong một câu nói,
để xác định chính xác âm tiết nào đợc phát âm cần phải sử dụng các thông tin về
ngữ cảnh, nghĩa là các âm tiết đợc phát âm trớc và sau nó, điều này đợc giải
quyết bằng mô hình ngôn ngữ. Tuy nhiên, nếu nhận dạng chính xác đợc thanh
điệu, thì có thể xác định đợc âm tiết phát âm thay vì phải sử dụng mô hình ngôn
ngữ.
Căn cứ vào cấu tạo âm tiết tiếng Việt, vào tính chất thanh điệu đợc xác định
bởi tần số âm cơ bản F
o
và vào tập tham số MFCC (Mel - Frequency Cepstral
Coefficients) không chứa tần số âm cơ bản F
0
chúng tôi tiến hành thử nghiệm tập
tham số MFCC kết hợp với tần số cơ bản F
0
để xem xét sự chính xác của hệ thống
nhận dạng âm tiết có các thanh điệu khác nhau trong tiếng Việt.
Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
Hình 3.2. Mô hình Markov ẩn 3 trạng thái sử dụng nhận dạng.
Ma trận xác suất chuyển trạng thái của mỗi mô hình HMM đợc khởi tạo nh
sau:
0.3333 0.3333 0.3333
0.0000 0.5000 0.5000
0.0000 0.0000 1.0000
Tập các phân bố xác suất cho trạng thái khởi đầu của mỗi mô hình HMM đợc
chọn là: (0.3333, 0.3333, 0.3333).
3.2. Thử nghiệm 1
a. Cơ sở dữ liệu: Cho tới nay cha có cơ sở dữ liệu tiếng Việt dùng chung nào
đợc xây dựng và công bố. Đây là một trở ngại trong việc nghiên cứu và đánh giá độ
chính xác của tập tham số nhận dạng tiếng Việt. Cơ sở dữ liệu tiếng nói sử dụng
trong thực nghiệm do tác giả tự thu âm giọng nói của chính mình.
Cơ sở dữ liệu đợc chia thành hai tập:
- Tập huấn luyện: Gồm 100 câu, mỗi câu có 6 âm tiết "na, ná, nà, nạ, nã, nả"
đợc đọc theo thứ tự ngẫu nhiên.
- Tập nhận dạng: Gồm 59 câu không thuộc tập các câu huấn luyện, mỗi câu có
6 âm tiết "na, ná, nà, nạ, nã, nả" đợc đọc theo thứ tự ngẫu nhiên.
Tất cả các âm tiết của tập huấn luyện và tập nhận dạng đợc phân đoạn và
gán nhãn theo từng âm tiết của các câu đọc vào dựa trên 1 thủ tục tự động. Tiêu chí
phân đoạn là năng lợng của mỗi âm tiết, dựa trên thuật toán phát hiện điểm kết
thúc âm tiết [3]. Độ dài của các âm tiết là khác nhau (kể cả với một âm tiết đợc
phát âm những lần khác nhau), phụ thuộc vào tốc độ phát âm của từng âm tiết.
b. Tập tham số: Tín hiệu của mỗi âm tiết đợc phân tích thành các khung với
mỗi khung có chiều dài 256 mẫu, các khung chồng lên nhau 128 mẫu. Số khung của
mỗi âm tiết phụ thuộc vào độ dài tín hiệu của âm tiết. Bốn tập tham số cho mỗi
khung tín hiệu đợc thử nghiệm với bộ nhận dạng gồm [4]:
- (MFCC + E): Tập tham số gồm 12 hệ số MFCC (Mel - Frequency Cepstral
Coefficients), 1 hệ số năng lợng. Véc tơ tham số cho mỗi khung tín hiệu gồm 13 hệ
các thanh điệu cho tập tham số có độ chính xác cao nhất (MFCC + E + F
0
) + D + A
của thử nghiệm 1.
Bảng 4.1a. Kết quả nhận dạng của thử nghiệm 1.
Độ chính xác
Tập tham số
Âm tiết Câu
(MFCC + E) 75.42% 15.25%
(MFCC + E) + D 83.62% 28.81%
(MFCC + E) + D + A 84.75% 35.59%
(MFCC + E + F
0
) + D + A 92.66% 62.71%
Bảng 4.1b. Kết quả nhận dạng nhầm các thanh điệu của thử nghiệm 1.
Thanh bị nhận dạng nhầm
Thanh lỗi
Thanh
không
Thanh
sắc
Thanh
huyền
Thanh
nặng
Thanh
ngã
Thanh
(MFCC + E) 80.00% 25.00%
(MFCC + E) + D 92.50% 67.50%
(MFCC + E) + D + A 94.58% 72.50%
(MFCC + E + F
0
) + D + A 96.67% 82.50%
Bảng 4.2b. Kết quả nhận dạng nhầm các thanh điệu của thử nghiệm 2.
Thanh bị nhận dạng nhầm
Thanh lỗi
Thanh
không
Thanh
sắc
Thanh
huyền
Thanh
nặng
Thanh
ngã
Thanh
hỏi
Tổng
cộng
Thanh không
0 0 3 0 0 0 3
Thanh sắc 0 0 0 0 0 0 0
Thanh huyền
124
tiếp theo là cần phải xây dựng và thử nghiệm trên các cơ sở dữ liệu lớn, có nhiều
ngời nói và cần xác định mô hình phiên âm của các âm tiết hay âm vị phù hợp với
hệ thống nhận dạng để tăng độ chính xác nhận dạng.
Tài liệu tham khảo
[1] Đặng Ngọc Đức, Lơng Chi Mai, Nhận dạng từ có thanh điệu khác nhau trong
tiếng Việt, Tạp chí Tin học và Điều khiển học, T.19, S.2, pp.131-138, 2003.
[2] Đoàn Thiện Thuật, Ngữ âm tiếng Việt, Nhà xuất bản Đại học quốc gia Hà Nội,
1999.
[3] Lawrence R. Rabiner and Ronald W. Schafer, Digital Processing of Speech
Signals, Prentice Hall, 1978.
[4] Lawrence R. Rabiner and Biing-Hwang Juang, Fundamentals of Speech
Recognition, Prentice Hall, 1993.
[5] Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition, IEEE, Vol.77, No.2, pp. 257 - 285, February,
1989.
[6] Barbara Resch, Signal Processing and Speech Communication Laboratory,
http://www.igi.tugraz.at/lehre/CI.
[7] VOICEBOX: Speech Processing Toolbox for MATLAB,
http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html.
[8] Paul Boersma and David Weenink, Institute of Phonetic Sciences (IFA) in the
University of Amsterdam, www.praat.org.
SUMMARY
recognition of Vietnamese speech words with
different tones by using Hidden Markov Model
Based on the study of the hidden Markov model (HMM) and Vietnamese