Nhận dạng tiếng nói tiếng việt - Tìm hiểu và ứng dụng - pdf 16

Download miễn phí Luận văn Nhận dạng tiếng nói tiếng việt - Tìm hiểu và ứng dụng



MỤC LỤC
DANH SÁCH HÌNH VẼ.4
MỞ ĐẦU .6
Chương 1 TỔNG QUAN .8
1.1 Nhận dạng.8
1.2 Nhận dạng tiếng nói .9
1.2.1 Xửlý âm thanh.9
1.2.2 Phân loại nhận dạng tiếng nói .10
1.2.2.1 Nhận dạng từliên tục và nhận dạng từcách biệt .10
1.2.2.2 Nhận dạng phụthuộc người nói và độc lập người nói .11
1.2.3 Hệthống nhận dạng tiếng nói tự động.13
1.2.4 Lý thuyết nhận dạng tiếng nói .14
1.2.4.1 Rút trích vector đặc trưng.15
1.2.4.2 Phân lớp.17
Chương 2 XỬLÝ TIẾNG NÓI RÚT TRÍCH VECTOR ĐẶC TRƯNG .21
2.1 Xửlý tiếng nói.21
2.1.1 Lấy mẫu tín hiệu .21
2.1.2 Bộlọc tín hiệu .22
2.1.3 Dò tìm điểm cuối (end-point detection).24
2.2 Rút trích đặc trưng.26
2.2.1 Các bước rút trích đặc trưng .27
2.2.1.1 Làm rõ tín hiệu .27
2.2.1.2 Phân đoạn thành các khung .27
2.2.1.3 Lấy cửa sổ.28
2.2.2 Các dạng đặc trưng tiếng nói .33
2.2.2.1 Biến đổi tín hiệu sang miền tần số.33
2.2.2.2 Đặc trưng năng lượng.35
2.2.2.3 Đặc trưng MFCC.36
2.2.2.4 Đặc trưng LPC .39
2.2.2.5 Đặc trưng tần sốcơbản.42
Chương 3 MÔ HÌNH MARKOV ẨN .49
3.1 Mô hình Markov ẩn .49
3.2 Ứng dụng Mô hình Markov vào nhận dạng tiếng nói .51
3.2.1 Thuật toán tiến .52
3.2.2 Thuật toán lùi .53
3.2.3 Phương pháp tìm chuỗi trạng thái tối ưu .54
3.2.4 Thuật toán Viterbi .55
3.2.5 Ước lượng Baum-Welch.58
3.3 Cấu trúc ngôn ngữvà mô hình nhận dạng theo âm vị.60
3.3.1 Cấu trúc ngôn ngữ.60
3.3.2 Mô hình âm vị.63
3.3.3 Tha âm vị(allophones) .63
3.3.4 Nhận xét .65
Chương 4 HMM TOOLKIT .67
4.1 Cấu trúc tập tin trong HTK .69
4.1.1 Cấu trúc tập tin vector đặc trưng HTK .69
4.1.2 Cấu trúc tập tin mô hình HMM .71
4.1.3 Cấu trúc tập tin đánh nhãn dữliệu .75
4.1.4 Cấu trúc tập tin văn phạm .78
4.2 Nhận dạng nguyên từ.81
4.3 Nhận dạng theo mô hình âm vị.85
Chương 5 ỨNG DỤNG: ĐIỀU KHIỂN XE TỰ ĐỘNG BẰNG TIẾNG NÓI .88
5.1 Thửnghiệm nhận dạng tiếng nói Tiếng Việt .89
5.1.1 Nhận dạng tĩnh (offline).89
5.1.1.1 Dùng vector đặc trưng dạng LPCEPSTRA_E_D.89
5.1.1.2 Dùng vector đặc trưng dạng LPCEPSTRA_E_D_A .89
5.1.1.3 Dùng vector đặc trưng dạng MFCC_0_D .89
5.1.1.4 Dùng vector đặc trưng dạng MFCC_0_D_A .90
5.1.1.5 Dùng vector đặc trưng dạng MFCC_0_D_A_Z.90
5.1.2 Nhận dạng thời gian thực (online) .91
5.1.2.1 Nhận dạng theo mô hình âm vịdùng MFCC_0_D_A_Z.91
5.1.2.2 Nhận dạng nguyên từdùng MFCC_0_D_A_Z .92
5.2 Ứng dụng nhận dạng tiếng nói .93
KẾT LUẬN .96
TÀI LIỆU THAM KHẢO .98
Phụlục MỘT SỐCÔNG CỤTRONG HTK .99

MỞ ĐẦU
Tiếng nói là phương tiện giao tiếp cơ bản nhất của loài người, nó hình thành
và phát triển song song với quá trình tiến hóa của loài người. Đối với con người, sử
dụng lời nói là một cách diễn đạt đơn giản và hiệu quả nhất. Ưu điểm của việc giao
tiếp bằng tiếng nói trước tiên là ở tốc độ giao tiếp, tiếng nói từ người nói được
người nghe hiểu ngay lập tức sau khi được phát ra. Bên cạnh đó, tiếng nói là cách
giao tiếp được sử dụng rộng rãi nhất – bất cứ ai (dĩ nhiên là trừ những người khuyết
tật) cũng có thể nói được.
Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thay
thế các lao động tay chân. Tuy nhiên để điều khiển máy móc, con người phải làm
khá nhiều thao tác tốn nhiều thời gian và cần được đào tạo. Điều này gây trở
ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật.
Trong khi đó, nếu điều khiển máy móc thiết bị bằng tiếng nói sẽ dễ dàng hơn. Nhu
cầu điều khiển máy móc thiết bị bằng tiếng nói càng bức thiết hơn đối với các thiết
bị cầm tay, như: điện thoại di động, máy Palm/Pocket PC,…
Để cho máy tính có thể nghe được nhiều người đã vật lộn với tín hiệu âm
thanh trong hơn nửa thế kỷ qua trong lĩnh vực nhận dạng tiếng nói. Quá trình này
được đánh dấu bằng các kết quả nghiên cứu đặc sắc trong lĩnh vực phân tích và xử
lý tiếng nói, các ứng dụng thực tế khá hữu ích. Nhưng dù sao, khả năng của máy
vẫn vẫn còn trong khoảng giới hạn, còn cần phát triển hơn nữa để có thể thật sự đáp
ứng nhu cầu thực sự của cuộc sống. Mặt khác, nhận dạng tiếng nói chỉ đang được
phát triển trên các thứ tiếng khác, nhưng chưa được phát triển và ứng dụng mạnh ở
nước ta. Do tình hình phát triển ở Việt Nam, để cho công cuộc nhận dạng tiếng nói
thật sự được quan tâm, đầu tư và tạo thành các nhóm các phòng thí nghiệm chuyên
nghiên cứu về nhận dạng tiếng nói thì thật sự gặp khó khăn.
Luận văn này xây dựng với mong muốn góp phần thúc đẩy quá trình trên,
bằng cách kế thừa các đàn anh đàn chị đi trước, và thông qua việc tìm hiểu các
thành tựu nước ngoài em mong rằng mình sẽ góp phần tạo nên những bước phát
triển trong lĩnh vực nhận dạng tiếng nói ở nước ta. Qua quá trình nghiên cứu, em
nhận thấy rằng nếu như chúng ta có sự phổ biến kiến thức rộng rãi, không chỉ cho
những người chuyên về lĩnh vực công nghệ thông tin, mà còn cho những người
không chuyên thì chúng ta hoàn toàn có thể thúc đẩy, phát triển và gặt hái nhiều
thành công hơn. Vì lúc đó vấn đề không chỉ được nghiên cứu, phát triển bởi một số
người mà là của nhiều người. Những lĩnh vực nghiên cứu khác cưng có thể làm
tương tự.
Vì lý do trên mà em không chỉ tìm tòi nghiên cứu lý thuyết, mà còn cố gắng
phát triển thành ứng dụng.


/file/d/0Bz7Zv9 ... sp=sharing
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status