-1-
-2-
BỘ GIÁO DỤC VÀ ĐÀO TẠO
Công trình ñược hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN QUỐC LONG
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học : PGS.TS Phan Huy Khánh
Phản biện 1: PGS.TS. Võ Trung Hùng
SỬ DỤNG MẠNG NƠ-RON NHÂN TẠO
VÀ MÔ HÌNH MARKOV ẨN
Chuyên ngành: Khoa học máy tính
Phản biện 2: PGS.TS. Đoàn Văn Ban
Luận văn ñược bảo vệ trước Hội ñồng chấm Luận văn tốt nghiệp thạc
sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 11 tháng 9 năm 2011
Mã số: 60.48.01
của loài người. Đối với con người, sử dụng lời nói là một cách diễn
Vì ý nghĩa ñó và ñược sự ñồng ý hướng dẫn của Thầy PGS.TS
ñạt ñơn giản và hiệu quả nhất. Ưu ñiểm của việc giao tiếp bằng tiếng
Phan Huy Khánh, tôi ñã chọn ñề tài “Nhận dạng tiếng nói tiếng Việt
nói trước tiên là ở tốc ñộ giao tiếp, tiếng nói từ người nói ñược người
sử dụng mạng nơ-ron nhân tạo và mô hình Markov ẩn” thực hiện với
nghe hiểu ngay lập tức sau khi ñược phát ra. Từ khi ngành công
mong muốn ñóng góp một giải pháp trong lĩnh vực nhận dạng tiếng
nghiệp máy tính phát triển, nhiều công trình nghiên cứu trên tiếng nói
nói tiếng Việt.
nhằm khai thác các thông tin từ tiếng nói ñể ứng dụng trong nhiều
2. Mục ñích nghiên cứu
lĩnh vực như hệ thống trả lời ñiện thoại tự ñộng, dịch vụ tra cứu
Mục tiêu của ñề tài là nghiên cứu chung các vấn ñề về nhận dạng
thông tin du lịch bằng tiếng nói, và ứng dụng nhận dạng tiếng nói
và xử lý tiếng nói tiếng Việt vẫn còn khá mới, theo người viết luận
bài toán nhận dạng, nghiên cứu chi tiết, triển khai và ứng dụng mô
văn ñược biết, các tập thể làm nghiên cứu ñã có những kết quả gần
hình Markov ẩn trong nhận dạng tiếng nói.
ñây là Viện Công nghệ Thông tin, Trường Đại học KHTN TPHCM
và Trung tâm nghiên cứu quốc tế Thông tin ña phương tiện, truyền
thông và ứng dụng (MICA) – ĐHBK Hà nội, cộng với một số ñề tài
nghiên cứu thạc sĩ, tiến sĩ trên cả nước; nhìn chung các ñề tài tập
trung xử lý tiếng nói tiếng Việt trên tập dữ liệu nhỏ và vừa, phụ thuộc
và ñộc lập người nói, khả năng xử lý nhiễu của tín hiệu còn thấp,
Về thực tiễn, nghiên cứu và phát triển các giải thuật cho hệ thống
nhận dạng tiếng nói trên môi trường Matlab sử dụng các công cụ sẵn
có như Auditory ToolBox, HMM Toolbox, CLSU.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của ñề tài là nhận dạng tiếng nói tiếng
Việt. Phạm vi nghiên cứu của ñề tài là các phương pháp phát hiện
-5tiếng nói, rút trích ñặc trưng tiếng nói, mô hình Markov ẩn rời rạc và
-6-
Chương 3: Giới thiệu các phương pháp nhận dạng ñã ñược
Bố cục của luận văn ñược tổ chức thành 3 chương, có nội dung
như sau:
-
Chương 1: Thống kê tình hình nghiên cứu xử lý ngôn ngữ,
tìm hiểu tổng quan về lý thuyết nhận dạng, các hướng tiếp
cận nhận dạng tiếng nói, phân tích và thống kê ñặc ñiểm cơ
bản của tiếng Việt.
-
Chương 2: Trình bày chi tiết một hệ thống nhận dang tiếng
nói từ giai ñoạn phân tích rút ñặc trưng tín hiệu tiếng nói, cho
ñến ứng dụng mô hình Markov ẩn trong nhận dạng tiếng nói
bao gồm ñặc tả mô hình, các bài toán cơ bản cho ñến các giải
thuật ñể giải quyết bài toán nhận dạng.
tiếng Việt phụ thuộc người nói và ñộc lập người nói.
-7-
-8-
CHƯƠNG 1 - NGHIÊN CỨU TỔNG QUAN
Decipher của viện SRI, và các hệ thống khác của Lincoln Labs, MIT
1.1.
việc nâng cao kết quả nhận dạng tiếng nói, thông qua chương trình có
tên gọi EARS (Effective Affordable Reusable Speech-to-Text).
trong thập niên 50 với ý tưởng chính là dựa trên ngữ âm. Trong giai
Đích hướng tới của chương trình này là khả năng nhận dạng, tóm
ñoạn này, có các hệ thống ñáng chú ý như: hệ thống nhận dạng ký số
tắt và chuyển ngữ các ñoạn audio, giúp cho người ñọc hiểu nhanh nội
rời rạc của Bell-lab (1952), bộ nhận dạng 13 âm vị của trường ñại
dung của chúng thay vì phải nghe toàn bộ. Chủ yếu, các nghiên cứu
học College–Anh (1958)…
tập trung vào 3 nhóm chính:
Trong thập kỉ 1960, ñiểm ñáng ghi nhận nhất là ý tưởng của tác
-
Nhận dạng tiếng nói tự nhiên
giả người Nga, Vintsyuk khi ông ñề xuất phương pháp nhận dạng
-
Nhận dạng tiếng nói dựa trên nhiều kênh thông tin.
Model – HMM).
huấn luyện, bao gồm cả dạng âm thanh và dạng văn bản, ñể huấn
Các hệ thống ASR ra ñời trong thời gian này có thể kể ñến: hệ
thống Sphinx của trường ñại học CMU, Byblos của công ty BBN,
luyện bộ nhận dạng. Lượng dữ liệu huấn luyện càng lớn, bộ nhận
dạng càng có nhiều khả năng ñưa ra kết quả chính xác hơn.
-91.1.2.
Tình hình nghiên cứu ở Việt Nam
Tại Việt Nam, có 2 nhóm nghiên cứu chính về bài toán nhận dạng
- 10 1.2.
NHẬN DẠNG TIẾNG NÓI
1.2.1.
Tổng quan
tiếng nói [3]. Nhóm ñầu tiên thuộc Viện Công nghệ Thông tin do
Nhận dạng ñối với con người là quá trình mô phỏng lại sự nhận
tiếng nói ñể ñưa ra tập các ñặc tính và quá trình nhận dạng sau ñó sẽ
Nghiên cứu bài toán nhận dạng tiếng nói liên tục trên CSDL
so sánh tiếng nói cần ñược nhận dạng với tập các ñặc tính trên ñể
từ vựng cỡ nhỏ, trung bình, tiến tới CSDL lớn
phán ñoán.
Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố
Phân loại một số hê thống nhận dạng tiếng nói khác nhau như:
Hồ Chí Minh do Tiến sĩ Vũ Hải Quân ñứng ñầu. Các nghiên cứu của
-
Nhận dạng các từ phát âm rời rạc/liên tục.
nhóm tập trung vào bài toán truy vấn thông tin cho bản tin thời sự
-
Nhận dạng tiếng nói ñộc lập/phụ thuộc người.
tiếng Việt.
-
VnCommand: Chương trình nhận dạng lệnh, trình diễn khả
năng ñiều khiển chương trình ứng dụng trên Windows.
-
nhau thì
Chương trình nhận dạng lệnh 10 chữ số tiếng Việt liên tục
-
cho kết quả phân tích khác nhau.
qua ñiện thoại.
-
Mỗi người có một chất giọng riêng ñược thể hiện thông qua
VnDictator: chương trình ñọc chính tả.
ñộ cao của âm, ñộ to của âm, cường ñộ âm và âm sắc
-
Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị
thu…
- 23 3.2.3.
CDHMM/BW
96,62
HMM/ANN
99,25
Trong chương này, tác giả luận văn ñã tập trung phân tích và so
Nhiệm vụ của quá trình giải mã là tìm ra một ñường ñi trong
sánh các phương pháp triển khai ứng dụng nhận dạng tiếng nói, từ ñó
mạng HMM có xác suất lớn nhất. Để thực hiện công việc này, thực
ñề xuất hướng giải quyết bài toán nhận dạng sử dụng HMM/ANN.
hiện thuật toán Viterbi ñã ñược trình bày.
Phần cài ñặt hệ thống, tác giả ñã giới thiệu chi tiết về mô hình hệ
3.3.
KẾT QUẢ THỬ NGHIỆM
thống, các giai ñoạn từ thu thập ñến huấn luyện và nhận dạng sử
3.3.1.
cuối chương trình bày hệ thống nhận dạng tiếng nói ñược triển khai,
từ việc khởi tạo mô hình, huấn luyện và nhận dạng tiếng nói. Thực
hiện so sánh và ñánh giá kết quả thử nghiệm trên tập dữ liệu rời rạc
10 chữ số.
Với nền tảng kiến thức ñã ñược nghiên cứu và kết quả của luận
văn, một số ñịnh hướng phát triển của luận văn có thể thực hiện trong
thời gian ñến như:
- Nghiên cứu quá trình xử lý tiếng nói làm sao ñể có thể tách
ñược tiếng nói trong môi trường nhiễu (tiếng ồn) lớn.
- Trên cơ sở xác ñịnh mẫu tiếng nói, tiến tới mở rộng phát triển
hệ thống xác ñịnh danh tính người nói phục vụ cho ứng dụng
bảo mật.
- 26 - Mở rộng tập dữ liệu huấn luyện với số lượng người nói và số
từ nói nhiều hơn nữa tận dụng tối ña ưu ñiểm của mô hình
CDHMM.
- Phát triển hệ thống nhận dạng từ liên tục.