Nhận dạng tiếng nói tiếng việt sử dụng mạng nơ ron nhân tạo và mô hình markov ẩn - Pdf 38

-1-

-2-

BỘ GIÁO DỤC VÀ ĐÀO TẠO

Công trình ñược hoàn thành tại

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN QUỐC LONG

NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học : PGS.TS Phan Huy Khánh

Phản biện 1: PGS.TS. Võ Trung Hùng

SỬ DỤNG MẠNG NƠ-RON NHÂN TẠO
VÀ MÔ HÌNH MARKOV ẨN

Chuyên ngành: Khoa học máy tính

Phản biện 2: PGS.TS. Đoàn Văn Ban

Luận văn ñược bảo vệ trước Hội ñồng chấm Luận văn tốt nghiệp thạc
sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 11 tháng 9 năm 2011

Mã số: 60.48.01

của loài người. Đối với con người, sử dụng lời nói là một cách diễn

Vì ý nghĩa ñó và ñược sự ñồng ý hướng dẫn của Thầy PGS.TS

ñạt ñơn giản và hiệu quả nhất. Ưu ñiểm của việc giao tiếp bằng tiếng

Phan Huy Khánh, tôi ñã chọn ñề tài “Nhận dạng tiếng nói tiếng Việt

nói trước tiên là ở tốc ñộ giao tiếp, tiếng nói từ người nói ñược người

sử dụng mạng nơ-ron nhân tạo và mô hình Markov ẩn” thực hiện với

nghe hiểu ngay lập tức sau khi ñược phát ra. Từ khi ngành công

mong muốn ñóng góp một giải pháp trong lĩnh vực nhận dạng tiếng

nghiệp máy tính phát triển, nhiều công trình nghiên cứu trên tiếng nói

nói tiếng Việt.

nhằm khai thác các thông tin từ tiếng nói ñể ứng dụng trong nhiều

2. Mục ñích nghiên cứu

lĩnh vực như hệ thống trả lời ñiện thoại tự ñộng, dịch vụ tra cứu

Mục tiêu của ñề tài là nghiên cứu chung các vấn ñề về nhận dạng

thông tin du lịch bằng tiếng nói, và ứng dụng nhận dạng tiếng nói

và xử lý tiếng nói tiếng Việt vẫn còn khá mới, theo người viết luận

bài toán nhận dạng, nghiên cứu chi tiết, triển khai và ứng dụng mô

văn ñược biết, các tập thể làm nghiên cứu ñã có những kết quả gần

hình Markov ẩn trong nhận dạng tiếng nói.

ñây là Viện Công nghệ Thông tin, Trường Đại học KHTN TPHCM
và Trung tâm nghiên cứu quốc tế Thông tin ña phương tiện, truyền
thông và ứng dụng (MICA) – ĐHBK Hà nội, cộng với một số ñề tài
nghiên cứu thạc sĩ, tiến sĩ trên cả nước; nhìn chung các ñề tài tập
trung xử lý tiếng nói tiếng Việt trên tập dữ liệu nhỏ và vừa, phụ thuộc
và ñộc lập người nói, khả năng xử lý nhiễu của tín hiệu còn thấp,

Về thực tiễn, nghiên cứu và phát triển các giải thuật cho hệ thống
nhận dạng tiếng nói trên môi trường Matlab sử dụng các công cụ sẵn
có như Auditory ToolBox, HMM Toolbox, CLSU.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của ñề tài là nhận dạng tiếng nói tiếng
Việt. Phạm vi nghiên cứu của ñề tài là các phương pháp phát hiện

-5tiếng nói, rút trích ñặc trưng tiếng nói, mô hình Markov ẩn rời rạc và

-6-

Chương 3: Giới thiệu các phương pháp nhận dạng ñã ñược

Bố cục của luận văn ñược tổ chức thành 3 chương, có nội dung
như sau:
-

Chương 1: Thống kê tình hình nghiên cứu xử lý ngôn ngữ,
tìm hiểu tổng quan về lý thuyết nhận dạng, các hướng tiếp
cận nhận dạng tiếng nói, phân tích và thống kê ñặc ñiểm cơ
bản của tiếng Việt.

-

Chương 2: Trình bày chi tiết một hệ thống nhận dang tiếng
nói từ giai ñoạn phân tích rút ñặc trưng tín hiệu tiếng nói, cho
ñến ứng dụng mô hình Markov ẩn trong nhận dạng tiếng nói
bao gồm ñặc tả mô hình, các bài toán cơ bản cho ñến các giải
thuật ñể giải quyết bài toán nhận dạng.

tiếng Việt phụ thuộc người nói và ñộc lập người nói.

-7-

-8-

CHƯƠNG 1 - NGHIÊN CỨU TỔNG QUAN

Decipher của viện SRI, và các hệ thống khác của Lincoln Labs, MIT

1.1.

việc nâng cao kết quả nhận dạng tiếng nói, thông qua chương trình có
tên gọi EARS (Effective Affordable Reusable Speech-to-Text).

trong thập niên 50 với ý tưởng chính là dựa trên ngữ âm. Trong giai

Đích hướng tới của chương trình này là khả năng nhận dạng, tóm

ñoạn này, có các hệ thống ñáng chú ý như: hệ thống nhận dạng ký số

tắt và chuyển ngữ các ñoạn audio, giúp cho người ñọc hiểu nhanh nội

rời rạc của Bell-lab (1952), bộ nhận dạng 13 âm vị của trường ñại

dung của chúng thay vì phải nghe toàn bộ. Chủ yếu, các nghiên cứu

học College–Anh (1958)…

tập trung vào 3 nhóm chính:

Trong thập kỉ 1960, ñiểm ñáng ghi nhận nhất là ý tưởng của tác

-

Nhận dạng tiếng nói tự nhiên

giả người Nga, Vintsyuk khi ông ñề xuất phương pháp nhận dạng

-

Nhận dạng tiếng nói dựa trên nhiều kênh thông tin.

Model – HMM).

huấn luyện, bao gồm cả dạng âm thanh và dạng văn bản, ñể huấn

Các hệ thống ASR ra ñời trong thời gian này có thể kể ñến: hệ
thống Sphinx của trường ñại học CMU, Byblos của công ty BBN,

luyện bộ nhận dạng. Lượng dữ liệu huấn luyện càng lớn, bộ nhận
dạng càng có nhiều khả năng ñưa ra kết quả chính xác hơn.

-91.1.2.

Tình hình nghiên cứu ở Việt Nam

Tại Việt Nam, có 2 nhóm nghiên cứu chính về bài toán nhận dạng

- 10 1.2.

NHẬN DẠNG TIẾNG NÓI

1.2.1.

Tổng quan

tiếng nói [3]. Nhóm ñầu tiên thuộc Viện Công nghệ Thông tin do

Nhận dạng ñối với con người là quá trình mô phỏng lại sự nhận

tiếng nói ñể ñưa ra tập các ñặc tính và quá trình nhận dạng sau ñó sẽ

Nghiên cứu bài toán nhận dạng tiếng nói liên tục trên CSDL

so sánh tiếng nói cần ñược nhận dạng với tập các ñặc tính trên ñể

từ vựng cỡ nhỏ, trung bình, tiến tới CSDL lớn

phán ñoán.

Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố

Phân loại một số hê thống nhận dạng tiếng nói khác nhau như:

Hồ Chí Minh do Tiến sĩ Vũ Hải Quân ñứng ñầu. Các nghiên cứu của

-

Nhận dạng các từ phát âm rời rạc/liên tục.

nhóm tập trung vào bài toán truy vấn thông tin cho bản tin thời sự

-

Nhận dạng tiếng nói ñộc lập/phụ thuộc người.

tiếng Việt.

-

VnCommand: Chương trình nhận dạng lệnh, trình diễn khả
năng ñiều khiển chương trình ứng dụng trên Windows.

-

nhau thì

Chương trình nhận dạng lệnh 10 chữ số tiếng Việt liên tục

-

cho kết quả phân tích khác nhau.

qua ñiện thoại.

-

Mỗi người có một chất giọng riêng ñược thể hiện thông qua

VnDictator: chương trình ñọc chính tả.

ñộ cao của âm, ñộ to của âm, cường ñộ âm và âm sắc
-

Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị
thu…

- 23 3.2.3.

CDHMM/BW

96,62

HMM/ANN

99,25

Trong chương này, tác giả luận văn ñã tập trung phân tích và so

Nhiệm vụ của quá trình giải mã là tìm ra một ñường ñi trong

sánh các phương pháp triển khai ứng dụng nhận dạng tiếng nói, từ ñó

mạng HMM có xác suất lớn nhất. Để thực hiện công việc này, thực

ñề xuất hướng giải quyết bài toán nhận dạng sử dụng HMM/ANN.

hiện thuật toán Viterbi ñã ñược trình bày.

Phần cài ñặt hệ thống, tác giả ñã giới thiệu chi tiết về mô hình hệ

3.3.

KẾT QUẢ THỬ NGHIỆM

thống, các giai ñoạn từ thu thập ñến huấn luyện và nhận dạng sử

3.3.1.

cuối chương trình bày hệ thống nhận dạng tiếng nói ñược triển khai,
từ việc khởi tạo mô hình, huấn luyện và nhận dạng tiếng nói. Thực
hiện so sánh và ñánh giá kết quả thử nghiệm trên tập dữ liệu rời rạc
10 chữ số.
Với nền tảng kiến thức ñã ñược nghiên cứu và kết quả của luận
văn, một số ñịnh hướng phát triển của luận văn có thể thực hiện trong
thời gian ñến như:
- Nghiên cứu quá trình xử lý tiếng nói làm sao ñể có thể tách
ñược tiếng nói trong môi trường nhiễu (tiếng ồn) lớn.
- Trên cơ sở xác ñịnh mẫu tiếng nói, tiến tới mở rộng phát triển
hệ thống xác ñịnh danh tính người nói phục vụ cho ứng dụng
bảo mật.

- 26 - Mở rộng tập dữ liệu huấn luyện với số lượng người nói và số
từ nói nhiều hơn nữa tận dụng tối ña ưu ñiểm của mô hình
CDHMM.
- Phát triển hệ thống nhận dạng từ liên tục.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nhận dạng tiếng nói tiếng việt sử dụng mạng nơ ron nhân tạo và mô hình markov ẩn - Pdf 38

Tài liệu, ebook tham khảo khác

Học thêm