Nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh - Pdf 37

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN PHƢƠNG NAM

NHẬN DẠNG THỰC THỂ TÊN CHO NGÔN NGỮ
NÓI TIẾNG VIỆT VÀ ỨNG DỤNG TRONG TƢƠNG
TÁC VỚI ĐIỆN THOẠI THÔNG MINH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI – 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN PHƢƠNG NAM

NHẬN DẠNG THỰC THỂ TÊN CHO NGÔN NGỮ
NÓI TIẾNG VIỆT VÀ ỨNG DỤNG TRONG TƢƠNG
TÁC VỚI ĐIỆN THOẠI THÔNG MINH

Ngành:

Công nghệ thông tin

Chuyên ngành:

Hệ thống thông tin


Mục lục
Lời cam đoan ....................................................................................................................i
Mục lục ........................................................................................................................... ii
Bảng từ viết tắt ................................................................................................................v
Danh sách bảng biểu .......................................................................................................vi
Danh sách hình vẽ......................................................................................................... vii
Lời cảm ơn ................................................................................................................... viii
MỞ ĐẦU ....................................................................... Error! Bookmark not defined.
Chương 1. Nhận dạng tiếng nói và nhận dạng thực thể tên cho ngôn ngữ nói ..... Error!
Bookmark not defined.
1.1. Sự phát triển và ứng dụng của công nghệ nhận dạng tiếng nói.................. Error!
Bookmark not defined.
1.2. Nhận dạng thực thể tên ....................................... Error! Bookmark not defined.
1.2.1. Tại sao cần nhận dạng thực thể tên?............ Error! Bookmark not defined.
1.2.2. Định nghĩa thực thể tên và nhận dạng thực thể tênError! Bookmark not
defined.
1.3. Bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt và những khó khăn
thách thức .................................................................. Error! Bookmark not defined.
1.3.1. Bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt ............ Error!
Bookmark not defined.
1.3.2. Những khó khăn và thách thức đặc thù của bài toán và dữ liệu.......... Error!
Bookmark not defined.
1.4. Ứng dụng của nhận dạng thực thể tên ................ Error! Bookmark not defined.
1.5. Ý nghĩa của bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt ứng
dụng trong tương tác với điện thoại thông minh ....... Error! Bookmark not defined.
Chương 2. Các cách tiếp cận và phương pháp nhận dạng thực thể tên ................. Error!
Bookmark not defined.
2.1. Các hướng tiếp cận và các kỹ thuật chính áp dụng trong nhận dạng thực thể tên
................................................................................... Error! Bookmark not defined.
2.2. Cơ sở lý thuyết phương pháp học máy Maximum EntropyError!

2.6. Một số nghiên cứu liên quan với bài toán nhận dạng thực thể tên cho ngôn ngữ
nói tiếng Việt ............................................................. Error! Bookmark not defined.
2.6.1. Các nghiên cứu liên quan ............................ Error! Bookmark not defined.
2.6.2. Tìm hiểu Google Now – một phần mềm có xử lý cho ngôn ngữ nói tiếng
Việt trên các điện thoại thông minh ...................... Error! Bookmark not defined.
Chương 3. Nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt sử dụng phương pháp
học máy.......................................................................... Error! Bookmark not defined.
3.1. Hệ thống trợ lý ảo cho người Việt trên điện thoại thông minhError! Bookmark
not defined.
3.2. Nhận dạng thực thể tên cho ngôn ngữ nói tiếng ViệtError!
defined.

Bookmark

not

3.2.1. Mô hình hóa bài toán nhận dạng thực thể tên ngôn ngữ nói tiếng Việt ứng
dụng trong tương tác với điện thoại thông minh ... Error! Bookmark not defined.
3.2.2. Xây dựng tập dữ liệu huấn luyện ................ Error! Bookmark not defined.
3.3. Xây dựng mô hình dựa trên phương pháp tiếp cận học máyError!
not defined.

Bookmark

3.3.1. Xây dựng mô hình cực đại hóa Entropy...... Error! Bookmark not defined.
3.3.2. Lựa chọn thuộc tính ..................................... Error! Bookmark not defined.
3.4. Huấn luyện mô hình ........................................... Error! Bookmark not defined.


iv

Chương 5. Kết luận........................................................ Error! Bookmark not defined.
5.1. Những vấn đề giải quyết được trong luận văn nàyError!
defined.

Bookmark

not

5.2. Công việc nghiên cứu trong tương lai ................ Error! Bookmark not defined.
Danh mục công trình khoa học của tác giả liên quan đến luận vănError!
not defined.

Bookmark

Tài liệu tham khảo ...........................................................................................................1


v

Bảng từ viết tắt
Từ hoặc cụm từ
Điện thoại thông minh
Thiết bị thông minh
Phần mềm trợ lý ảo cho người Việt
Cực đại hóa Entropy
Trường điều kiện ngẫu nhiên

Từ viết tắt
ĐTTM
TBTM

not defined.
Bảng 3.7: Các mẫu ngữ cảnh khi sử dụng biểu thức chính quyError! Bookmark not
defined.


vii
Bảng 3.8: Các mẫu ngữ cảnh khi sử dụng từ điển......... Error! Bookmark not defined.
Bảng 3.9: Ví dụ các mẫu ngữ cảnh khi tìm kiếm trong từ điển cho tên đường phố
....................................................................................... Error! Bookmark not defined.
Bảng 3.10: Ví dụ các mẫu ngữ cảnh khi tìm kiếm trong từ điển cho kiểu ngày ... Error!
Bookmark not defined.
Bảng 3.11: Các thuộc tính sử dụng kết hợp giữa biểu thức chính quy và từ điển Error!
Bookmark not defined.
Bảng 3.12: Ví dụ các mẫu ngữ cảnh khi kết hợp sử dụng cả biểu thức chính quy và từ
điển ................................................................................ Error! Bookmark not defined.
Bảng 3.13: Danh sách các mẫu biểu thức chính quy..... Error! Bookmark not defined.
Bảng 3.14: Các tham số trong quá trình huấn luyện bằng MaxEntError!
not defined.

Bookmark

Bảng 3.15: Các tham số trong quá trình huấn luyện bằng CRFsError! Bookmark not
defined.
Bảng 4.1: Đánh giá theo Chunk của fold cho kết quả tốt nhất bằng MaxEnt ....... Error!
Bookmark not defined.
Bảng 4.2: Kết quả đánh giá chéo của cả 4 lần thực nghiệm bằng MaxEnt ........... Error!
Bookmark not defined.
Bảng 4.3: Đánh giá theo Chunk của fold cho kết quả tốt nhất CRFsError! Bookmark
not defined.
Bảng 4.4: Kết quả đánh giá chéo của cả 4 lần thực nghiệm bằng CRFs ............... Error!

Hình 4.2: Kết quả trung bình của độ chính xác, độ hồi tưởng, độ đo F1 của 4 lần kiểm
tra đánh giá chéo các kết quả thực nghiệm dùng CRFs Error! Bookmark not defined.
Hình 4.3: Tính năng hỏi ngày âm lịch ........................... Error! Bookmark not defined.
Hình 4.4: Tính năng tìm đường đi từ vị trí A tới vị trí B trên bản đồError! Bookmark
not defined.
Hình 4.5: Kết quả trả về sau khi mô hình nhận dạng được hai địa điểm cần tìm trên
bản đồ ............................................................................ Error! Bookmark not defined.
Hình 4.6: Tính năng thiết lập lịch họp ........................... Error! Bookmark not defined.
Hình 4.7: Kết quả thiết lập lịch theo đúng đối số mà người dùng yêu cầu ........... Error!
Bookmark not defined.
Hình 4.8: Tính năng đặt chuông báo thức ..................... Error! Bookmark not defined.
Hình 4.9: Kết quả đặt chuông báo thức ......................... Error! Bookmark not defined.


ix

Lời cảm ơn
Đầu tiên, tôi muốn gửi lời cảm ơn sâu sắc nhất đến cán bộ hướng dẫn khoa học,
thầy giáo, TS. Phan Xuân Hiếu, người đã đưa tôi đến lĩnh vực nghiên cứu này và đã
trực tiếp giảng dạy trong suốt quá trình tôi học tập, nghiên cứu tại trường Đại học
Công Nghệ - Đại học Quốc Gia Hà Nội. Thầy luôn truyền cho tôi nguồn cảm hứng,
nhiệt huyết nghiên cứu khoa học và hết sức tận tình hướng dẫn tôi, cho tôi những lời
khuyên quý báu. Mặc dù thầy rất bận với công việc giảng dạy và nghiên cứu nhưng
thầy đã dành cho tôi nhiều thời gian thảo luận các ý tưởng nghiên cứu, chỉ dẫn cách
nghiên cứu, giải đáp thắc mắc và động viên tôi vượt qua những vấn đề khó khăn cũng
như hướng tôi tới nhiều vấn đề có giá trị khác khiến tôi muốn tìm hiểu và nghiên cứu
trong tương lai.
Tôi xin bày tỏ lời cảm ơn chân thành tới các thầy cô giáo đã giảng dạy tôi trong
suốt thời gian tôi học tại trường như PGS, TS. Hà Quang Thụy, PGS, TS. Trịnh Nhật
Tiến, PGS, TS. Đỗ Trung Tuấn, PGS, TS. Nguyễn Ngọc Hóa, TS. Bùi Quang Hưng,

1. PGS. TS. Nguyễn Hà Nam, PGS. TS. Nguyễn Trí Thành, PGS. TS. Hà Quang
Thụy (2013), Giáo trình khai phá dữ liệu, Nhà xuất bản Đại học Quốc Gia Hà Nội
tr. 249-286.
Tài liệu tiếng Anh:
2. Angelov, K., Bringert, B., Ranta, A. (2014), “Speech–enabled hybrid multilingual
translation for mobile devices”, In EACL.
3. Berger, A., Pietra, S.A.D., Pietra, V.J.D. (1996), A maximum entropy approach to
natural language processing, Computational Linguistics, 22(1), 39–71.
4. Borthwick, A. (1999), A maximum entropy approach to named entity recognition.
PhD dissertation, Dept. of CS, New York University.
5. Chieu, H.L., Ng, H.T. (2003), “Named entity recognition with a maximum entropy
approach”, In The 7th CoNLL, pp.160–163.
6. Chinchor, N., Marsh, E. (1998), MUC–7 information extraction task definition
(version 5.1), In The 7th Message Understanding Conference (MUC).
7. Florian, R., Ittycheriah, A., Jing, H., Zhang, T. (2003), “Named entity recognition
through classifier combination”, In CoNLL, pp.168–171.
8. Graves, A., Jaitly, N. (2014), “Towards end–to–end speech recognition with
recurrent neural networks”, In ICML.
9. Grishman, R., Sundheim, B. (1995), Message understanding conference 6: a brief
history, In The 6th Message Understanding Conference (MUC–6).
10. Hatmi, M., Jacquin, C., Morin, E., Meignier, S. (2013), “Named entity recognition
in speech transcripts following an extended taxonomy”, In The First Workshop on
Speech, Language, and Audio in Multimedia (SLAM).
11. Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., Prenger, R.,
Satheesh, S., Sengupta, S., Coates, A., Ng, A.Y. (2014), Deep Speech: scaling up
end–
to–end
speech
recognition,
In

20. Ratnaparkhi, A. (1996), “A maximum entropy model for part–of–speech tagging”,
In The Empirical Methods in Natural Language Processing Conference.
21. Tur, G., Mori, R.D. (2011), Spoken language understanding: systems for extracting
semantic information from speech, Wiley.
22. Andrew McCallum, Maximum Entropy Markov Models for Extraction Information
and Segmentation.
23. William W.Cohen, Adrew McCallum (2003), Slides “Information Extraction from
the World Wide Web”, KDD.
24. A.McCallum, D.Freitag, and F. Pereira (2000), Maximum entropy markov models
for information extraction and segmentation, In Proc Iternational Conference on
Mechine Learning, pp 591-598
25. Grishman, R., Morgan Kaufmann (1995), The NYU system for MUC-6 or where's
the syntax? In Proceedings of the Sixth Message Understanding Conference.
26. Lawrence R. Rabiner (1989), A tutorial on hidden markov models and selected
applications in speech recognition, In Proc the IEEE, 77(2):257-286.
27. Darroch, J., and Ratcliff, D. (1972), Generalized iterative scaling for log-linear
models, The Annals of Mathematical Statistics 43, 1470-1480.




Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status