DSpace at VNU: Phân loại câu tiếng Việt và ứng dụng trong vấn đề hỏi đáp tự động - Pdf 47

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THƯA

PHÂN LOẠI CÂU TIẾNG VIỆT
VÀ ỨNG DỤNG TRONG VẤN ĐỀ HỎI ĐÁP

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THƯA

PHÂN LOẠI CÂU TIẾNG VIỆT
VÀ ỨNG DỤNG TRONG VẤN ĐỀ HỎI ĐÁP

Ngành

:

Công nghệ thông tin

Chuyên ngành

:



Nguyễn Thị Thưa


LỜI CẢM ƠN

Đầu tiên, tôi xin gửi lời cảm ơn chân thành đến thầy Phan Xuân Hiếu. Thầy
đã truyền cảm hứng học tập, nhiệt huyết nghiên cứu khoa học và đã dẫn lối tôi
đến với lĩnh vực nghiên cứu này. Thầy cũng là người đã tận tình giúp đỡ tôi vượt
qua những thử thách trong quá trình nghiên cứu luận văn.
Tôi xin gửi lời cảm ơn chân thành đến thầy Hà Quang Thụy. Càng tiếp xúc
với thầy, tôi càng cảm thấy yêu quý và trân trọng thời gian được làm sinh viên
nhiều hơn.
Tôi xin bày tỏ lòng biết ơn chân thành tới các thầy, cô giáo đã giảng dạy tôi
trong suốt 2 năm tại Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội. Mỗi
thầy cô đều cho tôi những bài giảng thật hay và bổ ích.
Tôi xin cảm ơn các anh chị trong Phòng Đào tạo, Phòng Công tác sinh viên,
Phòng Tài vụ và các anh chị khác trong trường. Nhờ có sự làm việc tận tụy của
các anh chị, chúng tôi mới có một ngôi trường đứng nhất nhì cả nước để học tập
và rèn luyện.
Tôi xin bày tỏ sự cảm ơn sâu sắc đến các thành viên trong nhóm MDNTeam. Thời gian chúng tôi ở bên nhau để chia sẻ những khó khăn khi tạo ra ứng
dụng trợ lý ảo cho người Việt - VAV. Đặc biệt là 2 em Nguyễn Văn Hợp và Vũ
Thị Hải Yến đã nhiệt tình giúp đỡ tôi trong quá trình thực nghiệm, tôi sẽ không
bao giờ quên.
Tôi xin gửi lời cảm ơn chân thành các anh chị đồng nghiệp tại Cục Thông
tin khoa học và công nghệ quốc gia – Bộ Khoa học và Công nghệ đã giúp hoàn
thành công việc tại cơ quan để tôi có thể yên tâm học tập.
Tôi cũng xin cảm ơn các anh chị trong Phòng Thí nghiệm công nghệ tri
thức đã góp ý chi tiết ở mỗi buổi seminar hàng tuần để tôi hoàn thiện tốt luận văn
của mình.

3.4.2. Mô hình Naïve Bayes ....................................................................... 33
3.4.4. So sánh MaxEnt, Naïve Bayes và SVMs ............................................ 36
KẾT LUẬN ............................................................................................................................. 38
TÀI LIỆU THAM KHẢO...................................................................................................... 39
PHỤ LỤC ................................................................................................................................ 41

3


DANH SÁCH HÌNH VẼ
Hình 0.1 Giao diện phần mềm ứng dụng VAV – Trợ lý ảo cho người Việt
Hình 0.2 Nguồn dữ liệu cho Big Data
Hình 0.3 Giao diện phần mềm VOS
Hình 1.1 Mô hình đơn giản bài toán phân loại câu tiếng Việt
Hình 1.2 Ví dụ minh hoạ bài toán phân loại câu tiếng Việt
Hình 1.3 Mô hình tổng thể bài toán phân loại câu tiếng Việt
Hình 2.1 Mô hình SVMs
Hình 3.1 Phương pháp Cross Validation Test
Hình 3.2 Số lượng mỗi loại câu thu được qua ASR service (Google Voice)
Hình 3.3 Biểu đồ so sánh độ đo F1 của mô hình MaxEnt trên 2 tập thuộc tính ở
lần lặp thứ 4
Hình 3.4 Biểu đồ so sánh F1 của mô hình Naïve Bayes giữa 2 tập thuộc tính ngrams và n-grams + Dictionary
Hình 3.5 Biểu đồ so sánh độ đo F1 của mô hình SVMs giữa 2 tập thuộc tính ngrams và n-grams + Dictionary sau 4 folds
Hình 3.6 Biểu đồ so sánh độ đo F1 của 3 mô hình MaxEnt, Naïve Bayes và
SVMs ở lần lặp thứ 4 trên tập thuộc tính n-grams
Hình 3.7 Biểu đồ so sánh độ đo F1 của 3 mô hình MaxEnt, Naïve Bayes và
SVMs ở lần lặp thứ 4 trên tập thuộc tính n-grams + Dictionary
Hình PL.1 Sự phân bố dữ liệu khi Phân loại với phương pháp Naïve Bayes
Hình PL.2 Kết quả Phân loại với phương pháp Naïve Bayes
Hình PL.3 Sự phân bố dữ liệu khi Phân loại với phương pháp SVMs

Dictionary với C = 0.1, gamma = 0.5, Kernel = exp (-gamma*|u-v|^2)

5


ĐẶT VẤN ĐỀ
Theo PGS.TS. Bùi Mạnh Hùng [1], để thực hiện mục đích phát ngôn, người
ta thường dùng cấu trúc cú pháp đặc trưng kết hợp với những phương tiện ngôn
ngữ riêng biệt như: tiểu từ, phụ từ, phụ tố, trật tự từ, ngữ điệu, hiện tượng tỉnh
lược, v.v. Nghĩa là có một mối tương quan khá đều đặn giữa hình thức của câu và
mục đích sử dụng nó. Từ đó hình thành nên khái niệm kiểu câu (sentence type)
và những kiểu câu thông dụng nhất thường được nhắc đến là: câu trần thuật, câu
nghi vấn, câu cầu khiến, câu cảm thán (x. J. Sadock & A. Zwicky 1990: 155-156).
Phân loại câu tiếng Việt bằng máy tính là bài toán cơ bản, làm tiền đề cho
các nghiên cứu cao hơn về xử lý và hiểu ngôn ngữ tự nhiên. Phân loại câu là một
trong những thành phần xử lý cốt lõi của hệ thống hỏi – đáp như phần mềm ứng
dụng VAV (Vitual Assistant for Vietnammese) – Trợ lý ảo cho người Việt do
MDN Team thuộc Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội sáng
lập, của hệ thống phân tích social media để nghiên cứu thị trường như các hệ
thống xử lý Big Data hay trong hệ thống tổng hợp tiếng nói như VOS – Tiếng nói
Phương Nam do Đại học Quốc gia Tp. Hồ Chí Minh sáng lập….

Hình 0.1 Giao diện phần mềm ứng dụng VAV – Trợ lý ảo cho người Việt

6


VAV là một ứng dụng thông minh trên di động cho phép người dùng tương
tác bằng giọng nói để hẹn chuông báo thức, đặt lịch cho một cuộc họp, bật định
vị, gọi điện cho ai đó, truy cập một trang web bất kỳ, tìm đường trên bản đồ, định

hoặc có những chiến lược thu hút khách hàng kịp thời.
Tương tự, trong hệ thống tổng hợp tiếng nói, Tiếng nói Phương Nam – VOS
là một hệ thống tổng hợp tiếng nói tiếng Việt, dành cho chính người Việt, có thể
tạo ra giọng nói nhân tạo của người trên máy tính từ dữ liệu đầu vào là văn bản.
Phân loại câu lúc này sẽ giúp hệ thống thêm được sắc thái cho câu văn trong đoạn
text đó.
Trong lĩnh vực truyền thông, hệ thống VOS có thể được áp dụng trong các
ứng dụng truy vấn thông tin qua tổng đài điện thoại, trong đó yêu cầu của người
dùng sẽ được ứng dụng tiếp nhận và xử lý thành dạng văn bản. Thông tin này sẽ
được hệ thống VOS chuyển thành dạng âm thanh và trả về cho người dùng. Các
hệ thống này có khả năng ứng dụng cao do quá trình xử lý hoàn toàn tự động, có
thể hoạt động liên tục, đáp ứng được nhu cầu về thông tin của người dùng, đặc
biệt là các thông tin nóng, cập nhật.
Trong lĩnh vực tự động hóa, hệ thống VOS có thể được tích hợp với hệ thống
định vị GPS trong các ứng dụng tìm đường đi, gắn trên xe hơi để cung cấp các chỉ
dẫn ở dạng âm thanh, hạn chế việc lái xe phải liên tục vừa nhìn màn hình GPS,
làm tăng độ an toàn cho người điều khiển.
Trong lĩnh vực giáo dục, VOS có thể được sử dụng để dạy tiếng Việt cho
con em Việt Kiều định cư ở nước ngoài, nhất là cách đọc, cách phát âm các từ
tiếng Việt. Đây là phần mềm thực hành tiếng Việt hữu hiệu, đặc biệt trong môi
trường mà ngôn ngữ sử dụng không phải là tiếng Việt.

8


TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt
[1]
[2]
[3]

Classification for Online Subjective Test, International Journal of
Advanced Research in Computer Science and Software Engineering,
Volume 3, Issue 12.
Anthony Khoo (2006), Experiments with Sentence Classification, Monash
University, Australia.
Ben Hachey & Claire Grover (2004), Sentence Classification Experiments
for Legal Text Summarisation, University of Edinburgh, In Proceedings of
the 17th Annual Conference on Legal Knowledge and Information
Systems.
Diego Moll´a (2012), Experiments with Clustering-based Features for
Sentence Classification in Medical Publications: Macquarie Test’s
participation in the ALTA 2012 shared task, In Proceedings of Australasian,
Language Technology Association Workshop, pages 139−142.

39


[12]

[13]
[14]

[15]

[16]

[17]

[18]
[19]

Classifiers from Unannotated Texts, University of Pittsburgh, CICLing'05
Proceedings of the 6th international conference on Computational
Linguistics and Intelligent Text Processing, Pages 486-497.
Nitin Jindal (2006), Identifying Comparative Sentences in Text Documents,
University of Illinois at Chicago, SIGIR’06.
Thomasson, Amie, "Categories", The Stanford Encyclopedia of Philosophy
(Fall 2013 Edition), First published Thu Jun 3, 2004, URL =
< />
40




Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status