Xây dựng một hệ thống hỏi-đáp tự động phục vụ tư vấn ghi danh trực tuyến - pdf 14

[h2:1fxk734v]Download miễn phí Luận văn Xây dựng một hệ thống hỏi-đáp tự động phục vụ tư vấn ghi danh trực tuyến[/h2:1fxk734v]



Mục lục
MỞ ĐẦU. 1 U
Chương 1. TỔNG QUAN VỀHỆTHỐNG HỎI-ĐÁP TỰ ĐỘNG. 4
1.1 Hệthống hỏi-đáp tự động. 4
1.2 Sơlược lịch sửphát triển. 5
1.3 Kiến trúc hệthống hỏi-đáp. 7
1.3.1 Giao diện người dùng (User Interface).9
1.3.2 Phân tích câu hỏi (Question Analyzer).9
1.3.3 Tìm kiếm dữliệu (Data Retrieval).10
1.3.4 Rút trích câu trảlời (Answer Extraction).11
1.3.5 Chiến lược xếp hạng (Ranking).11
1.3.6 Xác minh câu trảlời (Answer Verification).12
1.4 Một sốvấn đềquan tâm khi xây dựng hệthống hỏi đáp. 12
1.5 Hệthống hỏi-đáp tiếng Việt. 13
Chương 2. CÁC PHƯƠNG PHÁP PHÂN TÍCH CÂU HỎI VÀ TÌM KIẾM THÔNG
TIN TRONG HỆTHỐNG HỎI ĐÁP. 15
2.1 Phương pháp phân tích câu hỏi. 15
2.1.1 Phương pháp nông(Shallow Method).16
2.1.2 Phương pháp sâu (Deep Method) .16
2.2 Vấn đềphân tích câu hỏi trong ngôn ngữtiếng Việt. 17
2.3 Tìm kiếm thông tin. 18
2.4 Mô hình không gian vector (Vector Space Model). 19
2.4.1 Phương pháp trọng sốtf-idf.20
2.4.2 Xác định độtương tựgiữa hai tài liệu.20
2.4.3 Hạn chếcủa mô hình vector.21
2.4.4 Chuẩn hóa trọng sốtf-idf.21
2.5 Phương pháp gom cụm dữliệu. 21
2.5.1 Thuật toán K-Means.23
2.5.2 Thuật toán HAC.25
Chương 3. GIẢI PHÁP VÀ THỬNGHIỆM HỆTHỐNG HỎI-ĐÁP TỰ ĐỘNG
PHỤC VỤTƯVẤN GHI DANH TRỰC TUYẾN. 27
3.1 Mục tiêu. 28
3.2 Giải pháp. 29
3.2.1 Giai đoạn phân tích truy vấn.30
3.2.2 Giai đoạn so khớp câu hỏi.32
3.2.3 Giai đoạn so khớp câu trảlời.33
3.2.4 Xây dựng bộdữliệu thửnghiệm.34
3.3 Chương trình cài đặt. 39
3.4 Thửnghiệm. 40
3.4.1 Mục tiêu thửnghiệm.40
3.4.2 Kếhoạch thửnghiệm.41
3.4.3 Kết quảthửnghiệm.42
Chương 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN. 51
4.1 Kết luận. 51
4.2 Hướng phát triển của luận văn. 52
TÀI LIỆU THAM KHẢO. 53
PHỤLỤC. 56

Tóm tắt nội dung:

MỞ ĐẦU
Bối cảnh thực hiện luận văn
Ngày nay, với sự phát triển của Internet, con người được thừa hưởng một kho
tài liệu lớn của nhân loại với vô số tri thức từ rất nhiều lĩnh vực khác nhau. Từ
Internet, con người có thể tìm kiếm được các thông tin mà họ cần bằng cách sử
dụng các công cụ tìm kiếm thông dụng hiện nay như Google, Yahoo!,... Các công
cụ tìm kiếm này đã giúp cho người dùng tìm kiếm thông tin được nhanh chóng và
dễ dàng.
Trong khi các hệ thống tìm kiếm thông tin chỉ có thể cung cấp các tài liệu
liên quan và chúng ta phải tự tìm trong đó câu trả lời cho nhu cầu thông tin của
mình, hệ thống hỏi đáp lại có thể cho ta câu trả lời ở dạng ngắn gọn, súc tích chứ
không phải một tập tài liệu. Tuy nhiên để có thể có câu trả lời thường phải sử dụng
kết hợp nhiều phương pháp liên quan đến nhiều lĩnh vực khác nhau, bao gồm ba
lĩnh vực chính là xử lý ngôn ngữ tự nhiên (Natural Language Processing), tìm kiếm
thông tin (Information Retrieval) và rút trích thông tin (Information Extraction). Hệ
thống hỏi-đáp hỗ trợ trả lời nhiều loại câu hỏi khác nhau như câu hỏi về sự vật, sự
kiện, định nghĩa, danh sách, quá trình, cách thức, lý do… trên nhiều lĩnh vực khác
nhau. Các hệ thống hỏi-đáp tự động dành cho tiếng Anh đã được nghiên cứu rất
nhiều [2], ứng dụng trên nhiều lĩnh vực khác nhau, đặc biệt là tìm kiếm câu trả lời
từ kho dữ liệu lớn Internet. Các hệ thống hỏi-đáp cho tiếng Việt còn sơ khởi
và chưa được ứng dụng rộng rãi. Vì thế, việc nghiên cứu và thử nghiệm hệ thống
hỏi-đáp cho tiếng Việt là một việc làm có ý nghĩa và thiết thực.
Cùng với sự phát triển của Internet, nhu cầu trao đổi thông tin trên các diễn
đàn ngày càng cao. Minh chứng là các diễn đàn trên mạng ngày một nhiều. Rất
nhiều diễn đàn tư vấn trực tuyến phục vụ học tập cũng ra đời. Các câu hỏi được gởi
lên diễn đàn để được các chuyên gia trong các lĩnh vực đó giải đáp. Khi số lượng
Trang 2
câu hỏi ngày càng nhiều và lặp đi lặp lại thì việc trả lời thủ công như vậy là không
khả thi, hệ thống hỏi-đáp là một phương pháp hữu hiệu để trả lời tự động. Đây là
một nhu cầu cần thiết. Diễn đàn tư vấn là một nhánh ứng dụng của hệ thống hỏi-đáp
tự động.
Đặc điểm của hệ thống hỏi-đáp cho tư vấn ghi danh trực tuyến
Hệ thống hỏi-đáp phục vụ cho tư vấn ghi danh trực tuyến là một hệ thống
hỏi-đáp cho một miền xác định là tư vấn ghi danh. Khác với hệ thống hỏi-đáp
truyền thống, hầu hết các câu hỏi đều thuộc loại câu hỏi sự kiện, thường chỉ gồm
một câu hỏi và câu trả lời có thể là một cụm từ ngắn, hệ thống hỏi-đáp cho diễn đàn
nói chung cũng như hệ thống hỏi-đáp cho tư vấn ghi danh trực tuyến nói riêng phải
giải quyết được các đặc trưng rất riêng của chúng, đó là:
- Câu hỏi có thể gồm nhiều câu, nhiều ý hỏi. Ví dụ: “em đã passed 2 môn
BSCI và BCMSN ở TTTH và tháng 6/2005 và bây giờ em muốn đăng ký
thi 2 môn còn lại thì phải làm thế nào ạ? cho em hỏi học phí bằng B là
bao nhiêu, giờ đăng ký được giảm 20% đúng không ạ?”
- Câu hỏi có thể không rõ ràng và có thể lặp lại các ý hỏi. Ví dụ: “Cho em
hỏi ngày khai giảng lớp java được không? Và nếu chưa biết gì về lập
trình, cũng có biết sơ sơ thì có thể vào học lớp java căn bản không? Thời
gian học, học phí và ngày khai giảng và học trong bao lâu”
- Nhiều lọai câu hỏi khác nhau như câu hỏi sự kiện, câu hỏi dạng danh
sách, câu hỏi cách thức, câu hỏi lý do… Ví dụ câu hỏi sự kiện như “ Cho
em hỏi ngày khai giảng khóa J2EE”, câu hỏi cách thức như “Làm thế nào
để có thể được giảm học phí?”…
- Câu hỏi có thể thuộc về nhiều chủ đề khác nhau. Ví dụ như các câu hỏi về
ngày khai giảng khóa họa, về đối tượng miễn học phí, về thủ tục nhập
học…
- Dữ liệu bao gồm một cặp hỏi-đáp đã có nên có thể không có nhu cầu rút
trích câu trả lời từ một tài liệu.
Trang 3
Đặc thù rất riêng của diễn đàn tư vấn trực tuyến cần có những phương pháp
riêng để giải quyết.
Mục tiêu của luận văn
Mục tiêu của luận văn là nghiên cứu tổng quát về hệ thống hỏi-đáp tự động,
tập trung nghiên cứu các phương pháp có thể áp dụng cho ngôn ngữ tiếng Việt dựa
trên những thành quả xử lý ngôn ngữ tiếng Việt đã có. Dựa trên những nghiên cứu
này, xây dựng thử nghiệm hệ thống hỏi-đáp tự động tiếng Việt cho một miền cụ thể
là diễn đàn tư vấn ghi danh trực tuyến. Những nghiên cứu này làm cơ sở lý thuyết
cũng như thực nghiệm cho việc xây dựng các hệ thống hỏi-đáp tiếng Việt có hiệu
quả trong tương lai.
Đóng góp của luận văn
• Nghiên cứu tổng quan về lĩnh vực hỏi-đáp tự động (Question Answering).
• Tìm hiểu các phương pháp phân tích câu hỏi.
• Tìm hiểu các phương pháp tìm kiếm văn bản.
• Xây dựng thử nghiệm hệ thống hỏi-đáp tự động phục vụ tư vấn ghi danh
trực tuyến.
Cấu trúc của luận văn
Luận văn được trình bày gồm 4 chương, danh sách các hình vẽ, danh sách các
bảng, tài liệu tham khảo và phụ lục.
Chương 1: Tổng quan và hiện trạng các hệ thống hỏi đáp (QA).
Chương 2: Các phương pháp phân tích câu hỏi và tìm kiếm thông tin trong hệ
thống hỏi-đáp.
Chương 3: Giải pháp và thử nghiệm hệ thống hỏi-đáp phục vụ tư vấn ghi danh
trực tuyến.
Chương 4: Kết luận và hướng phát triển.


Link download:
https://www.mediafire.com/?wr6rwx8mq3tjp48

Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí[h3:1fxk734v][/h3:1fxk734v]
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status