Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt - pdf 16

Download miễn phí Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt



Mục lục
Tóm tắt.i
Mục lục .iii
Danh sách các bảng .v
Danh sách các hình .vi
Lời mở đầu .1
Chương 1. Giới thiệu vềhệthống hỏi đáp tự động .3
1.1. Hệthống hỏi đáp tự động .3
1.2. Phân loại hệthống hỏi đáp tự động .5
1.2.1. Phân loại theo miền ứng dụng (domain) .5
1.2.2. Phân loại theo khảnăng trảlời câu hỏi .6
1.2.3. Phân loại theo hướng tiếp cận:.7
1.3. Các bước chung của hệthống hỏi đáp tự động.7
Chương 2. Phân tích câu hỏi .10
2.1. Nội dung của phân tích câu hỏi .10
2.2. Khó khăn của phân tích câu hỏi.10
2.3. Một sốnội dung của xửlý ngôn ngữtựnhiên trong phân tích câu hỏi.11
2.4. Taxonomy câu hỏi .14
2.4.1. Khái niệm vềtaxonomy .14
2.4.2. Taxonomy câu hỏi.15
2.5. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau .19
2.5.1. Câu hỏi đơn giản (factual-base) .19
2.5.2. Câu hỏi định nghĩa (definition question) .21
2.5.3. Câu hỏi phức tạp, có ràng buộc vềthời gian.22
Chương 3. Các phương pháp xác định loại câu hỏi .24
3.1. Phương pháp phân lớp sửdụng học máy thống kê.24
3.1.2. Các thuật toán học máy thống kê cho việc phân lớp .28
3.1.3. Xây dựng bộphân lớp câu hỏi theo học máy thống kê.37
3.2. Phương pháp xác định loại câu hỏi sửdụng kĩthuật xửlý ngôn ngữtựnhiên .42
3.3. Phương pháp xác định loại câu hỏi sửdụng mẫu quan hệ.45
Chương 4. Thực nghiệm phân tích câu hỏi tiếng Việt .47
4.1. Thực nghiệm với phân lớp câu hỏi sửdụng học máy thống kê.47
4.1.1. Dữliệu và công cụcho thực nghiệm .47
4.1.2. Kết quảbộphân lớp sửdụng SVM và MEM .49
4.2. Thực nghiệm với xác định loại câu hỏi sửdụng mẫu quan hệ.51
4.2.1. Mô hình thực nghiệm phân tích câu hỏi sửdụng mẫu quan hệ.51
4.2.2. Kết quảphân tích câu hỏi sửdụng mẫu quan hệ.55
Kết luận .58
Tài liệu tham khảo.60



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ày tháng
distance Khoẳng cách, đo lường tuyến tính
money Giá cả
order Thứ hạng
other Các số khác
period Khoảng thời gian
percent Phần trăm
speed Tốc độ
temp Nhiệt độ
size Kích thước, diện tích, thể tích
weight Cân nặng
19
2.5. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác
nhau
Trong hội nghị TREC, các câu hỏi được chia thành một số loại sau: câu hỏi đơn giản
(factual-base question), câu hỏi định nghĩa (definition question), câu hỏi danh sách (list
question), câu hỏi phức tạp (complex question),…. Mỗi loại câu hỏi có những đặc trưng
riêng và hướng tiếp cận khác nhau.
2.5.1. Câu hỏi đơn giản (factual-base)
Câu hỏi factual-base là những câu hỏi về các sự vật, sự kiện đơn lẻ,.. có câu trả lời là
những đoạn văn bản ngắn nằm sẵn trong tài liệu. Kiến trúc thông thường để xử lý loại câu
hỏi này như sau (Hình 3): Câu hỏi đầu vào được phân lớp theo loại ngữ nghĩa của câu trả
lời và biến đổi sang dạng truy vấn. Câu truy vấn được sử dụng để tìm kiếm các tài liệu có
liên quan đến câu hỏi, loại câu hỏi được sử dụng trong phần trích xuất câu trả lời nhằm
thu hẹp không gian tìm kiếm và kiểm tra câu trả lời có chính xác hay không [35].
Hình 3. Kiến trúc cho xử lý các câu hỏi factual-base
Như vậy, hai công việc chính của pha xử lý câu hỏi với loại câu hỏi này là xác định loại
câu hỏi và tạo truy vấn cho hệ IR (information retrieval) trích chọn tài liệu liên quan.
Xác định loại câu hỏi
Xác định loại câu hỏi có ý nghĩa rất quan trọng trong phân tích các câu hỏi factual
base, đặc biệt là việc phân loại câu hỏi theo loại ngữ nghĩa của câu trả lời (như mục 2.3 đã
NER NER
Kho tài
liệu
Phân tích
câu hỏi
Trích chọn
tài liệu liên
quan
Trích xuất
câu trả lời
WordNet
Parser
WordNet
Parser
Truy vấn Tài liệu
Loại câu hỏi
Câu
trả lời Câu hỏi
20
trình bày). Có nhiều cách để xác định loại câu hỏi như: xây dựng bộ phân lớp câu hỏi sử
dụng học máy thống kê, xác định câu hỏi sử dụng các kỹ thuật của xử lý ngôn ngữ tự
nhiên, xác định loại câu hỏi dựa vào so khớp với các mẫu quan hệ có sẵn. Nội dung chi
tiết của các phương pháp này được trình bày ở chương 3.
Tạo truy vấn từ câu hỏi
Vấn đề của tạo truy vấn là lựa chọn các từ khóa trong câu hỏi và kết hợp chúng để
tạo ra câu truy vấn không quá chung chung, cũng không quá chi tiết. Chiến lược được sử
dụng để trích ra các từ khóa quan trọng là sử dụng độ ưu tiên: Độ ưu tiên cao nhất được
gán cho các từ trong dấu nháy kép hay nháy đơn, tiếp đến là các cụm danh từ, danh từ,
động từ, tính từ, trạng từ. Các từ dừng, giới từ, trợ động từ được bỏ qua.
Nhiều hệ thống Q&A có độ hồi tưởng (tỉ lệ câu trả lời đưa ra trên câu hỏi đầu vào)
rất thấp. Một số nguyên nhân chính bao gồm: module phân tích câu hỏi không nhận diện
được câu hỏi thuộc loại nào hay không tìm được các mẫu khớp với câu hỏi, module trích
chọn thông tin (IR) không tìm ra được các tài liệu có chứa câu trả lời, module trích xuất
câu trả lời không thể tìm ra câu trả lời thỏa đáng cho câu hỏi. Vì vậy với module trích
chọn thông tin trong hệ thống Q&A, độ hồi tưởng là quan trọng hơn so với độ chính xác
bởi các module sau có thể lọc ra các tài liệu không liên quan, nhưng không thể tìm ra
được câu trả lời nếu các tài liệu chứa câu trả lời không được trả về từ IR [34] .
Các nghiên cứu trước đây nhằm làm tăng độ hồi tưởng của IR đều tập trung vào việc
thu nhỏ sự khác biệt về mặt hình thái, từ vựng và ngữ nghĩa giữa các từ xuất hiện trong
truy vấn và trong tài liệu chứa câu trả lời.
Về mặt hình thái, có hai cách được sử dụng [9,34]:
- Áp dụng kĩ thuật stemming cho tập dữ liệu được đánh chỉ mục và các từ trong
truy vấn (stemming là chuyển tất cả các dạng biến thể của một từ thành từ gốc, ví
dụ “expand”, “expanded”, “expansion”, “expandable”… đều được chuyển
thành “expand”).
- Đánh chỉ mục cho các từ trong tài liệu mà không sử dụng stemming. Sử dụng kĩ
thuật mở rộng hình thái (morphological expansion – ví dụ từ “expands” được
mở rộng thành {“expands”,“expand”, “expanded”, “expansion”, “expandable”
, … } ) cho các từ khóa trong câu hỏi khi tạo truy vấn.
21
Về mặt từ vựng và ngữ nghĩa, phương pháp hay được sử dụng đó là: các từ trong
truy vấn được mở rộng bởi tập các từ đồng nghĩa, các khái niệm có nghĩa khái quát hơn
hay chuyên môn hơn, chi tiết hơn hay bởi các từ liên quan. Phương pháp này đòi hỏi
phải có các nguồn tri thức về ngôn ngữ, từ vựng như Wordnet hay Ontology.
Moldovan trong [29] đã chỉ ra rằng từ trọng tâm của câu hỏi (question focus – xem
trong phần 3.2) thường không xuất hiện trong tài liệu chứa câu hỏi. Với các câu hỏi có từ
trọng tâm là “tỉnh thành”, “thành phố”, “đất nước”, “ngày tháng”… thì câu trả lời sẽ chứa
các thể hiện cụ thể của các từ này (ví dụ với “đất nước” thì sẽ là “Việt Nam”, “Trung
Quốc”… chứ không nhất thiết phải là “đất nước Việt Nam”). Vì vậy các từ trọng tâm của
câu hỏi thường không được sử dụng để làm từ khóa tạo truy vấn.
2.5.2. Câu hỏi định nghĩa (definition question)
Câu hỏi định nghĩa hỏi về định nghĩa hay mô tả về một điều, một khái niệm gì đó.
Các câu hỏi thường gặp có dạng như “Máy tìm kiếm là gì”, “Định nghĩa khai phá dữ
liệu”, “Bush là ai ?”…
Câu trả lời cho loại câu hỏi này rất đa dạng, rất nhiều đoạn văn bản ngắn có thể coi
là câu trả lời chấp nhận được. Ví dụ với câu hỏi “Who is George W. Bush ?” thì các câu
trả lời có thể là:
“… George W. Bush, the 43rd President of the United States…”
“George W. Bush defeated Democratic incumbent Ann Richards to become the 46th
Governor of the State of Texas…”
……
Với loại câu hỏi định nghĩa, phương pháp thường hay được sử dụng là so khớp mẫu
(pattern matching) [17].
Ví dụ về các mẫu câu hỏi và mẫu câu trả lời
Mẫu câu hỏi What a ?
Who ?
là gì?
là ai?....
Mẫu trả lời , the
(a )
is a|the
-
- một loại
là ….
22
Ưu điểm: Có độ chính xác khá cao.
Nhược điểm: Các mẫu khó có thể bao quát được hết các trường hợp đa dạng của câu hỏi
và câu trả lời.
2.5.3. Câu hỏi phức tạp, có ràng buộc về thời gian
Phương pháp trình bày trong phần 2.5.1 có thể trả lời được các câu hỏi đơn giản
factual base có từ ngữ diễn đạt thời gian đơn giản như: “Hồ Chí Minh sinh năm nào” hay
“Ai là thủ tướng Việt Nam năm 2009 ?”. Tuy nhiên nhiều câu hỏi phức tạp đòi hỏi phải
phát hiện ra các thuộc tính về thời gian hay thứ tự diễn ra của sự kiện. Ví dụ “Ai là tổng
bí thư Đảng Cộng Sản Việt Nam trong chiến thắng lịch sử Điện Biên Phủ”.
Câu hỏi liên quan đến thời gian được chia làm 4 loại [33]:
Loại 1: Câu hỏi về một sự kiện đơn lẻ, không có biểu đạt về thời gian (temporal
expressions)
“Đại học Công Nghệ thành lập khi nào ?”.
Loại 2: Câu hỏi về một sự kiện đơn lẻ, có biểu đạt về thời gian
“Đội tuyển...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status