phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt - Pdf 10

HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thanh Sơn

PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
KẾT QUẢ TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ HÀ NỘI - 2010

các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học, …
Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt tập trung nghiên cứu các phương pháp xây dựng hệ thống hỏi
đáp danh sách đã được áp dụng trên thế giới cũng như một số phương pháp nâng cao
chất lượng kết quả trả lời cho dạng hệ thống hỏi đáp này. Trên cơ sở các nghiên cứu
nói trên, kết hợp với việc khảo sát điều kiện thực tế của các công cụ xử lý ngôn ngữ
tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng kết quả trả lời cho hệ thống
hỏi đáp danh sách tiếng Việt sử dụng luật Wrapper và luật ngữ nghĩa. Thực nghiệm
mô hình cho kết quả khá khả quan, đạt độ chính xác cho câu trả lời chứa 5 kết quả là
93.87% so với độ chính xác 82.11% của pha hỏi đáp danh sách, đồng thời hứa hẹn
nhiều tiềm năng nghiên cứu mới. Mục lục
Lời mở đầu 1
Chương 1. Giới thiệu hệ thống hỏi đáp danh sách 3
1.1. Hệ thống hỏi đáp 3
1.1.1. Giới thiệu chung 3
1.1.2. Một số vấn đề cần quan tâm 4
1.1.3. Các bước xử lý chung 5
1.1.4. Tiêu chuẩn đánh giá 6
1.1.5. Phân loại 7
1.2. Hệ thống hỏi đáp danh sách 10
1.2.1. Giới thiệu 10
1.2.2. Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách 10
1.2.3. Những vấn đề cần giải quyết khi xây dựng hệ hỏi đáp danh sách 11
Chương 2. Các nghiên cứu liên quan 13
2.1. Một số hệ thống hỏi đáp danh sách điển hình 13
2.1.1. Hệ thống hỏi đáp danh sách FADA 16
2.1.2. Hệ thống hỏi đáp Ephyra 20

Bảng 4. Cây kế thừa thực thể tên và các mẫu loại 22
Bảng 5. Kết quả thực thi SEAL với các thuật toán đánh giá và số lượng tập mồi khác
nhau 25
Bảng 6. Ví dụ các truy vấn và chất lượng văn bản thu thập tương ứng 26
Bảng 7. Độ chính xác trung bình của Ephyra 27
Bảng 8. Độ đo trung bình F
1
của Ephyra 27
Bảng 9. Một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt. 30
Bảng 10. Ví dụ về câu hỏi danh sách và từ khóa tương ứng 39
Bảng 11. Kết quả thực nghiệm pha hỏi đáp danh sách tiếng Việt 40
Bảng 12. Kết quả thực nghiệm mô hình nâng cao sử dụng 2 thực thể mồi 42
Bảng 13. Kết quả thực nghiệm mô hình nâng cao sử dụng 3 thực thể mồi 43
Bảng 14. Kết quả thực nghiệm mô hình nâng cao – 4 kết quả đầu vào 44 Danh sách các hình
Hình 1. Các bước chung của hệ thống hỏi đáp 5
Hình 2. Xu hướng trong nghiên cứu về hệ thống hỏi đáp 8
Hình 3. Ví dụ về một Snippet trả về từ máy tìm kiếm 22
Hình 4. Mô hình thực nghiệm nâng cao chất lượng kết quả trả lời trong 28
Hình 5. Ví dụ về quan hệ thượng hạ danh. 29
Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Việt 30
Hình 7. Ví dụ cấu trúc web 33
Hình 8.Ví dụ văn bản bán cấu trúc 34
Hình 9. Mô hình pha 2 - Mở rộng thực thể 36
Danh sách các biểu đồ

nghiên cứu về việc nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách, từ đó
đưa ra phương pháp phù hợp để giải quyết bài toán này cho miền dữ liệu tiếng Việt.
Khóa luận đề xuất một mô hình giải quyết bài toán gồm 2 pha chính:
(1) Pha hỏi đáp danh sách, tìm câu trả lời dựa vào các luật thượng hạ danh
(hyponym).
(2) Pha nâng cao chất lượng cho câu trả lời của pha hỏi đáp danh sách dựa vào
các phương pháp mở rộng thực thể.
Nội dung của khóa luận bao gồm các chương sau:
Chương 1. Giới thiệu hệ thống hỏi đáp danh sách. Chương 1 trình bày những
nội dung cơ bản về hệ thống hỏi đáp nói chung và hệ thống hỏi đáp danh sách nói
riêng.
Chương 2. Các nghiên cứu liên quan. Chương 2 điểm qua một số các nghiên
cứu liên quan trên thế giới cũng như tại Việt Nam về hệ thống hỏi đáp nói chung, cũng
2

như hệ thống hỏi đáp danh sách nói riêng và bài toán mở rộng thực thể. Khóa luận tập
trung tìm hiểu các phương pháp được áp dụng trong hai hệ thống hỏi đáp danh sách
tiêu biểu là FADA và Ephyra. Cùng với đó, chương này cũng giới thiệu về các nghiên
cứu đã có để nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách, trong đó
tập trung cho hướng nâng cao bằng mở rộng thực thể.
Chương 3. Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt. Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ
thống hỏi đáp danh sách tiếng Việt mà khoá luận đề xuất. Mô hình này gồm 2 pha
chính là pha hỏi đáp danh sách và pha mở rộng thực thể.
Chương 4. Thực nghiệm và đánh giá. Tiến hành thực nghiệm để kiểm tra chất
lượng của phương pháp đã đề xuất bằng cách thực nghiệm riêng pha hỏi đáp danh sách
và thực nghiệm có sử dụng bước nâng cao kết quả trong mô hình, từ đó đưa ra đánh
giá.
Kết luận và hướng phát triển khóa luận: Tóm lược những nội dung chính của
khóa luận.Đồng thời đưa ra những hướng nghiên cứu trong thời gian sắp tới dựa vào

Để tìm được câu trả lời cho câu hỏi “Ai là tác giả của Dế mèn phiêu lưu ký?”, hệ
thống cần có cơ chế để biết được rằng “tác giả của một tác phẩm là người viết tác
phẩm đó” hoặc cần học được các mẫu thường gặp của câu trả lời (các mẫu về ngày
tháng năm sinh, về thời gian, địa chỉ….) tương ứng với từng loại câu hỏi. Các hệ thống
4

hỏi đáp hiện nay sử dụng các công cụ xử lý ngôn ngữ tự nhiên như bộ gán nhãn từ loại
(POS Tagger), bộ nhận dạng thực thể định danh (Named Entity Recognizer), bộ phân
tích ngữ pháp (Parser)… và các tài nguyên ngôn ngữ như Wordnet [11], ontology [23]
để phân tích câu hỏi và trích xuất câu trả lời.
Hệ thống hỏi đáp đang nhận được rất nhiều sự quan tâm của các nhà nghiên cứu
và các doanh nghiệp công nghệ thông tin, có ý nghĩa cả về khoa học lẫn thực tiễn. Rất
nhiều hội nghị thường niên về trích chọn thông tin và khai phá dữ liệu dành một chủ
đề riêng cho các nghiên cứu về hệ thống hỏi đáp TREC
1
, CLEF
2
.
Hiện đã có một số hệ thống hỏi đáp ra đời. Một số hệ thống hỏi đáp tiêu biểu
được biết đến như: Answer.com
3
, START
4
, Ask Jeeves
5
, Webclopedia [9], FADA
[14], Ephyra [22], trong đó, FADA, Ephyra là các hệ thống hỏi đáp danh sách sẽ
được giới thiệu chi tiết hơn ở chương 2.
1.1.2. Một số vấn đề cần quan tâm
Năm 2002, John Burger và cộng sự [7] đã đưa ra một số vấn đề cần quan tâm khi

đâu cũng không thể tìm được chính xác câu trả lời nếu như câu trả lời đó
không nằm trong tập dữ liệu. Chính vì thế, hệ thống hỏi đáp cần phải có
nguồn dữ liệu phong phú, có thể là sách, báo chí hay các trang web. Tuy
nhiên cần đảm bảo nguồn dữ liệu có độ tin cậy và thông tin chính xác cao.
 Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố:
độ phức tạp của câu hỏi, loại câu hỏi có được từ quá trình xử lý câu hỏi, dữ
liệu chứa câu trả lời, phương pháp tìm kiếm và ngữ cảnh, Câu trả lời cho
người dùng cần phải đảm bảo chính xác và đầy đủ.
1.1.3. Các bước xử lý chung
Các hệ thống hỏi đáp hiện nay có kiến trúc khác nhau tùy thuộc vào loại hệ thống
hỏi đáp. Tuy nhiên các hệ thống hỏi đáp đều bao gồm ba bước cơ bản như hình 1 [5].
Sự khác nhau giữa các hệ thống hỏi đáp là ở quá trình xử lý trong từng bước, đặc biệt
là ở cách tiếp cận trong việc xác định câu trả lời.

Bước1 - Phân tích câu hỏi: Đây là bước đầu tiên của hệ hỏi đáp. Đầu vào là câu
hỏi dưới dạng ngôn ngữ tự nhiên. Tại bước này, hệ thống phân tích câu hỏi để tạo truy
vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước
trích xuất câu trả lời
Bước2 - Thu thập tài liệu: Bước này sử dụng câu truy vấn được tạo ra ở bước
phân tích câu hỏi, truy vấn trên các công cụ tìm kiếm để tìm các tài liệu phục vụ cho
việc tìm kiếm câu trả lời.
Bước3 - Trích xuất câu trả lời: Bước này phân tích tập tài liệu đã thu thập được
ở bước 2 và sử dụng các thông tin hữu ích do bước phân tích câu hỏi cung cấp để tìm
kiếm, trích chọn và đưa ra câu trả lời chính xác nhất cho câu hỏi của người dùng.
Phân tích
câu h
ỏ

thống. Hệ thống cần luôn cập nhật dữ liệu để có thể cung cấp cho người
dùng câu trả lời chính xác, kể cả đối với những câu hỏi mang tính chất thời
sự.
 Tính chính xác: tính chính xác của hệ thống hỏi đáp là cực kì quan trọng,
việc đưa ra câu trả lời sai còn tai hại hơn là không đưa ra câu trả lời. Chính
vì thế, khi nghiên cứu về hệ thống hỏi đáp cần tập trung vào việc đánh giá
tính đúng đắn của câu trả lời. Trong đó bao gồm cả các phương pháp để phát
hiện các trường hợp mà tập dữ liệu được xét không chứa câu trả lời. Các
thông tin mâu thuẫn trong dữ liệu cũng cần được tìm ra và các thông tin này
cần được xử lý một cách phù hợp và nhất quán. Để đạt được tính chính xác,
hệ thống hỏi đáp cần kết hợp chặt chẽ các nguồn tri thức (world knowledge)
và cơ chế “bắt chước” việc suy luận thông thường.
 Tính khả dụng: thông thường, tri thức trong hệ thống hỏi đáp cần đáp ứng
được như cầu của người dùng. Các ontology trên từng miền cụ thể và
ontology trên miền mở cần được tích hợp trong hệ thống. Để tìm ra câu trả
lời thì các hệ hỏi đáp thường xét trên nhiều dữ liệu khác nhau. Thông tin về
câu trả lời có thể nằm trong dữ liệu văn bản, trong cơ sở dữ liệu, trong các
đoạn phim hay các nguồn đa phương tiện khác. Một hệ thống phải đáp cần
có khả năng khai phá câu trả lời từ các nguồn dữ liệu khác nhau và đưa ra
câu trả lời ở bất kỳ định dạng nào mà người dùng mong muốn. Hơn nữa, hệ
thống hỏi đáp nên có khả năng cho phép người dùng mô tả ngữ cảnh của câu
hỏi và nên cung cấp các thông tin giải thích, trích dẫn nguồn cho câu trả lời.
 Tính hoàn chỉnh: khả năng đưa ra được câu trả lời hoàn chỉnh cho câu hỏi
của người dùng chính là điều mà các hệ thống hỏi đáp hướng tới. Trong
nhiều trường hợp (câu hỏi về danh sách, nguyên nhân, cách thức…), các
phần của câu trả lời nằm rải rác trong một văn bản, thậm chí trong nhiều văn
7

bản. Vì vậy cần phải hợp nhất các phần này dựa trên các thông tin liên kết
để tạo ra câu trả lời hoàn chỉnh.

8

dữ liệu cụ thể nào cả. Chính vì thế mà đòi hỏi của hệ thống hỏi đáp miền mở là phải
bao quát được dữ liệu thuộc nhiều lĩnh vực khác nhau. Tuy nhiên cũng chính vì lý do
đó mà dữ liệu cho việc trích rút câu trả lời trong hệ thống hỏi đáp miền mở là rất
phong phú và dễ thu thập.
Các nghiên cứu hiện nay về hệ thống hỏi đáp đang tập trung vào xây dựng hệ
thống hỏi đáp trên miền mở, sử dụng nguồn dữ liệu phi cấu trúc và bán cấu trúc (kho
văn bản lớn hay dữ liệu web) để tìm câu trả lời. Các nghiên cứu mới và các cải tiến
những phương pháp cũ đang hướng đến mục đích sử dụng nguồn dữ liệu web vốn đa
dạng, nhiều “nhiễu” và trùng lặp để tìm ra câu trả lời đang rất được quan tâm [5]
(Hình 2).
1.1.5.2. Phân loại theo hướng tiếp cận
Hướng tiếp cận nông (shallow): Nhiều phương pháp sử dụng trong hệ hỏi đáp
dùng các kĩ thuật dựa trên từ khóa để lựa chọn các câu, đọan văn trong các văn bản thu
thập được, sau đó lọc lấy câu trả lời. Phương pháp xếp hạng cho các câu trả lời thường
được dựa trên đặc trưng cú pháp như là thứ tự từ hoặc vị trí từ và đặc điểm tương tự
với câu hỏi (ví dụ các câu hỏi về tên người, địa danh, số lượng…). Đối với hướng tiếp
cận nông thì có thể sử dụng các mẫu để tìm ra các câu trả lời với giả thiết mong muốn
H
ệ

th
ố
ng h
ỏ
i đáp

T
ậ
p d
ữ

li
ệ
u l
ớ
n

M
ộ
t văn b
ả
n đơn

Hình 2. Xu hướng trong nghiên cứu về hệ thống hỏi đáp
9

rằng câu trả lời có cùng cấu trúc giống câu hỏi. Ví dụ với câu hỏi “What is a X” thì ta
có mẫu là “X is a Y” và có thể tìm được câu trả lời là Y.
Hướng tiếp cận sâu (deep): Trong trường hợp các kĩ thuật sử dụng từ khóa hoặc
biến đổi cấu trúc câu hỏi là chưa đủ để tìm ra câu trả lời thì cần sử dụng các kĩ thuật
phân tích cú pháp, ngữ nghĩa, ngữ cảnh phức tạp hơn để có thể trích chọn hay xây
dựng câu trả lời. Các kĩ thuật đó bao gồm nhận dạng thực thể (named-entity
recognition), trích xuất mối quan hệ, loại bỏ nhập nhằng ngữ nghĩa, … Các hệ thống
này thường sử dụng các nguồn tri thức có thể tìm thấy trong ontology như WordNet
hay Suggested Upper Merged Ontology (SUMO) để làm tăng thêm khả năng lập luận
thông qua các liên kết ngữ nghĩa và định nghĩa.

thường niên về trích chọn thông tin, khai phá dữ liệu dành một chủ đề riêng. Cụ thể
đối với hội nghị TREC thì hệ thống hỏi đáp được giới thiệu đầu tiên đó là TREC-8
(1999) [10]. Hệ hỏi đáp danh sách đã được đề cập đến tại TREC 2001 và TREC 2002,
tuy nhiên chưa được nhiều nhà nghiên cứu quan tâm bởi họ còn tập trung vào chủ đề
chính đó là về factoid Question Answering. Đến TREC 2003 thì hệ hỏi đáp danh sách
đã được đưa vào làm một trong cách chủ đề chính, đây cũng là một sự thúc đẩy cho
việc nghiên cứu về hệ thống hỏi đáp danh sách. Có thể kể đến một số hệ thống hỏi đáp
danh sách tiêu biểu như: FADA, Ephyra.
 Năm 2004, Hui Yang và Tat-Seng Chua đã giới thiệu hệ thống FADA, một
hệ thống hỏi đáp danh sách dựa vào việc phân tích câu hỏi, phân cụm, phân
lớp các văn bản web và trích xuất nội dung để tìm các câu trả lời khác nhau
và đáng tin cậy.
 Hệ thống hỏi đáp danh sách Ephyra được N. Schlaefer, P. Gieselmann và G.
Sautter giới thiệu tại hội nghị TREC 2006 [22]. Ephyra là một hệ thống hỏi
đáp miền mở mềm dẻo, có thể kết hợp nhiều kĩ năng phân tích câu hỏi và
trích chọn câu trả lời các nhau, cũng như kết hợp các nguồn tri thức khác
nhau. Kĩ thuật được sử dụng trong Ephyra bao gồm học và khớp mẫu, phân
tích loại câu trả lời và sử dụng các bộ lọc để loại bỏ dư thừa.
1.2.2. Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách
Hệ hỏi đáp nói chung cũng như hệ hỏi đáp danh sách nói riêng đang nhận được
nhiều sự quan tâm của các nhà nghiên cứu. Đã có nhiều hướng tiếp cận khác nhau
được đưa ra để giải quyết bài toán cho hệ hỏi đáp danh sách như hướng tiếp cận tìm
câu trả lời cho hệ hỏi đáp danh sách dựa trên Giả thuyết phân phối [19]; hay việc so
sánh và khớp các cụm từ cho loại câu trả lời, xung quanh một ngữ cảnh của các từ
khóa của câu hỏi hay từ đồng nghĩa; hệ thống hỏi đáp danh sách FADA dựa vào phân
11

tích câu hỏi, phân cụm, phân lớp các văn bản web và trích chọn nội dung để tìm ra các
câu trả lời khác nhau và đáng tin cậy; hay hướng tiếp cận sử dụng quan hệ thượng hạ
danh (hyponym) [5]…

Lựa chọn câu trả lời: Đối với các câu hỏi thông thường, chỉ có một câu trả lời,
thì các văn bản sẽ chứa một lượng lớn các thông tin lặp lại về câu trả lời đó, chính vì
vậy có thể lựa chọn câu trả lời dựa vào thông tin được xuất hiện nhiều nhất. Tuy nhiên,
đối với hệ thống hỏi đáp danh sách, câu trả lời không phải chỉ là một kết quả mà là
nhiều kết quả đáp ứng cho câu hỏi, chính vì thế mà khó có thể loại bỏ được các câu trả
lời tiềm năng có tần suất xuất hiện nhỏ. Việc lựa chọn hay loại bỏ các thành phần trích
chọn được cần được thực hiện cẩn thận, vì có thể sẽ loại bỏ một thành phần trong câu
trả lời, hoặc thêm vào một thành phần không đúng và làm cho kết quả trả lời không
được chính xác.
Trả về câu trả lời đầy đủ: Một vấn đề nữa đặt ra khi nghiên cứu và xây dựng hệ
thống hỏi đáp danh sách đó là làm sao có thể trích chọn và trả về được tất cả các kết
quả tương ứng với câu hỏi. Yêu cầu này tương đương với yêu cầu thu thập được tập tài
liệu chứa đủ tất cả các kết quả cho câu hỏi và yêu cầu khả năng trích chọn được tất cả
các kết quả có trong tập tài liệu được xét. Đây cũng là vấn đề quan trọng nhất trong
việc xây dựng hệ thống hỏi đáp danh sách. Rất nhiều các nghiên cứu tập trung vào
việc bổ sung các kết quả cho tập trả lời trong hệ thống hỏi đáp danh sách như nghiên
cứu của Wang [28], … Chính vì thế, khóa luận tập trung vào bài toán bổ sung tập kết
quả trả lời cho hệ thống hỏi đáp danh sách trong miền dữ liệu tiếng Việt.
Tóm tắt chương 1: Chương này trình bày khái quát những nội dung cơ bản về
hệ thống hỏi đáp và giới thiệu về hệ thống hỏi đáp danh sách. Sang chương 2, khóa
luận trình bày về các nghiên cứu liên quan trên thế giới cũng như tại Việt Nam về hệ
thống hỏi đáp danh sách, một số phương pháp tiêu biểu áp dụng cho hệ thống hỏi đáp
danh sách và giới thiệu về nghiên cứu liên quan đến bài toán nâng cao chất lượng câu
trả lời cho hệ thống hỏi đáp danh sách.

13

Chương 2. Các nghiên cứu liên quan
2.1. Một số hệ thống hỏi đáp danh sách điển hình

có khả năng đáp ứng được nhu cầu đó. Chính vì thế hướng tiếp cận tìm kiếm các câu
trả lời trên miền dữ liệu web đang thu hút được nhiều sự quan tâm của các nhà nghiên
cứu. Các nhà nghiên cứu về hệ thống hỏi đáp đã tìm ra rất nhiều cách để sử dụng các
tài nguyên Web như khai phá các mẫu bề mặt (surface pattern mining – Ravichandran
Bảng 1. 5 kết quả cao nhất tại TREC-12 (Voorhees, 2003)
14

và các cộng sự, 2002), công thức hóa câu truy vấn (query formulation – Yang, 2002),
đánh giá câu trả lời (answer validation - Magnini, 2002) cũng như tìm kiếm trực tiếp
câu trả lời trên các văn bản Web bằng cách phân tích dữ liệu dư thừa (data redundancy
analysis – Brill, 2001). Các hệ thống này đã chứng minh rằng với sự giúp đỡ của Web,
thông thường các hệ thống đó có thể tăng kết quả lên khoảng 25%-30% (Lin 2002).
Năm 2004, Hui Yang, Tat-Seng Chua giới thiệu hệ thống FADA, một hệ thống
hỏi đáp danh sách dựa trên việc phân tích câu hỏi, phân cụm, phân lớp các trang web
và trích chọn ngữ cảnh để tìm câu trả lời. FADA đã đạt được độ hồi tưởng là 0.422 và
độ đo F
1
là 0.464. Kết quả của FADA là tốt hơn đáng kể so với kết quả tốt nhất của hệ
thống trong chủ đề về hệ thống hỏi đáp danh sách tại TREC-12.
Tại hội nghị TREC 2006, N. Schlaefer, P. Gieselmann và G. Sautter đã giới thiệu
hệ thống hỏi đáp Ephyra [22], đây là một hệ thống hỏi đáp miền mở mềm dẻo, có thể
trả lời nhiều loại câu hỏi, trong đó có các câu hỏi mà yêu cầu câu trả lời được trả về là
một danh sách. Kĩ thuật được sử dụng trong Ephyra bao gồm học và khớp mẫu, phân
tích loại câu trả lời và sử dụng các bộ lọc để loại bỏ dư thừa
Năm 2008, Majid Razmara [19] đã trình bày về hướng tiếp cận giải quyết bài
toán tìm câu trả lời cho câu hỏi danh sách dựa trên Giả thuyết phân phối
(Distributional Hypothesis): các từ xuất hiện trong cùng một ngữ cảnh thì có xu hướng
có cùng ngữ nghĩa (Harris, 1954). Majid Razmara đã giả thuyết rằng:
1. Các câu trả lời cho câu hỏi danh sách có cùng lớp thực thể ngữ nghĩa
(semantic entity class)

được 89.7% câu hỏi người dùng đưa vào và khả năng đưa ra câu trả lời là 91.4%.
Phần tiếp theo, khóa luận trình bày về một số phương pháp tiêu biểu đã được áp
dụng trong hệ thống hỏi đáp danh sách. Cụ thể là các phương pháp được áp dụng để
xây dựng hệ thống hỏi đáp danh sách FADA và hệ thống hỏi đáp Ephyra.
Biểu đồ 1. Kết quả của mỗi loại câu hỏi trong tập dữ liệu kiểm thử - TREC, 2007
16

2.1.1. Hệ thống hỏi đáp danh sách FADA
Hệ thống hỏi đáp danh sách FADA (Find All Distinct Answers) là một trong
những hệ thống hỏi đáp danh sách tiêu biểu sử dụng nguồn dữ liệu web để trích chọn
ra các câu trả lời. FADA hướng đến mục tiêu tìm kiếm câu trả lời đầy đủ cho câu hỏi
trong hệ thống hỏi đáp danh sách. Phương pháp trong FADA được đưa ra dựa vào việc
quan sát thấy rằng các câu trả lời cho câu hỏi danh sách thường xuất hiện trong cùng
một danh sách hoặc bảng của một trang Web, trong khi đó thì nhiều các trang web có
thể chứa thông tin về cùng một trường hợp. Phân biệt riêng hai loại này: loại thứ nhất
được gọi là Trang tập hợp (Collection Page – CP) và loại hai được gọi là Trang chủ đề
(Topic Page – TP). Đối với loại 1 – CP, việc cần làm là trích chọn nội dung các danh
sách, các bảng từ trang web. Đối với loại 2 – TP, cần tìm các trang web riêng biệt liên
quan đến các trường hợp khác nhau trong câu trả lời. FADA dựa vào kĩ thuật phân tích
câu hỏi, phân cụm, phân lớp các văn bản web và trích chọn nội dung để tìm các câu trả
lời riêng biệt và đáng tin cậy với độ hồi tưởng cao. Hệ thống FADA đã đạt được kết
quả khá tốt khi kiểm thử với tập ngữ liệu của TREC.
Hệ thống hỏi đáp danh sách luôn hướng tới khả năng tìm được hết các kết quả
tương ứng với câu hỏi để cho câu trả lời đầy đủ và chính xác. Điều này yêu cầu (1) tìm
kiếm hiệu quả và đầy đủ và (2) trích chọn được hết các câu trả lời khác biệt. Để có thể
tìm kiếm hiệu quả thì phương pháp biến đổi câu hỏi được sử dụng để có thể thu được
các trang web cần thiết nhất. Đây là một bước quan trọng, vì nếu câu truy vấn quá
chung chung thì sẽ thu được quá nhiều văn bản và hệ thống không thể có đủ tài nguyên
để xử lý toàn bộ các văn bản đó. Nếu câu truy vấn lại quá cụ thể thì có thể là sẽ thu
được rất ít tài liệu hoặc cũng có thể không thu được tài liệu nào hữu ích.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt - Pdf 10

Tài liệu, ebook tham khảo khác

Học thêm