ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Quốc Đại
PHƢƠNG PHÁP XÂY DỰNG
HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT
DỰA TRÊN ONTOLOGY KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
To My Family
Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đại
i Lời cảm ơn
Đầu tiên, em xin gửi lời cám ơn chân thành nhất tới TS. Phạm Bảo Sơn. Thầy đã
hướng dẫn, chỉ bảo và truyền đạt những kinh nghiệm giúp em hoàn thành khóa luận.
Em cũng xin gửi lời cám ơn tới TS. Bùi Thế Duy. Thầy đã tạo điều kiện thuận lợi
và có những ý kiến đóng góp cho em.
Tôi xin cám ơn các bạn Nguyễn Quốc Đạt, Nguyễn Bá Đạt, Trần Bình Giang,
Phạm Đức Đăng. Các bạn đã giúp đỡ, cũng như chia sẻ những nghiên cứu để tôi có thể
áp dụng trong khóa luận.
Tôi cũng xin cám ơn các bạn Ngô Thị Thảo, Tạ Thị Bích Hiền, Nguyễn Hà
Phương đã giúp đỡ tôi khi khó khăn.
Cuối cùng, con xin gửi lời cám ơn sâu sắc nhất tới bố mẹ. Bố mẹ đã sinh thành,
nuôi dưỡng, quan tâm và chăm sóc cho con. Con xin cám ơn bố mẹ!
iii Mục lục
Lời cảm ơn i
Tóm tắt ii
Mục lục iii
Danh sách từ viết tắt vi
Danh sách hình vẽ vii
Danh sách bảng ix
Chƣơng 1. Giới thiệu 1
Chƣơng 2. Tổng quan về hỏi đáp 3
2.1 Tổng quan về hệ thống hỏi đáp dựa trên Ontology 3
2.2 Khái niệm về hỏi đáp (Question Answering – QA) 6
2.2.1 Khái niệm hỏi đáp 6
2.2.2 Kiến trúc hỏi đáp 6
2.2.3 Các phương pháp hỏi đáp 7
2.3 Giao diện ngôn ngữ tự nhiên miền đóng 9
2.4 Các hệ thống QA miền mở 10
2.5 Ontologies trong QA 12
Chƣơng 3. Ontology – Sesame 14
3.1 Khái niệm về Ontology 14
3.1.1 Khái niệm 14
3.1.2 Tổng quan về Ontology 14
3.1.2.1 Các thành phần của Ontology 15
3.1.2.2 Các thực thể 15
3.1.2.3 Các lớp 16
3.1.2.4 Thuộc tính 17
Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đại
4.4.1 Ánh xạ Ontology cho câu hỏi đơn giản 39
4.4.1.1 Ánh xạ Ontology đối với loại câu hỏi NORMAL 42
4.4.1.2 Ánh xạ Ontology đối với loại câu hỏi UNKN_REL 43
4.4.1.3 Ánh xạ Ontology đối với loại câu hỏi UNKN_TERM 44
4.4.1.4 Ánh xạ Ontology đối với loại câu hỏi AFFIRM_NEG 46
4.4.2 Ánh xạ Ontology đối với loại câu hỏi ―THREETERM‖ 47
4.5 Trích chọn câu trả lời 51
Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đại
v 4.5.1 Trích chọn câu trả lời cho loại câu hỏi ―NORMAL‖, ―UNKN_REL‖ 52
4.5.2 Trích chọn câu trả lời cho loại câu hỏi ―UNKN_TERM‖ 54
4.5.3 Trích chọn câu trả lời cho loại câu hỏi ―AFFIRM_NEG‖ 56
4.5.4 Trích chọn câu trả lời cho loại câu hỏi ―THREETERM‖ 57
Chƣơng 5. Kết quả thực nghiệm và thảo luận 59
5.1 Kết quả thực nghiệm 59
5.2 Thảo luận 61
Chƣơng 6. Kết luận 62
Phụ lục A 63
Tài liệu tham khảo 66 Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đại
vii Danh sách hình vẽ
Hình 2.1. Tổng quan về hệ thống hỏi đáp dựa trên Ontologies [2] 4
Hình 3.1. Ví dụ về lớp trong Ontology [58] 16
Hình 3.2. Ví dụ về lớp ô tô 18
Hình 3.3. Sesame server [59] 21
Hình 3.4. Kiến trúc của Sesame [59] 22
Hình 3.5. Cấu hình Sesame 25
Hình 3.6. Cấu hình kho dữ liệu có sẵn trong Sesame 26
Hình 3.7. Giao diện web của Sesame 28
Hình 4.1. Kiến trúc tổng quan của hệ thống hỏi đáp tiếng Việt dựa trên Ontology 29
Hình 4.2. Kiến trúc của thành phần tìm kiếm câu trả lời 30
Hình 4.3. Các lớp trong Ontology về trường đại học 36
Hình 4.4. Các thuộc tính trong Ontology về trường đại học 37
Hình 4.5. Tổng quan về ánh xạ Ontology đối với câu hỏi đơn giản 40
Hình 4.6. Ví dụ hỏi đáp đối với loại câu hỏi ―NORMAL‖ 42
Hình 4.7. Ánh xạ Ontology tương tác với người dùng đối với loại câu hỏi
―UNKN_REL‖ 43
Hình 4.8. Ví dụ hỏi đáp đối với loại câu hỏi ―UNKN_TERM‖ 44
Hình 4.9. Ví dụ hỏi đáp đối với loại câu hỏi ―UNKN_TERM‖ 45
Hình 4.10. Ví dụ hỏi đáp đối với loại câu hỏi AFFIRM_NEG 46
Hình 4.11. Tổng quan ánh xạ Ontology với loại câu hỏi ―THREETERM‖ 47
Hình 4.12. Ví dụ hỏi đáp đối với câu hỏi về số lượng 51
Hình 4.13. Trích chọn câu trả lời đối với loại câu hỏi ―NORMAL‖, ―UNKN_REL‖ 52
Hình 4.14. Ví dụ hỏi đáp đối với loại câu hỏi ―NORMAL‖, ―UNKN_REL‖ 53
Hình 4.15. Thành phần trích chọn câu trả lời đối với loại câu hỏi ―UNKN_TERM‖ 54
Hình 4.16. Ví dụ hỏi đáp đối với loại câu hỏi ―UNKN_TERM‖ 55
Hình 4.17. Ví dụ hỏi đáp đối với loại câu hỏi ―UNKN_TERM‖ 55 1 Chƣơng 1.
Giới thiệu
Trong tìm kiếm thông tin, hỏi đáp (Question Answering – QA) là nhiệm vụ tự
động trả lời câu hỏi dưới dạng ngôn ngữ tự nhiên. Các câu hỏi trong một miền ứng
dụng cụ thể có thể được trả lời thông qua các kỹ thuật xử lý ngôn ngữ tự nhiên. Nhưng
các hệ thống gặp phải vấn đề: làm thế nào mô tả được tri thức trong miền ứng dụng.
Các nghiên cứu hiện nay tập trung vào sử dụng Ontology làm cơ sở tri thức, do
Ontology có khả năng mô tả một tập các khái niệm trong miền cụ thể và các mối quan
hệ giữa các khái niệm. Hiện nay, nhu cầu tìm kiếm thông tin tiếng Việt dưới dạng hỏi
đáp là rất lớn nhưng các hệ thống hỏi đáp cho tiếng Việt còn chưa có nhiều nghiên cứu
ứng dụng cụ thể.
Trong khóa luận này, chúng tôi đề xuất ―Phƣơng pháp xây dựng hệ thống hỏi
đáp tiếng Việt dựa trên Ontology‖. Phương pháp của chúng tôi có thể áp dụng cho
nhiều miền tri thức. Dựa vào phương pháp của mình, chúng tôi xây dựng một hệ thống
thử nghiệm trên miền tri thức trường đại học, mà cụ thể là miền tri thức về Đại học
Công Nghệ. Chúng tôi thiết kế một Ontology thử nghiệm cho miền tri thức này. Các
câu hỏi liên quan đến miền này sau khi đã phân tích [1], được ánh xạ vào trong
Ontology đã thiết kế. Rồi từ đó, chúng tôi hình thành nên các bộ mô tả tương ứng với
Ontology. Tiếp đến, chúng tôi trích chọn ra câu trả lời ngữ nghĩa tốt nhất có thể cho
câu hỏi của người dùng. Những kết luận và đánh giá về hệ thống hỏi đáp tiếng Việt
cho thấy hệ thống hoạt động tốt với các câu hỏi được hỏi.
Phần còn lại của khóa luận được chia thành:
Chƣơng 2: Chúng tôi giới thiệu tổng quan về hệ thống hỏi đáp dựa trên
Chƣơng 2.
Tổng quan về hỏi đáp
2.1 Tổng quan về hệ thống hỏi đáp dựa trên Ontology
Trong tìm kiếm thông tin, hỏi đáp (Question Answering – QA) là nhiệm vụ tự
động trả lời câu hỏi dưới dạng ngôn ngữ tự nhiên. Để tìm câu trả lời cho một câu hỏi,
một chương trình máy tính có thể sử dụng một cơ sở dữ liệu tiền cấu trúc hoặc sử dụng
một tập các văn bản ngôn ngữ tự nhiên.
Trong khoa học máy tính, Ontology là biểu diễn hình thức của một tập các khái
niệm trong miền cụ thể và các mối quan hệ giữa các khái niệm. Ontology được dùng
để suy luận các thuộc tính trong miền, có thể được dùng để định nghĩa miền [56].
Đa số các phương pháp phổ biến trong việc xác định thông tin cần thiết là sử
dụng công cụ tìm kiếm. Với câu hỏi đầu vào, các công cụ này đưa ra câu trả lời đơn
giản với việc so khớp các từ khóa. Xử lý ngôn ngữ tự nhiên (Natural Language
Processing – NLP) được sử dụng để nhận ra cấu trúc cú pháp và ngữ nghĩa của câu
hỏi, và các tài liệu thích hợp chứa đựng các câu trả lời cho câu hỏi sẽ được trả lại. Đấy
là đối với các câu hỏi đơn giản, nhưng các công cụ này sẽ khó có thể thực hiện được
với các câu hỏi phức tạp gồm các câu hỏi how, why hoặc what.
Vấn đề chính ở đây là các ứng dụng hỏi đáp duy trì việc hoàn thiện công cụ tìm
kiếm dựa vào từ khóa cho đến khi đòi hỏi NLP hiểu cấu trúc ngữ nghĩa cũng như cấu
trúc cú pháp của câu hỏi. Việc biểu diễn rõ ràng các ngữ nghĩa của dữ liệu trong miền
ứng dụng cụ thể tạo khả năng cung cấp một dịch vụ ở mức độ mới.
Phân tích và nghiên cứu những suy luận trong Ontology cho hệ thống hỏi đáp tạo
khả năng mô tả ngữ nghĩa cho miền ứng dụng. Trong Ontology, các thuật ngữ cùng
với quan hệ được định nghĩa rõ ràng trong miền cụ thể đã cho phép chia sẻ và sử dụng
lại tri thức. Với ưu điểm được đưa ra, Ontology được sử dụng để miêu tả một miền
Chương 3. Ontology – Sesame Nguyễn Quốc Đại
dưới dạng quan hệ chủ thể -quan hệ - đối tượng.
Mối quan hệ ngữ nghĩa có thể được nhận biết với sự hỗ trợ của WordNet.
WordNet là một cơ sở dữ liệu từ vựng trực tuyến cùng với một tập các nghĩa. Wordnet
được sử dụng để tìm kiếm quan hệ (liên kết is-a và part-of) giữa các khái niệm đối với
các từ đồng âm, các từ đồng nghĩa để giảm sự dư thừa về nhãn. Quan hệ thường biểu
diễn dưới dạng các động từ, và có thể được trích ra bởi so khớp động từ và các khái
niệm trong câu.
Chương 3. Ontology – Sesame Nguyễn Quốc Đại
6 2.2 Khái niệm về hỏi đáp (Question Answering – QA)
2.2.1 Khái niệm hỏi đáp
7 nhiều kỹ thuật NLP khác nhau để tìm ra các câu trả lời. Các hệ thống QA hiện nay
thường bao gồm một module phân loại câu hỏi, giúp xác định loại câu hỏi và loại câu
trả lời tương ứng. Sau khi phân tích câu hỏi, hệ thống sẽ sử dụng một số module áp
dụng các kỹ thuật NLP phức tạp lên một lượng văn bản đã được giảm bớt nhờ module
phân tích câu hỏi. Tiếp theo, một module phục hồi tài liệu sử dụng các công cụ tìm
kiếm, module này dùng để nhận dạng tài liệu hoặc đoạn văn bản trong tập tài liệu có
khả năng chứa câu trả lời trong đó. Sau đó, một bộ lọc sẽ chọn sẵn một đoạn văn bản
ngắn có chứa chuỗi kí tự cùng kiểu với câu trả lời được chờ đợi. Ví dụ, nếu câu hỏi là:
“Who invented Penicillin?”
Bộ lọc trả lại văn bản có chứa tên người. Cuối cùng, một module trích chọn câu
trả lời tìm kiếm thêm các liên kết trong văn bản để quyết định xem trong số các đáp án
đã đuợc lọc ra thì đâu là đáp án thực sự.
2.2.3 Các phƣơng pháp hỏi đáp
Hỏi đáp (Question Answering – QA) phụ thuộc rất nhiều vào tập tài liệu tìm kiếm
có tốt hay không. Nếu hệ thống không tìm ra được các tài liệu có chứa câu trả lời thì
gần như không có hệ thống QA nào thực hiện được. Vì vậy, quy mô tập tài liệu càng
lớn thì càng có ích cho quá trình trả lời câu hỏi, trừ trường hợp lĩnh vực mà câu hỏi đề
cập đến khác hoàn toàn so với tài liệu sẵn có.
Trong các tập dữ liệu lớn, khái niệm về dư thừa dữ liệu là số lượng lớn thông tin
có khả năng được diễn đạt theo nhiều cách khác nhau trong các tài liệu và ngữ cảnh
khác nhau. Điều này dẫn đến 2 lợi ích sau:
(1) Thông tin thích hợp xuất hiện duới nhiều hình thức khác nhau sẽ giúp hệ
thống QA thực hiện các kỹ thuật NLP phức tạp một cách dễ dàng hơn.
(2) Các câu trả lời đúng có thể được lọc ra bởi câu trả lời thích hợp sẽ xuất hiện
nhiều lần hơn trong các tài liệu so với các trường hợp trả lời không chính xác.
Phân tích bề nổi: Một vài phương pháp trả lời câu hỏi sử dụng các kỹ thuật dựa
giới hạn về không gian và thời gian, các câu hỏi hội thoại, các câu hỏi nhập nhằng cần
tất cả những phương pháp phân tích chiều sâu như trên để hệ thống nhận biết câu hỏi.
Tương tự như vậy, những đoạn văn bản phức tạp hoặc nhập nhằng cũng cần được áp
dụng nhiều phương pháp NLP để nhận ra được nội dung văn bản.
Hỏi đáp (QA) thống kê giới thiệu các module xử lý câu hỏi dựa vào thống kê và
trích chọn ra câu trả lời. Nhiều công cụ NLP như kỹ thuật nhận dạng thực thể có tên,
phân tích cú pháp, gán nhãn từ loại, nhận dạng ranh giới câu và phục hồi tài liệu có thể
sử dụng như là các ứng dụng thống kê.
Mục dưới đây, chúng tôi tìm hiểu một số hệ thống hỏi đáp dựa vào phân loại
miền đóng, miền mở, giới thiệu vài hệ thống hỏi đáp có sử dụng Ontology. Chúng tôi
mô tả qua một số ưu nhược điểm của các hệ thống đó, đồng thời cũng giới thiệu qua
các phương pháp mà các hệ thống này sử dụng để tìm kiếm câu trả lời cho câu hỏi.
Chương 3. Ontology – Sesame Nguyễn Quốc Đại
9 2.3 Giao diện ngôn ngữ tự nhiên miền đóng
Giao diện ngôn tự nhiên (Natural Language Interface) miền đóng là các hệ thống
hỏi đáp dựa trên cơ sở dữ liệu. Các câu hỏi được đặt ra dưới dạng ngôn ngữ tự nhiên,
từ đó truy vấn vào cơ sở dữ liệu. Phần lớn các hệ thống NLIDB (Natural Language
Interface to Database) đầu tiên được tạo ra với một cơ sở dữ liệu đặc biệt. Do vậy, các
thống hỏi đáp này không thể sửa đổi dễ dàng để sử dụng kèm với các cơ sở dữ liệu
khác, và cũng khó áp dụng đối với các miền ứng dụng khác. Một vài hệ thống NLIDB
sử dụng kỹ thuật so khớp mẫu, Androutsopoulos [6] đưa ra ví dụ câu hỏi có chứa từ
―capital‖ theo sau tên nước, thì hệ thống này đưa ra tên thủ đô tương ứng với tên nước
sở dữ liệu dựa trên ngữ nghĩa học hình thức [19], đã tạo ra phân biệt rõ ràng giữa thao
tác đầu và thao tác cuối trong quá trình xử lý ngôn ngữ tự nhiên (Natural Language –
NL). Thao tác đầu cung cấp một ánh xạ giữa các câu tiếng Anh tới các biểu thức ngữ
nghĩa học, và thao tác cuối ánh xạ các biểu thức này vào trong các biểu thức ý nghĩa
đối với miền câu hỏi. TEAM [41] là một hệ thống NLIDB thí nghiệm, linh hoạt được
phát triển vào những năm 1980. Hệ thống hỏi đáp TEAM, bao gồm hai thành phần
chính: (1) thành phần ánh xạ các biểu thức NL thành các biểu diễn hình thức, (2) thành
phần chuyển đổi những biểu diễn này thành các câu lệnh đối với cơ sở dữ liệu. TEAM
[41] tạo ra sự phân tách giữa quá trình ngôn ngữ và quá trình ánh xạ lên KB.
PRECISE [47] là chương trình ánh xạ các câu hỏi tới truy vấn SQL tương ứng
bởi việc nhận dạng các lớp câu hỏi đơn giản. Các câu hỏi là một tập các cặp thuộc tính
– giá trị và cùng với một quan hệ. Mỗi thuộc tính trong cơ sở dữ liệu được liên kết với
một wh-value (what, when, where,…). Trong chương trình PRECISE, một bộ từ vựng
được sử dụng để tìm các từ đồng nghĩa. Tuy nhiên, trong chương trình PRECISE, việc
tìm một ánh xạ dựa theo từ vựng cho cơ sở dữ liệu đòi hỏi mọi từ vựng phải riêng biệt
với nhau. Hệ thống này không thể phân tích được ngữ nghĩa các câu hỏi có chứa các từ
mà hệ thống chưa biết, vì thế chương trình không thể xử lý được câu hỏi này. Nói cách
khác, chương trình PRECISE sẽ không trả lời các câu hỏi mà chứa những từ không có
sẵn trong từ điển của nó.
2.4 Các hệ thống QA miền mở
Các ứng dụng QA dành cho văn bản thường gồm 2 bước, được trích dẫn bởi
Hirschman [26]: (1) Nhận dạng các kiểu ngữ nghĩa của đối tượng được tìm kiếm bởi
câu hỏi, (2) Xác định các ràng buộc bổ sung cho đối tượng trả lời. Các ràng có thể là
các từ khóa (số lượng từ khóa có thể được khuếch đại do việc sử dụng các từ đồng
nghĩa hoặc các biến thể hình thái) dùng để so khớp đối với các câu trả lời. Các ràng
buộc cũng có thể là các mối quan hệ cú pháp hoặc ngữ nghĩa giữa một đối tượng trả
lời và các đối tượng khác trong câu hỏi. Do vậy, nhiều hệ thống khác đã hình thành
phân cấp loại câu hỏi dựa vào dạng câu trả lời tìm kiếm.
Trong chương trình LASSO [45], phân cấp loại câu hỏi được hình thành từ việc
phân tích dữ liệu huấn luyện TREC-8 (Text Retrieval Conference – 8). Khi nhận được
hệ ngữ nghĩa sau khi tài liệu được phân tích cú pháp và cây cú pháp được kiểm tra.
Các bộ ba trong DIMAP sẽ được lưu lại trong một cơ sở dữ liệu với mục đích dùng để
trả lời các câu hỏi. Bộ ba quan hệ ngữ nghĩa được đề cập ở trên bao gồm các đối tượng
(SUBJ, OBJ, TIME, NUM, ADJMOD), có một quan hệ ngữ nghĩa mô tả lại vai trò của
đối tượng, và một từ trong câu có liên quan tới đối tượng này. Một bộ ba thường tương
đương với một hình thái logic. Các đối tượng là thành phần chủ chốt của các bộ ba
trong DIMAP, các thành phần quan trọng (các danh từ chính, động từ chính và bất cứ
tính từ hoặc danh từ bổ nghĩa nào) đuợc xác định cho mỗi loại câu hỏi. Hệ thống phân
các câu hỏi ra làm sáu loại câu hỏi: thời gian, địa điểm, ai, cái gì, kích cỡ và số lượng.
Chương 3. Ontology – Sesame Nguyễn Quốc Đại
12 PiQASso [8] sử dụng một phép phân loại câu hỏi để phân loại các câu hỏi về:
người, tổ chức, thời gian, số lượng và vị trí (là các loại cơ bản). Ngoài ra, PiQASso
còn có thêm 23 loại danh từ trong WordNet. Loại câu trả lời có thể được kết hợp với
các loại danh từ này. Ví dụ, trong câu hỏi có chứa ―who‖, ―where‖ thì loại câu trả lời
sẽ là về ―person‖ hoặc ―organization‖. Các loại câu hỏi có thể được xác định trực tiếp
từ các từ để hỏi: ―who‖, ―when‖, ―where‖. Có nhiều trường hợp cần thêm các thông tin
bổ sung khác. Ví dụ, với các câu hỏi ―how‖ thì loại câu hỏi được tìm thấy từ tính từ
theo sau từ ―how‖ (―how many‖ hoặc ―how much‖) để chỉ số luợng, hoặc ―how long‖,
―how old‖ để chỉ thời gian, v.v… Loại câu hỏi ―what (noun)‖ thường là ngữ nghĩa của
danh từ đã được xác định bởi WNSense. WNSense là một công cụ dùng cho việc phân
loại nghĩa của từ. Các câu hỏi thuộc dạng ―what (verb)‖ có cùng loại câu trả lời với đối
tượng của động từ. Các câu hỏi ―what is‖ cũng dựa vào việc xác định ngữ nghĩa của từ
để hỏi. Tuy nhiên, PiQASso nhận định không phải lúc nào cũng có thể chỉ cần tìm ra
được liên kết với các khái niệm trong KB. Khi một khái niện đưa ra, các loại câu hỏi
thích hợp hoặc tương ứng chính là loại câu hỏi gắn liền với khái niệm của chính câu
hỏi đó. Các câu hỏi cung cấp ngữ cảnh để hệ thống dựa vào đó tìm ra đáp án cho câu
hỏi tìm kiếm.
Các hệ thống hỏi đáp (Question Answering – QA) cho phép người dùng đưa ra
một câu hỏi dưới dạng ngôn ngữ tự nhiên và nhận được câu trả lời ngắn gọn, trong
nhiều trường hợp còn có kèm theo ngữ cảnh cụ thể. AquaLog [3] là một hệ thống QA
ngôn ngữ tự nhiên dựa trên Ontology, và dựa vào tri thức đã được mã hóa trong
Ontology. Hệ thống này cũng dựa vào chức năng ngữ nghĩa học để loại bỏ nhập nhằng
về nghĩa của các câu hỏi và đưa ra các câu trả lời. AquaLog sử dụng biểu diễn trung
gian trong suốt quá trình xử lý, từ việc biểu diễn câu hỏi người dùng đến việc biểu
diễn thành một bộ mô tả tương ứng với Ontology. Trong AquaLog, sự nhập nhằng của
NL được tính đến, vì thế, nếu giai đoạn phân tích câu hỏi không có khả năng loại bỏ
tính nhập nhằng này thì nó vẫn sẽ xuất hiện trong giai đoạn tiếp theo. AquaLog có khả
năng lập luận về cấu trúc Ontology để tạo ý nghĩa c ho các lớp hoặc các mối quan hệ.
AquaLog phân loại câu hỏi căn cứ trên loại bộ ba là biểu diễn ngữ nghĩa của câu hỏi.
Trong khi đó, hầu hết các hệ thống QA miền mở lại phân loại các câu hỏi theo mục
tiêu trả lời. Aqualog tìm kiếm các mối quan hệ giữa các thuật ngữ, hoặc giữa một thuật
ngữ với giá trị của nó. AquaLog dùng một bộ ba cho một mối quan hệ giữa các thuật
ngữ, cho dù mối quan hệ này không rõ ràng.
Chúng tôi tin tưởng vào các ưu điểm chính của một hệ thống hỏi đáp dựa trên
Ontology trong Web ngữ nghĩa. Khi đã so sánh các loại hệ thống hỏi đáp khác nhau,
hệ thống hỏi đáp dựa trên Ontology có thể sử dụng miền tri thức được cung cấp bởi
Ontology để xử lý các từ không được tìm thấy trong cơ sở tri thức và loại bỏ nhập
nhằng về nghĩa của từ. Do vậy, chúng tôi đưa ra hệ thống hỏi đáp cho tiếng Việt dựa
trên Ontology (chương 4). Trong chương 3, chúng tôi giới thiệu các khái niệm liên
quan tới Ontology, các khái niệm về Sesame, cấu hình Sesame server để lưu trữ
Ontology cho hệ thống của chúng tôi.