ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
NGUYỄN CHÁNH THÀNH
XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
LUẬN ÁN TIẾN SĨ KỸ THUẬT TP.HỒ CHÍ MINH – 2010 ĐẠI HỌC QUỐC GIA TP. HCM
thân. Tất cả những tham khảo từ các nghiên cứu liên quan ñiều ñược nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những ñóng góp
trong luận án là kết quả nghiên cứu của tác giả ñã ñược công bố trong các bài báo
khoa học trong phần “Các công trình khoa học” của luận án và chưa ñược công bố
trong bất kỳ công trình khoa học nào khác.
Tác giả luận án
Nguyễn Chánh Thành
LỜI CẢM ƠN
Trong quá trình hoàn thành luận án này, tôi ñã ñược các thầy cô nơi cơ sở
ñào tạo giúp ñỡ tận tình, cơ quan nơi công tác tạo mọi ñiều kiện thuận lợi và bạn bè
cùng gia ñình thường xuyên ñộng viên khích lệ.
Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và
sự giúp ñỡ quí báu của PGS.TS. Phan Thị Tươi, giáo viên hướng dẫn mà tôi tôn
vinh và muốn ñược bày tỏ lòng biết ơn sâu sắc nhất.
Tôi cũng muốn ñược bày tỏ lòng biết ơn ñối với tập thể các thầy cô khoa
Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa TP. Hồ Chí Minh ñã
giúp ñỡ và tạo ñiều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở
Khoa; ñặc biệt PGS.TS. Cao Hoàng Trụ, PGS.TS. Dương Tuấn Anh, PGS.TS. Đỗ
Phúc và TS. Đặng Trần Khánh ñã có những lời khuyên quý giá trong quá trình làm
NCS và viết luận án này; cảm ơn Phòng quản lý Sau Đại học về sự hỗ trợ các thủ
tục hoàn thành luận án.
Sự biết ơn của tôi xin ñược gửi ñến gia ñình, vợ con và người thân, ñã hỗ trợ
ñộng viên và tạo mọi ñiều kiện thuận lợi cho tôi trong suốt quá trình hoàn thành
khóa học NCS.
Cuối cùng tôi cảm ơn anh Ngô Hùng Phương cùng tất cả bạn bè, ñặc biệt các
thành viên trong nhóm nghiên cứu BK-NLP (thuộc trường Đại học Bách khoa
phương pháp hoàn thiện và mở rộng truy vấn. Phần thực nghiệm của luận án ñược
tiến hành cho ngôn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ
nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực. Các kết quả thực
nghiệm phản ánh tính khả thi của những phương pháp ñề xuất trong luận án, ñồng
thời cho thấy nhiều triển vọng phát triển của các ñề xuất lý thuyết trong luận án.
i MỤC LỤC
MỤC LỤC ..................................................................................................................... i
DANH MỤC CÁC BẢNG ............................................................................................... iii
DANH MỤC CÁC HÌNH .................................................................................................. v
DANH MỤC CÁC GIẢI THUẬT ................................................................................. vii
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... viii
Chương 1
GIỚI THIỆU .............................................................................................. 1
1.1
Động cơ nghiên cứu ............................................................................................. 1
1.2
2.3
Các nghiên cứu về ontology .............................................................................. 19
2.4
Các nghiên cứu về mở rộng truy vấn ................................................................. 23
2.5
Khai thác dữ liệu từ WordNet ............................................................................ 39
2.6
Tóm lược ............................................................................................................ 44
Chương 3
XÂY DỰNG NỀN TẢNG HỆ THỐNG ................................................. 46
3.1
Giới thiệu ........................................................................................................... 46
3.2
Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở rộng truy vấn ........... 46
3.3
4.3
Phương pháp huấn luyện dựa trên kho ngữ liệu ................................................ 95
4.4
Phương pháp huấn luyện dựa trên WordNet ................................................... 100
4.5
Cơ chế tự huấn luyện của ontology OOMP ..................................................... 107
4.6
Các ứng dụng của ontology và quan hệ ........................................................... 109
4.7
Tóm lược .......................................................................................................... 110
Chương 5
HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN....................................... 112
5.1
Giới thiệu ......................................................................................................... 112
ii
MỞ RỘNG TRUY VẤN ........................................................................ 142
6.1
Mở rộng truy vấn cho ñộng cơ tìm kiếm trên Web ......................................... 142
6.2
Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn .............................. 153
6.3
Tóm lược .......................................................................................................... 165
Chương 7
KẾT LUẬN ............................................................................................. 167
7.1
Các kết quả ñạt ñược ........................................................................................ 167
7.2
Hướng phát triển .............................................................................................. 171
7.3
Lời kết .............................................................................................................. 172
Phụ lục G.
Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án ........................... siii DANH MỤC CÁC BẢNG
Bảng 3.1. Danh sách mã lỗi quy ước ................................................................................... 57
Bảng 3.2. Các trường hợp liên kết giữa q và q’ ñể tính
)'|( qq℘
...................................... 63
Bảng 3.3. Các trường hợp liên kết giữa q và q’ ñể tính
)'(q℘
............................................ 63
Bảng 3.4.Tập luật sinh tiếng Anh liên quan cụm danh từ (nguồn [2]) ................................ 67
Bảng 3.5. Danh sách mẫu cơ bản ñặc tả cụm danh từ ......................................................... 68
Bảng 3.6. Thống kê thành phần dữ liệu từ TREC ............................................................... 76
Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 ..................... 78
Bảng 3.8. Thống kê mục từ, tài liệu và liên kết của nguồn dữ liệu ..................................... 79
Bảng 5.4. Số liệu thống kê các phần tử phân tích trung gian ............................................ 120
Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC ........................................... 129
Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi ................. 130
Bảng 5.7. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng mẫu ............... 130
Bảng 5.8. Thống kê các phần tử phân tích trung gian của giải thuật NPC ........................ 131
iv Bảng 5.9. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật
NPC .................................................................................................................................... 131
Bảng 5.10. Phân tích kết quả thực nghiệm của giải thuật NPC ......................................... 133
Bảng 5.11. So sánh kết quả của phương pháp tìm kiếm thô và NPC ................................ 134
Bảng 5.12. Thống kê về thời gian thực thi của giải thuật NPMR ...................................... 137
Bảng 5.13. Thống kê các phần tử phân tích trung gian của giải thuật NPMR .................. 137
Bảng 5.14. Kết quả thực nghiệm của giải thuật RNPG trên dữ liệu trung gian của giải thuật
NPMR ................................................................................................................................ 137
Bảng 5.15. Phân tích kết quả thực nghiệm của giải thuật NPMR ..................................... 139
Bảng 5.16. So sánh kết quả của phương pháp tìm kiếm thô và NPMR ............................. 140
DANH MỤC CÁC HÌNH
Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin ............... 6
Hình 1.2. Tóm tắt phân bố nội dung các vấn ñề trình bày trong luận án ............................. 13
Hình 2.1. Tổ chức hệ thống WordNet phiên bản 3.0 (*) ..................................................... 41
Hình 2.2. Cấu trúc ontology về hình ảnh của S.Zinger ....................................................... 43
Hình 2.3. Đồ thị quan hệ ngữ nghĩa của Boris .................................................................... 43
Hình 3.1. Quan hệ kết hợp OMP ......................................................................................... 55
Hình 3.2. Ví dụ về cây phân tích (hình b) ñược xây dựng từ quan hệ R
OMP
(hình a) .......... 56
Hình 3.3. Đồ thị ngữ nghĩa G có phân lớp ........................................................................... 59
Hình 3.4. Tổ chức phân cấp các mô hình ............................................................................ 61
Hình 3.5. Ví dụ về ñặc tả các mẫu trong JAPE ................................................................... 70
Hình 3.6. Tỉ lệ phân bố các mục tài liệu .............................................................................. 76
Hình 3.7. Cài ñặt chức năng xây dựng chỉ mục cho dữ liệu dạng XML ............................. 77
Hình 3.8. Tổ chức lưu trữ vật lý của các tập chỉ mục .......................................................... 78
Hình 4.6. Quan hệ R
m
ñược xây dựng từ quan hệ holonymy trong WordNet ................... 101
vi Hình 4.7. Quan hệ R
m
ñược xây dựng từ quan hệ meronymy trong WordNet .................. 101
Hình 4.8. Quan hệ R
p
ñược xây dựng từ quan hệ attribute trong WordNet....................... 101
Hình 4.9. Quan hệ R
m
ñược xây dựng từ quan hệ similar trong WordNet ........................ 101
Hình 4.10. Quan hệ R
m
và R
p
ñược xây dựng từ quan hệ similar trong WordNet ............ 102
Hình 4.11. Quan hệ R
p
ñược xây dựng từ quan hệ similar trong WordNet ....................... 102
Hình 6.5. Minh họa tính chất (6.1) .................................................................................... 154
Hình 6.6. Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm .................................. 155
Hình 6.7. Mô hình hệ thống mở rộng truy vấn kết hợp hệ thống truy xuất thông tin dựng
sẵn ...................................................................................................................................... 155
Hình 6.8. Mô hình tổ chức chỉ mục hướng ngữ nghĩa ....................................................... 156
Hình 6.9. So sánh số liên kết tạo thành theo nguồn dữ liệu ............................................... 162
Hình 6.10. So sánh tỉ lệ liên kết tạo thành theo nguồn dữ liệu .......................................... 162
Hình 7.1. Phương pháp thực hiện của vấn ñề 4 ................................................................. 172vii DANH MỤC CÁC GIẢI THUẬT
Giải thuật 4.1. Huấn luyện ontology dựa trên kho ngữ liệu .......................................... 96
Giải thuật 4.2. Huấn luyện ontology dựa trên WordNet .............................................. 103
Giải thuật 4.3. Huấn luyện ontology tự ñộng ................................................................ 107
Giải thuật 5.1. Kiểm tra cụm danh từ hoàn chỉnh ........................................................ 114
Giải thuật 5.2. Tạo cụm danh từ hoàn chỉnh ................................................................. 121
5 CNPV Complete Noun Phrase
Verification
Kiểm tra tính hoàn chỉnh của cụm
danh từ
6 CREOLE Collection of REusable
Object for Language
Engineering
Tập ñối tượng khả tái sử dụng cho
ñộng cơ ngôn ngữ
7 DC Dice Coefficient Hệ số khối
8 EEM External Expansion Model Mô hình mở rộng ngoại vi
9 FCA Formal Concept Analysis Phân tích Khái niệm Chính quy
10 GATE General Architecture for
Text Engineering
Kiến trúc tổng quát cho ñộng cơ
văn bản
11 HS Hybrid Search Tìm kiếm kết hợp
12 IDF Inverse-Document
Frequency
Tần suất nghịch ñảo tài liệu
13 IR Information Retrieval Truy xuất thông tin
14 ISE Internal Search Engine Động cơ tìm kiếm thông tin cục bộ
15 JAPE Java Annotation Patterns
Engine
Động cơ mẫu chú giải Java
16 MAP Mean Average Precision Độ chính xác trung bình bình quân
17 NPC Noun Phrase Completion Hoàn chỉnh thành phần cụm danh từ
18 NPRM Noun Phrase Member
Reduction
Rút gọn thành phần cụm danh từ
phát triển của Web là sự gia tăng rất lớn về nhu cầu truy xuất thông tin của người sử
dụng, trong ñó việc tìm kiếm các thông tin thể hiện trong ngôn ngữ tiếng Anh
chiếm tỉ lệ ñáng kể. Đặc biệt trong những năm gần ñây, nhu cầu truy cập tin tức trên
Web của người dân Việt nam rất cao (theo [4], giai ñoạn 1997-2007 internet Việt
Nam ñã liên tục phát triển với khoảng 18 triệu người tham gia sử dụng, tương
ñương 21% dân số) xuất phát từ các nhu cầu chủ yếu như xem tin tức, trao ñổi
thông tin, và ñặc biệt số lượng rất lớn là tác vụ tìm kiếm thông tin cần thiết.
Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử dụng, các hệ
thống truy xuất thông tin (IR) ñã ñược nghiên cứu và phát triển, trong ñó thành
công nhất là một số ñộng cơ tìm kiếm (search engine) nổi tiếng như Google [148] –
Yahoo [165] – Alta Vista [145] và Bing [152] trong thời gian gần ñây... Tuy nhiên,
thông qua các hệ thống ñó, việc tìm kiếm thông tin thường không nhận ñược ñầy ñủ
a
internet còn ñược gọi là World Wide Web, viết gọn là WWW hay Web
2 kết quả cần thiết như mong muốn cũng như hiệu suất của chúng còn có một số giới
hạn nhất ñịnh.
Nguyên nhân chủ yếu ảnh hưởng ñến vấn ñề này là:
− Ngữ nghĩa của tài liệu bị mất ñi do cách biểu diễn truy vấn dưới dạng một
tập các từ khóa.
− Yêu cầu thông tin (truy vấn) của người sử dụng thường chỉ bao gồm một vài
từ khóa cốt lõi, không thể hiện ñủ ngữ nghĩa cần thiết.
− Người sử dụng không cung cấp ñủ thông tin truy vấn cần thiết cho ñộng cơ
tìm kiếm.
− Động cơ tìm kiếm thông tin hoạt ñộng dựa trên cơ chế so trùng từ khóa và
chưa quan tâm ñúng mức ñến yếu tố ngữ nghĩa trong tương tác và hỗ trợ
tìm kiếm thông tin có ñộ truy hồi cao phụ thuộc vào việc so trùng các từ khóa. Đối
với việc mở rộng truy vấn, hệ thống xác ñịnh ngữ nghĩa truy vấn ñược chính xác
hơn, ñiều ñó cho phép kết quả truy vấn tốt hơn. Thông qua kết quả truy vấn mở
rộng, người dùng có thể học tập cách phát biểu truy vấn rõ ràng và chính xác hơn ñể
thu ñược các kết quả hữu ích.
Từ một truy vấn của người dùng, mở rộng truy vấn sẽ bổ sung vào ñó một số
từ hay thuật ngữ liên quan và tạo ra dạng truy vấn mới có thể bao phủ thông tin
rộng hơn. Như vậy, tài liệu mong ñợi ñể thu nhận sẽ nhiều hơn dẫn ñến tỉ lệ bao phủ
thông tin tăng lên tương ứng. Quá trình thêm những thuật ngữ này có thể thực hiện
bằng tay, tự ñộng hoặc có người dùng trợ giúp. Việc mở rộng truy vấn bằng tay dựa
vào sự am hiểu và thành thạo của con người ñể ñưa ra quyết ñịnh, nhằm nhúng các
thuật ngữ vào truy vấn mới. Trong trường hợp mở rộng tự ñộng truy vấn, các trọng
số ñược tính cho tất cả các thuật ngữ nhằm giúp hệ thống thêm những thuật ngữ có
trọng số cao nhất vào truy vấn ban ñầu. Các hàm tính trọng số khác nhau ñưa ra
những kết quả khác nhau, do ñó hiệu suất của việc truy vấn phụ thuộc vào cách thức
tính các trọng số. Với dạng mở rộng truy vấn có người dùng trợ giúp, hệ thống sẽ
sinh ra các thuật ngữ phù hợp cho việc mở rộng truy vấn và người dùng tự chọn một
số trong các thuật ngữ ñó ñể thêm vào.
4 Vấn ñề cốt lõi của bài toán mở rộng truy vấn là xác ñịnh các từ thích hợp ñể
thêm vào truy vấn của người dùng. Nhiều nghiên cứu ñược công bố về mở rộng
truy vấn trong ñó hướng ñến việc sử dụng thông tin ngữ cảnh ñể xác ñịnh các từ cần
thêm một cách hợp lý. Thông tin theo ngữ cảnh có thể thu ñược từ các thông tin
phản hồi liên quan (relevance feedback), từ các từ ñồng hiện (co-occurrence term)
và trong thời gian gần ñây là từ các mô hình tri thức như bản thể học (ontology).
Hiện nay, thông tin liên quan ngữ cảnh của truy vấn là một vấn ñề ñang ñược
các nhà nghiên cứu khai thác nhằm cải tiến quá trình truy xuất thông tin. Theo
Finkelstein [92] ngữ cảnh chưa có ñịnh nghĩa chuẩn xác, nhưng theo [124] thì có
thuật, giao diện hoặc giải thuật ñể xác ñịnh ngữ nghĩa một cách chính xác hơn từ ñó
cải tiến kết quả truy vấn.
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin (trên
internet), cùng với hướng giải quyết làm sao ñể hệ thống IR có thể hiểu nhiều hơn
và thông minh hơn khi xử lý truy vấn ban ñầu của người dùng, thì yêu cầu về một
hệ thống truy xuất thông tin có khả năng tạo ra những truy vấn tương ñồng hoặc
cùng mục tiêu là bài toán quan trọng. Do ñó, thông qua những khảo sát phân tích
nêu trên, vấn ñề mở rộng truy vấn là bài toán quan trọng mà luận án này nghiên cứu
và ñề xuất phương pháp giải quyết.
1.2 Mục tiêu và phạm vi nghiên cứu
Từ ñộng cơ nghiên cứu nêu trên, luận án ñề xuất một số phương pháp mở
rộng truy vấn ban ñầu của người dùng. Đây là vấn ñề cốt lõi và ñồng thời là mục
tiêu nghiên cứu của luận án.
Hiện nay trên thế giới nhiều phương pháp tiếp cận bài toán mở rộng truy vấn
trên cơ sở sử dụng cơ sở tri thức ñã ñược công bố như:
− Mở rộng truy vấn sử dụng cơ sở tri thức có tương tác kho ngữ liệu (công
trình [11] [22] [60] [86] [61] [102] [106] [116] [137] và [141] ...)
− Mở rộng truy vấn sử dụng các cơ sở tri thức không tương tác kho ngữ liệu
(công trình [29] [53] [54] [56] [59] [66] [76] [89] [92] [110] [136] …)
Mỗi phương pháp ñều có ưu, nhược ñiểm cùng với những công trình nghiên
cứu và các thực nghiệm liên quan. Từ việc khảo sát phân tích những phương pháp
này (xem chương 2), dựa trên những giải pháp khả thi ñã ñược công bố trên thế
giới, hướng tiếp cận chính của luận án là mở rộng truy vấn sử dụng cơ sở tri thức
không tương tác kho ngữ liệu.
Để luận án mang tính khả thi cả về lý thuyết lẫn thực tiễn và mang lại kết
quả như mong muốn, tác giả ñã thực hiện:
6 (a) Nghiên cứu và phát triển cơ sở lý thuyết của phương pháp tiếp cận mới
Bộ xử lý
mở rộng
truy vấn
trên cơ sở
kết hợp với
ontology
Động cơ
tìm kiếm
thông tin
Kết quả trả
về (tập tài
liệu)
Xuất:
Các câu truy
vấn:
- dạng cụm
danh từ,
- ñã ñược mở
rộng có dạng
truy vấn hoàn
chỉnh.
(A)
(B)
(C)
7
từ nguồn TREC và khai thác dữ liệu từ WordNet ñể huấn luyện dữ liệu ontology
OOMP nhằm phục vụ yêu cầu của bài toán 2. Nếu bài toán 1 ñược giải quyết thành
f
Tham khảo phần giới thiệu của chương 4 về lý do sử dụng nguồn tài liệu tiếng Anh trong thực nghiệm.
8 công, một ontology có chất lượng ñược tạo thành sẽ giúp cung cấp nhiều khả năng
chọn lựa cho các thông tin hơn, ñể bổ sung vào từ khóa ban ñầu của người dùng,
dẫn ñến việc nâng cao chất lượng của việc mở rộng truy vấn. Việc giải quyết bài
toán này ñược trình bày chi tiết trong chương 4 của luận án.
Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn
Dựa trên ontology ở bài toán 1, nghiên cứu xây dựng phương pháp tiếp cận
mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả có dạng truy vấn hoàn
chỉnh (biểu diễn ở dạng cụm danh từ về mặt ngôn ngữ học) và xây dựng các giải
thuật hỗ trợ trong phạm vi bài toán 2. Các chương 4, 5 và 6 sẽ lần lượt trình bày chi
tiết từng phần của những phương pháp giải quyết bài toán này.
Luận án chủ yếu tập trung xử lý truy vấn ngắn với ba thành phần nên không
nghiên cứu vấn ñề ngữ cảnh của câu truy vấn. Và thực tế việc nghiên cứu về ngữ
nghĩa của cụm từ và câu có ảnh hưởng của ngữ cảnh là vấn ñề rất khó và hiện nay
cũng ñang ñược nhiều nhà khoa học quan tâm, là lĩnh vực khác nằm ngoài phạm vi
của luận án.
1.3 Đóng góp chính của luận án
Các vấn ñề nghiên cứu của luận án ñã có một số ñóng góp mới về mặt khoa
học từ phương pháp luận ñến giải pháp thực hiện:
* Đóng góp thứ nhất: ñề xuất phương pháp xác ñịnh các quan hệ của các
khái niệm bao gồm:
− Quan hệ
m
Phần ñóng góp này sẽ không thực sự ñầy ñủ nếu không có các ñịnh nghĩa
OB
IR
MQE
+
−
,
POB
IR
MQE
++
−
,
OB
IR
MQE
+
+
,
POB
IR
MQE
++
+
cùng khái niệm truy vấn hoàn chỉnh,
cây phân tích và dạng ñồ thị ngữ nghĩa do tác giả ñề xuất, liên quan ñến việc mô
hình hóa bài toán mở rộng truy vấn.
* Đóng góp thứ hai: ñề xuất mô hình ontology OOMP cùng các phương
pháp huấn luyện dữ liệu:
− Phương pháp huấn luyện dựa trên kho ngữ liệu sẵn có (Corpus-Based
− Kiểm tra tính hoàn chỉnh của cụm danh từ tiếng Anh theo quan ñiểm ngôn
ngữ học tính toán (ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy
xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản).
− Hoàn chỉnh và mở rộng cụm danh từ tương ñương (ứng dụng trong lĩnh vực
xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược nội
dung văn bản) ….
Các phương pháp và giải thuật liên quan ñến ñóng góp này ñược giới thiệu
trong [ii], [v] và [ix].
* Đóng góp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ nghĩa
(Semantic Index Creation, SIC) thông qua việc mở rộng cấu trúc chỉ mục ñể lưu trữ
thêm thông tin liên quan ngữ nghĩa ñến ontology xác ñịnh. Đây chính là cầu nối
giúp triển khai những nghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực
truy xuất thông tin. Kết quả thu ñược từ phương pháp này tạo tiền ñề cho nhiều
nghiên cứu ứng dụng liên quan ñến truy xuất thông tin. Phương pháp này ñược trình
này trong công trình [iv] và ñược phát triển trong [iii] và [viii].
Những kết quả ñạt ñược này ñồng thời ñược áp dụng cho công trình [xii] và
dự ñịnh áp dụng cho công trình [xiii].
1.4 Cấu trúc của luận án
Luận án ñược chia thành bảy chương và bảy phụ lục. Chương 1 trình bày
mục tiêu, phạm vi và những ñóng góp chính của luận án; giới thiệu cấu trúc của
luận án; liệt kê các qui ước về ký hiệu viết tắt và tên các thuật ngữ ở dạng tiếng
nước ngoài. Trong mỗi chương tiếp theo, từ chương 2 ñến chương 6 ñều có phần
giới thiệu và phần tóm lược. Chương 7 là kết luận của luận án.
11 Chương 2 tổng thuật các nghiên cứu ở trong nước và ngoài nước liên quan
ñến luận án. Chương này trình bày một bức tranh tổng quan các hướng nghiên cứu
về vấn ñề mở rộng truy vấn, ñặc biệt là hướng kết hợp ontology, những ưu nhược
ñiểm của các phương pháp nghiên cứu hiện nay.
vẫn ñầy ñủ thông tin hơn. Những phương pháp này ñã góp phần giải quyết mục tiêu
tạo truy vấn hoàn chỉnh của Bài toán 2 nêu trên, ñồng thời ñã ñược giới thiệu trong
[v] và [xii].
Chương 6 trình bày phương pháp mở rộng truy vấn trực tiếp và gián tiếp .
Trong ñó, phương pháp ñầu tiên quan tâm ñến việc kết hợp ontology OOMP, ñể bổ
sung các thông tin về ñối tượng, thành phần cùng thuộc tính ñặc trưng vào truy vấn
ban ñầu. Từ ñó, các truy vấn ñã ñược mở rộng có thể tương tác với các ñộng cơ tìm
kiếm thông tin có sẵn ñể khai thác thông tin trên Web. Phương pháp thứ hai thực
hiện việc kết hợp ontology OOMP với hệ thống chỉ mục của một hệ thống truy xuất
thông tin có sẵn ñể tạo chỉ mục hướng ngữ nghĩa từ ñó mở rộng tập dữ liệu truy
xuất ñược. Mục tiêu mở rộng truy vấn và mở rộng kết quả tìm kiếm của Bài toán 2
ñược giải quyết bởi hai phương pháp này với những kết quả ban ñầu ñược giới thiệu
trong [iv] và [ix]. Ngoài ra [iii] và [viii] trình bày các phát triển từ hướng tiếp cận
chỉ mục hướng ngữ nghĩa ñể áp dụng cho công trình [xiii].
Chương 7 là phần tổng kết, trong ñó trình bày tóm lược kết quả luận án và
những ñề nghị hướng nghiên cứu trong tương lai, liên quan ñến luận án. Ngoài
những kết quả nêu trong các chương trên ñã ñược trình bày trong công trình [xii],
những kết quả bước ñầu của hướng nghiên cứu tiếp theo cũng ñược giới thiệu trong
[i], [iii], [vii], [viii], [x], [xi] và dự ñịnh áp dụng cho công trình [xiii].
Phần cuối của luận án là các phụ lục. Trong ñó, phụ lục A trình bày tóm lược
về WordNet. Phụ lục B giới thiệu cấu trúc cụm danh từ tiếng Anh. Phần phụ lục C
và D lần lượt trình bày danh mục các từ loại tiếng Anh và tập luật sinh trong văn
phạm tiếng Anh dựa trên Penn TreeBank. Phụ lục E tóm lược kiến thức về khái
niệm ảnh và tạo ảnh của ánh xạ trong toán học. Phụ lục F giới thiệu cấu trúc ñịnh
dạng tài liệu trong nguồn tài liệu TREC. Phần cuối là phụ lục G cung cấp sơ ñồ
minh hoạ về tổ chức cơ sở dữ liệu thực nghiệm của luận án.