Luận án Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản - pdf 14

Download miễn phí Luận án Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản



MỤC LỤC
MỤC LỤC . i
DANH MỤC CÁC BẢNG . iii
DANH MỤC CÁC HÌNH . v
DANH MỤC CÁC GIẢI THUẬT . vii
DANH MỤC CÁC TỪVIẾT TẮT . viii
Chương 1 GIỚI THIỆU . 1
1.1 Động cơnghiên cứu . 1
1.2 Mục tiêu và phạm vi nghiên cứu . 5
1.3 Đóng góp chính của luận án . 8
1.4 Cấu trúc của luận án . 10
1.5 Các quy ước . 13
1.6 Tóm tắt nội dung luận án . 13
Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN . 14
2.1 Giới thiệu . 14
2.2 Các nghiên cứu liên quan trong nước . 15
2.3 Các nghiên cứu vềontology . 19
2.4 Các nghiên cứu vềmởrộng truy vấn . 23
2.5 Khai thác dữliệu từWordNet . 39
2.6 Tóm lược . 44
Chương 3 XÂY DỰNG NỀN TẢNG HỆTHỐNG . 46
3.1 Giới thiệu . 46
3.2 Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mởrộng truy vấn . 46
3.3 Các mô hình cho bài toán mởrộng truy vấn . 60
3.4 Mẫu nhận dạng cụm danh từ. 65
3.5 Phương pháp thực nghiệm và ñánh giá . 70
3.6 Nguồn dữliệu thực nghiệm . 74
3.7 Tóm lược . 88
Chương 4 XÂY DỰNG ONTOLOGY OOMP. 90
4.1 Giới thiệu . 90
4.2 Xây dựng ontology OOMP. 90
4.3 Phương pháp huấn luyện dựa trên kho ngữliệu . 95
4.4 Phương pháp huấn luyện dựa trên WordNet . 100
4.5 Cơchếtựhuấn luyện của ontology OOMP. 107
4.6 Các ứng dụng của ontology và quan hệ. 109
4.7 Tóm lược . 110
Chương 5 HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN. 112
5.1 Giới thiệu . 112
5.2 Hoàn chỉnh và rút gọn truy vấn . 113
5.3 Kiểm tra cụm danh từhoàn chỉnh . 114
5.4 Tạo cụm danh từhoàn chỉnh . 121
5.5 Tạo cụm danh từrút gọn . 122
5.6 Hoàn chỉnh cụm danh từ. 123
5.7 Giải thuật rút gọn thành phần cụm danh từ. 135
5.8 Tóm lược . 140
Chương 6 MỞRỘNG TRUY VẤN . 142
6.1 Mởrộng truy vấn cho ñộng cơtìm kiếm trên Web . 142
6.2 Mởrộng truy vấn cho hệthống truy xuất thông tin có sẵn . 153
6.3 Tóm lược . 165
Chương 7 KẾT LUẬN . 167
7.1 Các kết quả ñạt ñược . 167
7.2 Hướng phát triển . 171
7.3 Lời kết . 172
CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ. 174
TÀI LIỆU THAM KHẢO . 177
Phụlục A. Tóm lược vềWordNet . a
Phụlục B. Cấu trúc cụm danh từtiếng Anh . c
Phụlục C. Danh mục từloại tiếng Anh . g
Phụlục D. Danh mục luật sinh dạng cụm danh từcủa văn phạm tiếng Anh xây
dựng dựa trên TreeBank . i
Phụlục E. Tính chất ảnh-tạo ảnh trong toán học . o
Phụlục F. Cấu trúc ñịnh dạng tài liệu TREC . p
Phụlục G. Tổchức cơsởdữliệu của thực nghiệm trong luận án .



Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung:

nh phần này
còn xác ñịnh vị trí của từ ñó trong danh mục từ của cơ sở dữ liệu.
Dữ liệu phục vụ việc huấn luyện ontology OOMP
Tập TRAINING_DATA có số lượng 247.988 cụm danh từ thuộc chín dạng
mẫu (ñã trình bày trong bảng 3.11) ñược trình bày trong hình 3.17 sau.
18810
46751 47710
95738
20632
6453 8463 2857 574
0
20000
40000
60000
80000
100000
120000
M3 M178 M184 M186 M192 M195 M196 M204 M209
Số

ợn
g
Dạng mẫu
Hình 3.17. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu
87
Dữ liệu dùng ñể thử nghiệm cho các giải thuật
Tập dữ liệu TEST_DATA gồm 12.282 cụm danh từ ñược chọn lọc ñể kiểm tra
thử nghiệm trong các giải thuật trong chương 5 và 6 của luận án. Trong ñó, các cụm
danh từ này ñược chia theo các nhóm mẫu (như hình 3.18) phân bổ cho các trường
hợp liên quan ñến cụm từ chưa hoàn chỉnh.
305
2592
276
712
186
189
154
1463
143
584
1048
431
314
201
159
542
592
1027
331
192
211
165
155
162
148
0 500 1000 1500 2000 2500 3000
M3
M60
M71
M81
M85
M87
M89
M99
M102
M103
M116
M125
M142
M149
M150
M178
M184
M186
M192
M195
M196
M203
M204
M205
M209
Số lượng
D
ạn
g
m
ẫu
Hình 3.18. Phân bổ cụm danh từ trong tập TEST_DATA theo các nhóm mẫu
Dữ liệu ñược dùng ñể phân tích ñánh giá kết quả của các giải thuật
Từ tập dữ liệu thử nghiệm TEST_DATA nêu trên, tác giả sử dụng hệ thống
ISE thực hiện việc tìm kiếm chính xác cho mỗi cụm danh từ trong tập TEST_DATA
88
trong những nguồn dữ liệu ở bảng 3.6. Kết quả của mỗi lần tìm kiếm này ñược lưu
vào một bộ dữ liệu kết quả chứa các thành phần gồm <Nguồn dữ liệu, Tài liệu tìm
thấy, Cụm danh từ tìm kiếm, Điểm số từ Lucene> trong bảng Search_Data_Result
của cơ sở dữ liệu thực nghiệm. Quá trình tìm kiếm này thu ñược 438.482 bộ dữ liệu
kết quả, ñây chính là các số liệu cơ bản ñóng vai trò quan trọng trong việc phục vụ
việc phân tích ñánh giá so sánh kết quả của những giải thuật trong chương 5 và 6
của luận án.
3.7 Tóm lược
Chương 3 là chương mà tác giả ñã tập trung trình bày cơ sở lý thuyết ñể làm
nền tảng cho các bước nghiên cứu tiếp theo của luận án . Mô hình 1 và 3 ( OBIRMQE +− ,
OB
IRMQE
+
+ ) ñược tác giả ñề xuất, ñã áp dụng các phương pháp tiên tiến ñể mở rộng
truy vấn. Các phương pháp này ñã ñược công bố trên thế giới. Mô hình 1 và 3 xác
ñịnh trúc và các thành phần của hệ thống mở rộng truy vấn. Mô hình 2 và 4
( POBIRMQE ++− , POBIRMQE +++ ) ñược tác giả phát triển từ mô hình 1 và 3 bằng sự kết hợp
phương pháp mở rộng truy vấn dựa trên ontology và phương pháp xác suất thống
kê. Mô hình POBIRMQE ++− sẽ ñược trình bày chi tiết trong chương 6 cho giải pháp
hoàn chỉnh và mở rộng truy vấn. Cònmô hình POBIRMQE +++ sẽ ñược trình bày trong
bài toán Hybrid Search ở phần cuối của chương 6.
Các quan hệ ngữ nghĩa ñược ñề xuất trong chương 3 ñã cung cấp cơ sở lý
thuyết cho việc phát triển ontology OOMP (Ontology of Object-Member-Property)
(ñược trình bày trong chương 4). OOMP ñóng vai trò vô cùng quan trọng cho
phương pháp tiếp cận chủ ñạo của hướng nghiên cứu của luận án. Trong phương
pháp này, tác giả ñã xây dựng các giải thuật sau:
− Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun Phrase
Verification, CNPV).
− Hoàn chỉnh thành phần cụm danh từ (Noun Phrase Completion, NPC).
− Rút gọn thành phần cụm danh từ (Noun Phrase Member Reduction, NPRM).
89
− Mở rộng cụm danh từ tương ñương (Similar Noun Phrase Expansion,
SNPE).
Các giải thuật trên sẽ ñược trình bày trong các chương 5 và 6. Việc ñề xuất mẫu xác
ñịnh cụm danh từ trong phần cuối chương 3 ñã góp phần hỗ trợ việc huấn luyện dữ
liệu cho ontology OOMP (ñược trình bày ở chương 4) và phân tích truy vấn ban ñầu
của người dùng, ñể tạo dữ liệu ñầu vào cho các giải thuật nêu trên.
Cuối chương này, các phương pháp ñánh giá kết quả thực nghiệm, môi
trường và công cụ hỗ trợ thực nghiệm, dữ liệu sử dụng trong thực nghiệm hiện ñại,
cũng như nguồn dữ liệu sử dụng trong thực nghiệm của các giải thuật của luận án ñã
ñược trình bày chi tiết. Qua các phương pháp ñánh giá ñã cho thấy ưu, nhược ñiểm
của các giải thuật mà tác giả ñã ñề xuất trong quá trình nghiên cứu của luận án. Việc
khai thác nguồn dữ liệu từ TREC ñể xây dựng tập các chỉ mục cho hệ thống ISE
cũng như phương pháp rút trích các cụm danh từ ñể xây dựng tập dữ liệu
TEST_DATA và TRAINING_DATA ñã ñược trình bày khá ñầy ñủ trong chương này.
90
Chương 4
XÂY DỰNG ONTOLOGY OOMP
4.1 Giới thiệu
Với những ưu ñiểm và lợi ích khi ứng dụng ontology vào việc mở rộng truy
vấn và truy xuất thông tin (trình bày trong phần 2.2, chương 2), việc phát triển một
ontology nhằm phục vụ bài toán mở rộng truy vấn của luận án ñóng vai trò quan
trọng. Hơn nữa, do các bài toán xử lý trong luận án liên quan ñến khái niệm cụm
danh từ hoàn chỉnh với những quan hệ ngữ nghĩa như ROMP, Rm và Rp, nhưng
WordNet chưa ñáp ứng ñầy ñủ các yêu cầu cần thiết, ñồng thời giải pháp mở rộng
WordNet ñể bổ sung các dạng quan hệ nêu trên ñòi hỏi nhiều thời gian, công sức ...
không hoàn toàn khả thi cho luận án. Vì vậy, việc xây dựng riêng biệt ontology
OOMP phục vụ cho nghiên cứu của luận án là vấn ñề cần thiết nhằm kiến tạo nhóm
các mạng ngữ nghĩa tương ứng cho các quan hệ ngữ nghĩa này.
Dựa trên cơ sở lý thuyết ñề xuất ở chương 3, trong chương 4 các vấn ñề lần
lượt ñược trình bày liên quan ñến việc giải quyết Bài toán 1 của luận án về phát
triển ontology OOMP (Ontology of Object–Member–Property) như xác ñịnh cấu
trúc tổ chức, phương pháp huấn luyện, thực nghiệm.. Một phần nội dung của
chương này ñã công bố trong công trình [v] và [ix].
4.2 Xây dựng ontology OOMP
Việc xây dựng ontology OOMP ñược tiến hành từ góc ñộ thiết kế kiến trúc
hệ thống, tổ chức dạng mạng ngữ nghĩa và huấn luyện ñể tạo nguồn dữ liệu cho
ontology.
91
4.2.1 Ki n trúc ontology OOMP
So với các ontology khác, ñặc trưng nổi bật nhất của ontology OOMP chính
là tổ chức phân cấp các khái niệm ngữ nghĩa dựa theo quan hệ OMPR (xem phần
3.2.5). Theo dạng quan hệ này thì một phần tử trong thực thể Object (tập O) có thể
liên kết với nhiều phần tử trong thực thể Member (tập M) và ngược lại. Tương tự,
cũng tồn tại mối liên kết nhiều-nhiều tương ứng giữa phần tử trong thực thể
Member (tập M) và phần tử trong thực thể Property (tập P). Tùy theo chiến lược
phát triển mà ontology OOMP sẽ ñược triển khai trong thực tế ở dạng cơ sở dữ liệu
quan hệ hay dạng luận lý mô tả tài nguyên.
Ở góc ñộ thiết kế cơ sở dữ liệu quan hệ, cấu trúc của ontology OOMP ñược
trình bày chi tiết trong hình 4.1.
Hình 4.1. Cấu trúc mức luận lý của ontology OOMP
Cấu trúc này ñược thể hiện chi tiết trong hình 4. 2 với các thành phần dữ liệu
tương ứng cho từng thực thể, thông qua ñó chúng ta có thể hiện thực bằng một mô
hình cơ sở dữ liệu trong thực tế.
Hình 4.2. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ
Với tổ chức dữ liệu này, mỗi phần tử của một thực thể ñều ñược thể hiện
thông qua một số thuộc...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status