Nghiên cứu và phát triển hệ thống rút trích ontology từ web - pdf 16

Download miễn phí Khóa luận Nghiên cứu và phát triển hệ thống rút trích ontology từ web



MỤC LỤC
Chương 1 Mở đầu . 1
1.1. Giới thi u ontology . 1
1.2. Các hướng tiếp cận xây dựng ontology . 2
1.3. Mục tiêu đề tài . 3
1.4. Nội dung luận văn . 4
Chương 2 Ontology . 5
2.1. Giới thi u . 5
2.2. Định nghĩa . 5
2.3. Phân loại . 6
2.4. Ngôn ngữ biểu diễn ontology . 7
2.5. Ứng dụng. 9
2.5.1. Tìm Kiếm Thông Tin và Qu n Lý Tri Thức . 9
2.5.2. Thương mại Đi n tử . 11
2.5.3. Web ngữ nghĩa . 12
2.6. Kết luận . 17
Chương 3 Các hướng tiếp cận trong vi c xây dựng ontology . 18
3.1. Các nguồn dữ li u dùng để xây dựng ontology . 18
3.2. Xây dựng ontology. 19
3.3. Phương pháp dựa trên vi c xử lý ngôn ngữ tự nhiên . 19
3.4. Phương pháp dựa vào thống kê . 21
3.5. Phương pháp máy học . 24
3.6. Phương pháp kết hợp . 26
Chương 4 Quy trình rút trích ontology từ WWW . 28
4.1. Mở đầu . 28
4.2. Một số gi định . 29
4.3. Quy trình 6 ước rút trích ontology từ WWW . 30
4.4. Chuẩn bị . 32
4.5. Biến đổi . 33
4.6. Gom cụm . 36
4.7. Nhận di n . 38
4.8. Liên kết . 38
4.9. Tinh chỉnh . 39
4.10. Kết luận . 39
Chương 5 Ontology Extractor Framework rút trích ontology từ WWW . 40
5.1. Kiến trúc h thống . 40
5.2. Phân h Chuẩn bị (Preparation) . 43
5.2.1. Kiến trúc phân h . 43
5.2.2. T i các trang web về lưu trữ ngoại tuyến . 45
5.2.3. Loại bỏ trang web không hợp l . 47
5.2.4. Chuẩn hoá các trang web . 48
5.3. Phân h Biến đổi (Transformation). 49
5.3.1. Kiến trúc phân h . 50
5.3.2. Gom nhóm các trang web dựa trên đường dẫn gốc . 52
5.3.3. Tinh chỉnh số lượng các trang web trong một nhóm . 54
5.3.4. Loại trừ các thành phần lặp giữa 2 trang web . 54
5.3.5. Loại trừ các phần trùng nhau giữa các trang web trong cùng một nhóm. 58
5.3.6. Lưu trữ các trang web vào h qu n trị cơ sở dữ li u . 59
5.4. Phân h Gom cụm (Instance Clustering) . 60
5.4.1. Kiến trúc phân h . 61
5.4.2. Lựa chọn các từ khoá . 64
5.4.3. Xây dựng vector đặc trưng . 65
5.4.4. Gom cụm các trang web dựa trên độ tương đồng giữa các vector đặc trưng 65
5.5. Phân h Nhận di n (Recognition) . 66
5.5.1. Kiến trúc phân h . 66
5.5.2. Nhận di n đặc trưng cụm . 68
5.6. Phân h Liên kết (Refinement) . 68
5.6.1. Kiến trúc phân h . 69
5.6.2. Xây dựng đồ thị mối quan h giữa các khái ni m . 69
5.7. Phân h Tinh chỉnh (Revision) . 71
5.7.1. Kiến trúc phân h . 71
Chương 6 Kết luận . 73
6.1. Các kết qu đạt được . 73
6.2. Hướng phát triển của đề tài . 74



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

vào thống kê
Agirre Eneko và các đồng sự [46]sử dụng các văn n trên web để làm giàu
ontology đã có sẵn.Ontology được nhóm tác gi sử dụng ở đây là WordNet [16].
WordNet thiếu các quan h giữa các nét nghĩa cùng một chủ đề. Ví dụ: farm-
chicken, spoon-dinner là những nét nghĩa cùng một chủ đề với nhau. Nhóm
tác gi liên kết khái ni m có cùng chủ đề trong WordNet dựa vào tập hợp tài li u
trên web,giúp thêm quan h còn thiếu cho các khái ni m có sẵn trong WordNet.
Từ WordNet thu được các nét nghĩa và các thông tin khác có liên quan đến nét
nghĩa đó như từ đồng nghĩa, ph n nghĩa, … và từ các thông tin này các câu truy vấn
sẽ được xây dựng cho từng nét nghĩa nhằm loại bỏ những tài li u có kh năng thuộc
về nhiều hơn một nét nghĩa. Từ những truy vấn này, h thống sẽ tìm kiếm trên
22
Internet thông qua các máy tìm kiếm để thu được các tài li u thỏa những câu truy
vấn này, sau đó tiến hành thống kê trên những tài li u này để tạo thành các topic
signature. Các nét nghĩa trong WordNet sẽ được gom cụm dựa trên topic signature
của nó.
Phương pháp do nhóm tác gi đưa ra giúp gi i quyết vấn đề gom nhóm các nét
nghĩa có cùng chủ đề lại với nhau (trong WordNet).
Hình 3-2 Thiết kế chung của phƣơng pháp [46]
Ở một hướng tiếp cận khác, tác gi Faatz Andreas và Steinmetz Ralf [47]cũng
sử dụng các tài li u thu được từ web để làm giàu ontology có sẵn (ở đây nhóm tác
gi sử dụng ontology thuộc về domain y khoa) và đưa ra một phương pháp án tự
động với sự trợ giúp của chuyên gia về ontology (ontology engineer). H thống sẽ
sử dụng ngữ li u thu được từ các kết qu tìm kiếm được từ web thông qua máy tìm
kiếm Google để lập ra một tập hợp các khái ni m ứng viên và sau đó tính toán sự
tương đồng của chúng với các khái ni m đã có sẵn trong ontology làm nhân an đầu.
Heyer Gerhardvà các đồng sự [48] sử dụng phương pháp thống kê dựa trên ngữ
li u lớn để rút trích ra các quan h ngữ nghĩa từ những văn n không có cấu trúc.
Điểm khác ở đây là họ thống kê sự cùng xuất hi n các các cặp từ và đưa ra độ do
mức độ quan trọng của một cặp từ (significance measure). Độ đo này được tính như
sau: gọi a, b là số lượng các câu chứ từ A và từ B, k là số lượng các câu chứa cùng
lúc c từ A lẫn từ B, và n là tổng số lượng câu. Đặtx=ab/n, nhóm tác gi định
nghĩa ra độ đo mức độ quan trọng của cặp từ A và B như sau:
( )
( ∑
)
23
Bằng cách giữ nguyên một từ trong cặp từ, một danh sách các cặp từ cùng xuất
hi n với từ được cố định được sinh ra và danh sách này được sắp xếp thứ tự theo độ
đo quan trọng của nó với từ được cố định, từ đó có thể rút ra các quan h giữa các
từ đó với từ được cố định. Nhóm tác gi này đề xuất ra nhiều phương án khác nhau
để nhận di n được những quan h này.
H thống được các tác gi Jiang Xing và Tan Ah-Hweeđưa ra là CRCTOL [49],
sử dụng phương pháp phân tích toàn bộ văn n kết hợp với vi c thống kê và các
phương pháp xử lý ngôn ngữ tự nhiên trên các văn n thuộc về một domain nào đó
cụ thể. Sau khi đi qua ộ xử lý ngôn ngữ, các thuật ngữ (term) được lọc ra và sau đó
tạo thành một danh sách các thuật ngữ ứng viên cho domain đó, các thuật ngữ này
sẽ được thống kê và xét với ngưỡng. Mối quan h ngữ nghĩa giữa các khái ni m là
một bộ thì trong các văn n ngôn
ngữ ình thường có bộ trong đó Danh
từ1 và Danh từ2 là những thuật ngữ đồng thời cũng là các thể hi n của cácKhái
niệm tương ứng trong ontology. Sau đó h thống sử dụng các Động từ để rút ra
mối quan h giữa các Khái niệm.
Hình 3-3 Kiến trúc chung của hệ thống CRCTOL [49]
24
H thống do Maddi Reddy Govindvà các đồng sự [50]phát triển, khai thác từ tập
hợp các văn n có liên h , và rút trích ontology theo phương pháp thống kê. Các từ
trong văn n được đếm số lần xuất hi n (đếm tất c các từ).
Nhóm tác gi sử dụng phương pháp thống kê Latent Semantic Indexing (LSI) để
biểu diễn một văn n bằng những khái ni m.Ontology được xây dựng lên là một
đồ thị hai phía, trong đó một phía là các khái ni m và phía còn lại là các term (thuộc
về mộtkhái ni m nào đó).
Hình 3-4 Một phần đồ thị hai phía sinh ra từ hệ thống [50]
3.5. hƣơng pháp máy học
Vi c rút trích các khái ni m từ các nguồn tài nguyên web mà không cần dùng
thêm các nguồn dữ li u bổ sung khác dựa khá nhiều vào vi c rút trích ra các đối
tượng từ các nguồn tài nguyên we đó. Các phương pháp sau đây thực hi n vi c rút
trích các đối tượng từ các trang web bằng phương pháp máy học.
Phương pháp do nhóm tác gi Buttler David, Liu Ling, và Pu Calton [51] đề
xuất là duy t qua văn n HTML để xây dựng lên cây các thẻ của trang này cùng
với các thông số thống kê cần thiết có liên quan. Từ những thông tin tính toán được
này, h thống Omini sẽ định vị được cây con của cây tag thỏa một số điều ki n để
được coi là ứng viên chứa các đối tượng cần quan tâm.
25
Sau đó h thống sẽ duy t qua cây con này, và tìm kiếm tag nào được dùng làm
tag phân cách các đối tượng riêng lẻ với nhau và với các thông tin khác dựa vào một
vài heuristic. Vi c còn lại là kết hợp các heuristic như thế nào để đem lại hi u qu
cao nhất do các heuristic này không ph i lúc nào cũng đánh giá ra được tag là ứng
viên có điểm cao nhất như nhau.
Crescenzi Valter, Mecca Giansalvatore, và Merialdo Paolođưa ra h
thốngRoadRunner [52], h thống này sẽ s n sinh tự động các wrapper (được dùng
để rút trích tự động ra các đối tượng) tùy vào từng trang web cụ thể bằng cách so
sánh các trang web HTML với nhau để xem sự giống và khác nhau của chúng.
H thống RoadRunner dựa vào một cặp trang we , trong đó chọn một trong số
đó làm wrapper an đầu, rồi dần dần làm mịn wrapper này bằng vi c so sánh với
trang còn lại (gọi là các mẫu) để xem sự khác bi t và giống nhau nào giữa chúng.
Davulcu Hasan, Vadrevu Srinivas, and Nagarajan Saravanakumar [53] xây dựng
nên h thống OntoMiner, h thống này sẽ nhận vào các trang web thuộc cùng
domain và từ đó xây dựng lên cây phân cấp ngữ nghĩa cho trang we đó, mà trong
đó các node là các khái ni m. Sau đó h thống sẽ tiến hành khai thác trên cây này để
tìm ra các khái ni m chính cho domain hi n tại cũng như các quan h giữa các khái
ni m này.
Phương án do nhóm tác gi Han Hyoil và Elmasri Ramez [54]đề xuất là tìm
cách khám phá cấu trúc trang web bằng phương pháp Inductive Logic Programming
(ILP), để rút ra được các luật có liên quan nhằm nhận biết các khái ni m từ cấu trúc
của trang we . Đầu tiên các trang HTML được đánh nhãn bằng bộ POS tagger và
EER (Extended Entity Relationship) tagger. Ví dụ đoạn HTML sau:
Instructor
Prof. John Smith
CCB 138
Phone: 404 894-2222
26
Sau khi được đưa qua ộ đánh nhãn POS và EER, thu được:
Instructor/NNP
Prof/NNP./. John/NNP Smith/NNP
CCB/NNP 138/CD
Phone/NN:/: 404/CD
894/CD-/:2222/CD
Các trang we đã được gán nhãn này sau đó được dùng để tạo thành cây ngữ
nghĩa (Semantic Tree) và sử dụng cây này để rút ra các đặc trưng làm đầu vào cho
Progol (đây là một h thống ILP) để học ra các pattern về quan h giữa các khái
ni m.
Nhóm tác gi Du C. Timon, Li Feng, và King Irwin [2] đề xuất phương pháp rút
trích ontology từ website một c
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status