ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TẠ DUY CÔNG CHIẾN
XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN
THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)
LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP. HỒ CHÍ MINH NĂM 2016
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TẠ DUY CÔNG CHIẾN
XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN
THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số chuyên ngành: 62.48.01.01
Phản biện độc lập 1:
Phản biện độc lập 2:
Phản biện 1:
Phản biện 2:
Phản biện 3:
NGƯỜI HƯỚNG DẪN KHOA HỌC
GS.TS. PHAN THỊ TƯƠI
nhiên và phương pháp thống kê. Để thực hiện mục tiêu trên, luận án phải giải quyết
các vấn đề chính. Thứ nhất, đề xuất mô hình lý thuyết cho hệ thống rút trích thông tin
theo chủ đề trên các tập tin văn bản. Thứ hai, đề xuất cấu trúc, các lớp và các thành
phần của Bản thể học trên miền Tin học, được gọi là Computing Domain Ontology
(CDO) được thể hiện qua nhiều quan hệ ngữ nghĩa hơn các mô hình Bản thể học khác
nói chung. Thứ ba, đề xuất và cải tiến các giải thuật rút trích thông tin từ ba nguồn ngữ
liệu khác nhau để xây dựng và làm giàu ontology, bao gồm các tập tin văn bản trong
trong tập thư viện điện tử ACM (ACM Digital Library), Wikipedia, và WordNet. Thứ
tư, luận án cài đặt hệ thống rút trích thông tin dựa trên ontology để trả lời câu truy vấn
của người dùng. Phần thực nghiệm của luận án đã được tiến hành dựa trên các tập tin
văn bản trong trong tập thư viện điện tử ACM, các câu truy vấn nhập trực tiếp từ
người dùng và các từ điển liên quan đến lĩnh vực Tin học. Kết quả thực nghiệm phản
ánh tính khả thi của các mô hình, giải thuật được đề xuất trong luận án.
ii
ABSTRACT
Nowadays, besides Information Retrieval and Question Answering, Information
Extraction has become an emerging trend in the modern area of digital information
processing. Especially, in some certain domains such as Medicine, Biology and
Education, Information Extraction has made significant contributions for the
improvement of human living condition. However, there are also a lot of challenges
arising when the information extraction is exploited in a specific domain, e.g.
processing data from different resources, the quality and correctness of the extracted
information and system performance when dealing with large-scale datasets.
Therefore, there is much research, both in international and national scales, has been
conducted on the issue of building an efficient information extraction system on a
specific domain. It prompts the general objective of this dissertation, which is to build
a topic-oriented document-based information extraction system for a specific domain
trong quá trình học tập và nghiên cứu tại Khoa.
Lời cảm ơn của tôi xin được gửi đến Phòng Quản lý Sau Đại học về sự hỗ trợ các
thủ tục trong quá trình hoàn thành luận án.
Đồng thời, tôi muốn cảm ơn Ban Giám Hiệu trường Đại học Bách Khoa
Tp.HCM, Phòng Khoa học Công nghệ & Dự án, Phòng Quản lý Sau Đại học đã tài trợ
cho tôi thực hiện đề tài cấp trường năm 2011.
Cuối cùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến và những
lời động viên khích lệ quí báu giúp tôi vượt qua khó khăn để hoàn thành tốt luận án.
Tác giả luận án
__________________________________
Tạ Duy Công Chiến
iv
MỤC LỤC
DANH MỤC CÁC HÌNH ẢNH.................................................................................. viii
DANH MỤC BẢNG BIỂU .............................................................................................x
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... xi
CHƯƠNG 1.
GIỚI THIỆU.........................................................................................1
1.1
Động cơ nghiên cứu ...........................................................................................1
1.2
Mục tiêu và phạm vi nghiên cứu........................................................................6
Các nghiên cứu xử lý và rút trích thông tin .....................................................19
2.3.1
Trong nước ................................................................................................19
2.3.2
Ngoài nước ................................................................................................20
2.4
Kết chương .......................................................................................................21
CHƯƠNG 3. XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN
THEO CHỦ ĐỀ TRÊN MIỀN CHUYÊN BIỆT ..........................................................23
3.1
Giới thiệu .........................................................................................................23
3.2
Giới thiệu một số mô hình rút trích thông tin ..................................................25
3.2.1
Các mô hình rút trích thông tin trên web ..................................................25
3.2.2
Babelnet: Từ điển đa ngôn ngữ .................................................................35
3.7
Kết chương .......................................................................................................36
v
CHƯƠNG 4. XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TRÊN MIỀN TIN HỌC
(COMPUTING DOMAIN ONTOLOGY – CDO) .......................................................37
4.1
Giới thiệu Ontology .........................................................................................37
4.1.1
Các khái niệm ............................................................................................38
4.1.2
Một số phương pháp xây dựng ontology ..................................................41
4.2
Giới thiệu về một số ontology liên quan đến Tin học......................................45
4.2.1
4.4.2
Ontology Web Language (OWL)..............................................................64
4.4.3
Chuyển đổi từ OWL sang cơ sở dữ liệu quan hệ ......................................66
4.5
Kết quả thực nghiệm và đánh giá CDO ...........................................................74
4.5.1
So sánh CDO và một số ontology trên thế giới ........................................74
4.5.2
Kết quả xây dựng và làm giàu CDO .........................................................76
4.5.3
Đánh giá kết quả xây dựng và làm giàu CDO ..........................................77
4.6
Kết chương .......................................................................................................81
CHƯƠNG 5.
5.3.2 Kết quả thực nghiệm và đánh giá phương pháp xác định chủ đề câu truy
vấn dựa trên CDO ..................................................................................................98
5.3.3
So sánh với AIchemyAPI ........................................................................101
5.3.4
Đánh giá về thời gian thực thi .................................................................101
5.3.5
Công cụ hỗ trợ và môi trường thực nghiệm ............................................103
vi
5.4
Kết chương .....................................................................................................104
CHƯƠNG 6.
6.1
RÚT TRÍCH THÔNG TIN THEO CHỦ ĐỀ ...................................105
Mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt ........105
6.1.1
PHỤ LỤC.......... ..........................................................................................................141
vii
DANH MỤC CÁC HÌNH ẢNH
Hình 1.1. Mô hình rút trích thông tin theo chủ đề dựa trên văn bản ...............................8
Hình 3.1. Mô hình rút trích thông tin trên web .............................................................26
Hình.3.2. Mô hình rút trích theo C. Feilmayr (nguồn [54]) ..........................................27
Hình.3.3. Mô hình rút trích văn bản của S. Jonnalagadda (nguồn [54]) .......................28
Hình 3.4. Mô hình rút trích thông tin theo đề nghị của Batcha (nguồn [57]) ...............28
Hình 3.5. Mô hình SOBA (nguồn [59]) ........................................................................29
Hình 3.6.Sơ đồ hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt
.......................................................................................................................................31
Hình 3.7. Mô hình xử lý vấn đề 1..................................................................................33
Hình 4.1. Mô hình biểu diễn ontology chuyên biệt (nguồn [15]) .................................40
Hình 4.2. Ontology trên miền địa danh (nguồn [67]) ....................................................41
Hình 4.3. Computing ontology do tổ chức ACM thành lập (nguồn [9]) .......................45
Hình 4.4. Cấu trúc phân cấp CDO .................................................................................46
Hình 4.5. Cấu trúc phân cấp chủ đề trong CDO............................................................47
Hình 4.6. Số phần tử được rút trích từ các nguồn tài nguyên khi chưa áp dụng giá trị
ngưỡng ...........................................................................................................................54
Hình 4.7. Số phần tử được rút trích từ các nguồn tài nguyên sau khi áp dụng giá trị
ngưỡng là 0,4 .................................................................................................................55
Hình 4.8. Mô hình xây dựng và làm giàu CDO từ các tập tin văn bản của ACM và
Wikipedia.......................................................................................................................56
Hình 4.9. Một số quan hệ giữa các đối tượng trong CDO ............................................61
Hình 4.10. CDO biểu diễn bằng Protégé .......................................................................66
Hình 4.11. Mô hình ánh xạ các lớp OWL thành bảng ..................................................67
Hình 4.12. Ánh xạ thuộc tính đối tượng theo E. Vysniauskas ......................................68
Hình 6.10. Kết quả rút trích thông tin dựa trên CDO cho câu truy vấn nhập .............123
ix
DANH MỤC BẢNG BIỂU
Bảng 4.1. Ví dụ minh họa cách tính độ lợi ....................................................................52
Bảng 4.2. Một số ví dụ khi xử lý bằng SLDP ...............................................................61
Bảng 4.3. Các quan hệ ngữ nghĩa biểu diễn dưới dạng OWL và RDB.........................73
Bảng 4.4. So sánh CDO và một số ontology trên thế giới ............................................75
Bảng 4.5. Tỷ lệ các đối tượng được rút trích từ các nguồn tài nguyên .........................76
Bảng 4.6. Tỷ lệ số câu rút trích từ các nguồn tài nguyên khác nhau.............................76
Bảng 4.7. Số lượng các quan hệ ngữ nghĩa trên một số chủ đề của CDO ....................77
Bảng 4.8. Bảng đánh giá các đối tượng thuộc lớp Thành phần thể hiện qua một số chủ
đề trên CDO ...................................................................................................................79
Bảng 4.9. Bảng đánh giá các quan hệ ngữ nghĩa trong CDO thể hiện qua một số chủ đề
.......................................................................................................................................79
Bảng 4.10. Bảng so sánh tỷ lệ rút trích các đối tượng so với Stanford CoreNLP.........80
Bảng 4.11. Bảng so sánh tỷ lệ rút trích các quan hệ ngữ nghĩa so với Stanford
CoreNLP ........................................................................................................................81
Bảng 5.1. Các mẫu câu truy vấn nhập vào ....................................................................98
Bảng 5.2. Kết quả đánh giá việc xác định chủ đề trên tập văn bản ...............................99
Bảng 5.3. Kết quả đánh giá xác định chủ đề trên các dạng câu truy vấn khác nhau...100
Bảng 5.4. Kết quả thực nghiệm khi sử dụng AIchemyAPI trên tập ngữ liệu ACM ...101
Bảng 5.5. Kết quả đánh giá khi sử dụng giải thuật đề nghị 5.1 trên tập ngữ liệu ACM
.....................................................................................................................................101
Bảng 5.6. Kết quả đánh giá về thời gian thực thi trong trường hợp có một từ haycụm từ
khóa trong câu .............................................................................................................102
Bảng 5.7. Kết quả đánh giá về thời gian thực thi trong trường hợp có 2-5 từ hay cụm từ
khóa trong câu .............................................................................................................102
CRF
Conditional Random Fields
Mô hình trường ngẫu nhiên có điều
kiện
DOM
Document Object Model
Mô hình đối tượng tài liệu
FCA
Formal Concept Analysis
Phân tích khái niệm hình thức
FOGA
Fuzzy Ontology Generation
Nền tảng sinh ra bản thể học mờ
Framework
GATE
General Architechture for Text
IG
Information Gain
Độ lợi
IR
Information Retrieval
Truy xuất thông tin
JAPE
Java Anotation Pattern Engine
Động cơ mẫu chú thích java
KIM
Knowledge and Information
Quản lý thông tin và tri thức
Mangement
NLP
Natural Language Processing
RDF
Resource Description
Nền tảng mô tả tài nguyên
Framework
RMN
Relational Markov Network
xi
Mạng Markov biểu diễn quan hệ
Từ viết tắt
SLDP
Diễn giải tiếng Anh
Diễn giải tiếng Việt
Stanford Lexical Dependency
Bộ phân tích cú pháp văn phạm phụ
Parser
thuộc Stanford
Ngôn ngữ đánh dấu mở rộng
YAGO
Yet Another Great Ontology
Bản thể học YAGO
xii
CHƯƠNG 1. GIỚI THIỆU
1.1 Động cơ nghiên cứu
Trong lĩnh vực Rút trích thông tin, các nghiên cứu quan tâm đến rút trích nội
dung văn bản dựa trên một số tính chất đặc trưng. Rút trích nội dung văn bản là một
vấn đề khó trong xử lý văn bản cũng như khó để đạt độ chính xác như mong muốn.
Gần đây, một số đề tài nghiên cứu rút trích thông tin trong văn bản đã đưa ra
hướng tiếp cận mới là rút trích các cụm từ đặc trưng mang tính ngữ nghĩa của câu
trong văn bản. Phương pháp này đã cải thiện độ chính xác và tăng khả năng ứng dụng
của chúng trong nhiều lĩnh vực khác nhau. Tuy nhiên hướng tiếp cận này đòi hỏi hệ
thống rút trích phải có khả năng phân tích cú pháp và ngữ nghĩa của các câu thậm chí
cả văn bản, cũng như phải được biệt lập trong một chủ đề nhất định.
Hiện nay và trong tương lai, nguồn thông tin (văn bản) là vô cùng lớn và nhu cầu
truy xuất thông tin chính xác của người sử dụng ngày càng cao trong từng chủ đề
thuộc các lĩnh vực kinh tế, xã hội, khoa học. Vì vậy các hệ thống rút trích thông tin,
ngoài khả năng trích xuất các cụm từ đặc trưng ngữ nghĩa của câu trong văn bản còn
phải có khả năng phân tích thông tin theo từng chủ đề. Thực hiện hai cách tiếp cận
này, hệ thống sẽ rút trích thông tin chính xác và hiệu quả hiệu quả hơn.
Trong công trình nghiên cứu [1], A. Nuntiyagul cùng các cộng sự thực hiện phân
loại câu hỏi nhập vào từ người dùng trên miền toán học. Trước hết A. Nuntiyagul định
iv.
Việc xác định các quan hệ ngữ nghĩa không chính xác dẫn đến việc phân loại
chủ đề cho câu hỏi không chính xác.
Trong công trình [2], F.Z. Lahlou cùng các cộng sự xây dựng một hệ thống đề
nghị (Context Aware Recommendation System - CARS). Mục đích của hệ thống sẽ hiển
thị những đề nghị cho người dùng từ nhiều lãnh vực khác nhau. Để xây dựng hệ thống,
F.Z. Lahlou rút trích thông tin từ những bài phê bình của người dùng trên mạng từ
nhiều lĩnh vực khác nhau. Để có thể phân loại những bài phê bình này, F.Z. Lahlou đã
sử dụng ba giải thuật khác nhau như SVM, k-Nearest Neighbor (k-NN) và Multinomial
Naïve Bayes (MNB). Kết quả đánh giá theo F.Z. Lahlou là thấp, trong đó tốt nhất là
60,1% (MNB) vì F.Z. Lahlou không tập trung trên một miền nào cả nên tính chính xác
là không cao.
Hiện tại Internet (Web) được xem là nguồn thông tin khổng lồ của nhân loại.
Theo thời gian, nguồn thông tin này không ngừng được chia sẻ, mở rộng và phát triển.
Các thông tin trên Internet hầu hết được biểu diễn bởi ngôn ngữ tự nhiên, trong đó
phần lớn là thông qua các trang Web, thường là không có cấu trúc. Đồng thời với sự
phát triển của Internet là sự gia tăng rất lớn về nhu cầu truy xuất thông tin, rút trích
thông tin của người sử dụng, trong đó việc tìm kiếm các thông tin thể hiện trong ngôn
ngữ tiếng Anh chiếm tỉ lệ đáng kể.
Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử dụng, các hệ
thống truy xuất thông tin (IR), rút trích thông tin (IE) đã được nghiên cứu và phát
triển. Tuy nhiên việc tìm kiếm thông tin thường không nhận được kết quả đầy đủ,
chính xác, đặc biệt là những thông tin thuộc các chuyên ngành, như Y học, Sinh học,
chống tội phạm.
2
Trong Công trình [3], J. Xiao-yu đã rút trích thông tin từ các tập tin văn bản để
Các quan hệ này là quan hệ nhị phân, là quan hệ chỉ có hai đối tượng tham gia.
Các quan hệ nhị phân được tham chiếu từ ACE (Automatic Content Extraction)
bao gồm: NEAR, AT, ROLE, SOCIAL, PART.
iii.
Ontology không phân chia thành nhiều lớp khác nhau.
Từ các phân tích trên, để cung cấp cho người dùng những thông tin chính xác về
một lĩnh vực chuyên biệt mà họ quan tâm, như giá cả chứng khoán, thông tin về một
món hàng trước khi mua, cách điều trị một căn bệnh..., thì cần phải có các hệ thống rút
trích thông tin cho các lĩnh vực chuyên biệt này.
Để có thể rút trích thông tin phù hợp với mong muốn của người dùng, các hệ
thống phải có khả năng phân tích ngữ nghĩa của câu truy vấn và thông tin rút trích
phải lấy từ các nguồn tài nguyên có độ tin cậy cao. Bài toán xây dựng các hệ thống
rút trích thông tin trên các miền chuyên biệt sẽ giải quyết được đáng kể sự nhập nhằng
ngữ nghĩa của thông tin khi tiến hành rút trích.
3
Trong lĩnh vực quan trọng như Y học, liên quan đến việc chẩn đoán bệnh và cấp
thuốc hàng ngày đối với các bệnh nhân, để tránh sai sót các hệ thống rút trích thông tin
trên lĩnh vực này đã được nghiên cứu, xây dựng và phát triển khá nhiều. Tương tự, các
hệ thống rút trích thông tin chuyên biệt trên các lĩnh vực sinh học, nông nghiệp hay
phòng chống tội phạm cũng được nghiên cứu và phát triển khá mạnh. Một lĩnh vực
khác cũng cần phải nhắc đến đó là giáo dục. Các hệ thống rút trích thông tin đã phục
vụ khá nhiều trong công việc giảng dạy, học tập. Những hệ thống rút trích thông tin
cho một số miền chuyên biệt liên quan đến các môn học hoặc liên quan đến chuyên
ngành đào tạo giúp cho sinh viên học sinh tra cứu, tìm hiểu nhanh hơn về tri thức liên
đã đạt được những kết quả và còn một số hạn chế sau.
i.
Rút trích 79 sự kiện khác nhau liên quan các công thức về Y sinh, độ chính xác
là 84%, độ truy hồi là 21%.
ii.
Dùng bộ phân tích cú pháp của văn phạm cấu trúc cụm từ hướng đến trọng tâm
(Head-Driven Phrase Structure Grammar - HPSG). Bộ phân tích cú pháp
HPSG phân tích câu của văn bản thuộc miền Y sinh. Tuy nhiên HPSG không
thể hiện được mối quan hệ phụ thuộc giữa các từ trong câu.
iii.
Ontology không phân chia nhiều lớp.
Trong công trình [7], M. Abulaish xây dựng một hệ thống rút trích thông tin và
hỏi đáp từ văn bản trên miền sinh học dựa trên ontology. Hệ thống đã rút trích các đối
tượng và các quan hệ ngữ nghĩa liên quan đến miền sinh học từ các tập tin văn bản.
Công trình đã sử dụng NLP kết hợp với các luật để khai phá dữ liệu. Tuy nhiên công
trình vẫn còn một số hạn chế sau.
i. Các quan hệ ngữ nghĩa chỉ bao gồm các quan hệ IS-A, PART-OF và là quan hệ
nhị phân R(Ci, Cj).
ii. Ontology chỉ bao gồm ba chủ đề khác nhau: nguồn sinh học (Biological
source), các vật liệu sinh học (Biological substance) và các tên khác
(Other_name).
iii. Ontology được rút trich từ các bài bào của MEDLINE bao gồm 400.000 từ và
100.000 chú thích do đó ontology chưa bao phủ được các chủ đề trong miền
Sinh học
gồm một quan hệ ngữ nghĩa là IS-A [8].
Ontology được xây dựng và làm giàu với 400.000 từ và 100.000 chú thích [7]
1.2 Mục tiêu và phạm vi nghiên cứu
Mục tiêu luận án là xây dựng mô hình rút trích thông tin văn bản theo chủ đề trên
miền chuyên biệt (Tin học) dựa trên Computing Domain Ontology (CDO). Khác với
Computing Ontology của nhóm ACM [9] (hiện nay vẫn còn đang cập nhật các chủ đề)
chỉ tập trung vào việc phân loại các chủ đề liên quan đến Khoa Học Máy Tính là
chính, không có nhiều các đối tượng trong mỗi lớp và chỉ có một số các quan hệ IS-A,
PART-OF hay SwetoDblp Ontology [10] chỉ tập trung vào các công trình khoa học đã
được công bố trên thế giới (bao gồm các thông tin : tác giả, tên công trình, ngày tháng
năm công bố, tên hội nghị hay tạp chí). Hơn nữa, hai ontology này cũng không khai
thác các quan hệ đồng nghĩa, thượng danh và hạ danh. Nhằm khắc phục những hạn chế
nêu trên, luận án đã thực hiện những cải tiến sau trong quá trình xây dụng CDO.
6
i.
CDO do luận án đề xuất có 170 lớp chủ đề khác nhau, mỗi lớp có nhiều lớp
con, với hơn 1 triệu đối tượng thuộc các lớp khác nhau, do đó có thể đáp ứng
yêu cầu rút trích thông tin ở nhiều lĩnh vực liên quan đến Tin học.
ii.
Các quan hệ ngữ nghĩa giữa các đối tượng thuộc CDO không chỉ có IS-A,
PART-OF mà còn mở rộng thêm quan hệ : INCLUDE, MADE-OF, RESULTOF, quan hệ thượng danh, hạ danh và đồng nghĩa. Qua đó thông tin rút trích sẽ
giàu tính ngữ nghĩa hơn. Quan hệ ngữ nghĩa trong CDO không chỉ giới hạn ở
quan hệ nhị phân mà còn có thể là quan hệ của nhiều hơn hai đối tượng, được
biểu diễn bằng R(C1, …, Ci) với i 2.
Ontology là một cơ sở tri thức dùng để chia sẻ thông tin, trong đó bao gồm các
lớp chủ đề với những khái niệm, đối tượng, đặc tính và mối quan hệ giữa chúng.
Ontology được xây dựng là ontology của một miền chuyên biệt. Một miền chuyên biệt
có thể gồm nhiều chủ đề khác nhau. Mỗi chủ đề sẽ là một hệ thống mạng ngữ nghĩa
liên quan đến các từ, cụm từ đặc trưng cho chủ đề.
Để xây dựng ontology trên miền Tin học, luận án sử dụng cấu trúc cây phân cấp
chủ đề của ACM (ACM categories) để xây dựng lớp chủ đề trong ontology. Kho ngữ
liệu tiếp theo để xây dựng ontology là tập văn bản đã được xác định chủ đề từ tập thư
viện điện tử ACM (ACM Digital Library). Để nhận dạng và rút trích các khái niệm, từ
ngữ trong các tập tin văn bản theo từng lớp chủ đề khác nhau, luận án sử dụng một số
các giải thuật về xử lý ngôn ngữ tự nhiên như tách câu, gán nhãn (POS-Tag), phân tích
câu. Sau khi nhận dạng, luận án sẽ tiến hành rút trích các đối tượng và các từ hay cụm
từ này trong các kho ngữ liệu. Tuy nhiên để đảm bảo độ chính xác cho các đối tượng
này, luận án đã kết hợp phương pháp xác suất thống kê với xử lý ngôn ngữ tự nhiên để
đánh giá chúng trước khi bổ sung vào ontology [CT1], [CT4].
Để làm giàu tri thức cho ontology phục vụ cho quá trình rút trích, luận án sử
dụng các ontology có sẵn như Wikipedia, WordNet, Babelnet.
Một vấn đề khác không thể thiếu trong quá trình xây dựng và làm giàu ontology
trên miền chuyên biệt là nhận dạng các mối quan hệ giữa các đối tượng trong
ontology. Các mối quan hệ này bao gồm các quan hệ ngữ nghĩa và quan hệ cú pháp
giữa các khái niệm, các đối tượng trong câu. Tùy thuộc vào mục đích khác nhau của
các ứng dụng, mà các quan hệ này có thể được nhận dạng và rút trích theo nhiều cách
khác nhau. Thông thường những quan hệ này là quan hệ hai ngôi xác định mối quan hệ
giữa hai đối tượng như: thủ đô, vị trí, ví dụ, capital (“Hanoi”, “Vietnam”), location
(“Paris”, “France”), hay quan hệ IS-A, PART-OF, INCLUDE. Trong phạm vi nghiên
cứu của luận án, các quan hệ ngữ nghĩa được luận án khai thác là các quan hệ đồng
8
nghĩa, quan hệ thượng danh (hypernym), hạ danh (hyponym), là (is-a), từng phần
9
Kết quả thứ nhất: Đề xuất mô hình xây dựng và làm giàu Computing Domain
Ontology (CDO)
CDO được xây dựng và làm giàu dựa trên ba nguồn tài nguyên khác nhau. Luận án
đã đề xuất ba phương pháp khác nhau bao gồm: (i) phương pháp xây dựng CDO dựa
trên các tập tin văn bản từ tập thư viện điện tử ACM (Document - Based Knowledge
Base Traning); (ii) phương pháp làm giàu CDO dựa trên kho ngữ liệu có sẵn
Wikipedia (Wikipedia - Based Knowledge Base Traning); (iii) phương pháp làm giàu
CDO dựa trên ontology WordNet (WordNet – Based Knowledge Base Training);
So với các ontology hiện tại thì CDO có một số điểm mới là:
Cấu trúc phân lớp trong CDO. Trong CDO bao gồm bốn lớp trong đó các đối
tượng của lớp này có thể có những quan hệ với các đối tượng của lớp khác như
quan hệ đồng nghĩa, hạ danh, thượng danh. Mỗi lớp sẽ chứa đựng những đối
tượng khác nhau phục vụ cho bài toán rút trích thông tin.
Số lượng chủ đề. CDO bao gồm 170 chủ đề khác nhau thuộc lĩnh vực Tin học
và hơn một triệu phần tử thuộc các lớp và các chủ đề khác nhau.
Các quan hệ ngữ nghĩa. CDO bao gồm các quan hệ đồng nghĩa, thượng danh
hạ danh, IS-A, PART-OF, INCLUDE, MADE-OF, RESULT-OF, AFFECTS.
CDO được làm giàu trên ba lớp: Thành phần, Synset và Câu.
Nội dung liên quan đến đóng góp này được công bố trong các công trình [CT1],
[CT2], [CT3], [CT4], [CT7], [CT10], [CT11] và [CT12].
Kết quả thứ hai: Đề xuất phương pháp xác định chủ đề dựa trên ontology có
xét đến quan hệ ngữ nghĩa giữa các từ trong câu.
Phương pháp xác định chủ đề câu truy vấn bao gồm các bước: phân tích câu truy
vấn từ người dùng; nhận dạng và rút trích các từ khóa cũng như các mối quan hệ ngữ
nghĩa giữa chúng với các từ còn lại trong câu; xác định chủ đề dựa trên CDO.
Khác với một số mô hình xác định chủ đề bằng các giải thuật có giám sát như
SVM, HMM hay CRF, luận án đề xuất phương pháp xác định chủ đề dựa trên
rút trích thông tin từ CDO dựa trên các từ khóa, chủ đề câu truy vấn.
Các giải thuật và nội dung liên quan đến các kết quả này được công bố trong các
công trình [CT6] [CT8] và [CT10].
1.4 Cấu trúc của luận án
Luận án được chia thành sáu chương, phần tổng kết và hai phụ lục, trong đó ở
đầu mỗi chương đều có phần giới thiệu tổng quan và ở cuối mỗi chương đều có phần
kết chương.
11