ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Ngọc Trình
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY
VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Ngọc Trình
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY
VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ
Chuyên ngành: Hệ thống Thông tin
Mã số: 9480104. 01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Hà Quang Thụy
2. PGS.TSKH. Nguyễn Hùng Sơn
Hà Nội – 2019
thống Thông tin) - Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo
điều kiện thuận lợi cho tôi trong suốt thời gian học tập và nghiên cứu.
Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực
hiện các công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và
chia sẻ những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi
trong quá trình nghiên cứu.
Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng
góp các ý kiến quý báu để tôi hoàn thiện luận án.
Tôi cũng bày tỏ lòng cảm ơn sâu sắc tới TS. Nguyễn Anh Đức, Viện
trưởng Viện Dầu khí Việt Nam và Ban lãnh đạo Viện Dầu khí Việt Nam (Tập
đoàn Dầu khí Quốc gia Việt Nam) đã tạo kiện thuận lợi cho tôi trong quá trình
nghiên cứu; cảm ơn các đồng nghiệp trong Ban CNTT thuộc Viện Dầu khí Việt
Nam đã luôn ủng hộ, quan tâm và động viên tôi.
Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại,
các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững
chắc cho tôi trong suốt thời gian qua.
ii
MỤC LỤC
LỜI CAM ĐOAN........................................................................................................ I
LỜI CẢM ƠN ........................................................................................................... II
MỤC LỤC ................................................................................................................ III
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .............................................. VI
DANH MỤC CÁC BẢNG.................................................................................... VIII
DANH MỤC CÁC HÌNH VẼ.................................................................................. IX
MỞ ĐẦU .................................................................................................................... 1
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC ONTOLOGY VÀ
ĐỘ ĐO GOOGLE ....................................................................................... 10
1.1. GIỚI THIỆU CHUNG VỀ ONTOLOGY ..................................................... 10
2.2.2. Thành phần xây dựng kho ngữ liệu HPO_NC ........................................ 44
2.2.3. Thành phần xây dựng kho ngữ liệu MPO_NC ....................................... 47
2.2.4. Thành phần phát hiện quan hệ bắc cầu (bổ sung quan hệ) trong
ontology kết quả ........................................................................................... 49
2.2.5. Kết quả tích hợp hai ontology ................................................................. 51
2.3. XÂY DỰNG MÔ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM
SEARCH NHẬN DẠNG THỰC THỂ BIỂU HIỆN Y SINH ........................ 51
2.3.1. Mô hình học máy Maximum Entropy ..................................................... 52
2.3.2. Mô hình học máy Maximum Entropy - Beam Search nhận dạng thực
thể biểu hiện y sinh....................................................................................... 57
2.3.3. Dữ liệu thực nghiệm và công cụ ............................................................. 57
2.3.4. Kết quả và đánh giá ................................................................................. 59
2.3.5. Phân tích lỗi ............................................................................................. 60
2.4. KẾT LUẬN CHƯƠNG 2 .............................................................................. 62
CHƯƠNG 3. KỸ THUẬT HỌC ONTOLOY DỰA TRÊN CÁC ĐỘ ĐO ............. 63
3.1. MỘT MÔ HÌNH HỌC ONTOLOGY THEO TỪ VỰNG DỰA TRÊN ĐỘ
ĐO KHOẢNG CÁCH GOOGLE.................................................................... 63
3.1.1. Phát biểu bài toán .................................................................................... 63
3.1.2. Mô hình đối sánh các thuộc tính của hai khái niệm thuộc hai ontology
miền .............................................................................................................. 64
3.1.3. Mô hình đối sánh các khái niệm và học hai ontology dựa trên độ đo
khoảng cách Google ..................................................................................... 65
3.1.4. Ví dụ minh họa đối sánh khái niệm ........................................................ 69
3.2. MÔ HÌNH HỌC ONTOLOGY ANH - VIỆT DỰA TRÊN KỸ THUẬT
HỌC MÁY VỚI CHỈ DỮ LIỆU DƯƠNG ...................................................... 71
3.2.1. Wikipedia là một nguồn tài nguyên xây dựng ontology ......................... 71
3.2.2. Phát biểu bài toán .................................................................................... 72
3.2.3. Chiến lược hai bước phân lớp dữ liệu với chỉ dữ liệu dương ................. 74
3.2.4. Mô hình đề xuất....................................................................................... 78
3.2.5. Thực nghiệm và đánh giá kết quả ........................................................... 86
5.2.4. Bước 4. Làm giàu khái niệm dầu khí Tiếng Việt tiềm năng ................. 121
5.2.5. Bước 5. Đối sánh khái niệm miền dầu khí Tiếng Việt.......................... 122
5.2.6. Bước 6. Bổ sung thành phần Tiếng Việt vào ontology dầu khí Tiếng
Anh ............................................................................................................. 122
5.2.7. Bước 7. Hiệu chỉnh ontology dựa trên khung hợp nhất niềm tin qua
tranh luận thu thập ý kiến chuyên gia ........................................................ 122
5.3. TRIỂN KHAI THỰC HIỆN ........................................................................ 123
5.3.1. Thu thập và tiền xử lý dữ liệu ............................................................... 123
5.3.2. Thực thi ontology dầu khí Anh - Việt trên hệ thống máy tính.............. 125
5.4. KẾT QUẢ .................................................................................................... 126
5.5. KẾT LUẬN CHƯƠNG 5 ............................................................................ 126
KẾT LUẬN ............................................................................................................ 127
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI
LUẬN ÁN ................................................................................................. 130
TÀI LIỆU THAM KHẢO ...................................................................................... 131
Tài liệu tiếng Việt ............................................................................................ 131
Tài liệu tiếng Anh ............................................................................................ 131
v
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Kí hiệu
Tiếng Anh
Tiếng Việt
AI
Hệ thống quản lý tri thức
KS
Knowledge Sharing
Chia sẻ tri thức
SE
Search Engine
Máy tìm kiếm
Maximum Entropy - Beam
Search
Entropy cực đại – Tìm kiếm
chùm
Support Vector Machine
Máy vectơ hỗ trợ
Iterative-SVM
Lặp - SVM
NB
R
Recall
Độ hồi tưởng
Harmonic mean
Trung bình điều hòa, là sự kết
hợp của độ chính xác và độ hồi
tưởng
Reliable Negative
Dữ liệu âm tin cậy
KMS
ME-BS
SVM
I-SVM
F1;
F1-Score
RN
vi
chuẩn hóa (Khoảng cách
Goolge chuẩn)
Petrovietnam; Vietnam Oil and
Gas Group
Tập đoàn Dầu khí quốc gia
Việt Nam
Vietnam Petroleum Institute
Viện dầu khí Việt Nam
vii
DANH MỤC CÁC BẢNG
Bảng 1.1. Ma trận nhầm lẫn của một bộ phân lớp ...............................................27
Bảng 2.1. Quan hệ giữa tài liệu OMIM có chỉ số OMIM ID: 600361 với các thực
thể biểu hiện người (theo chỉ số) nhận được từ
phenotype_annotation.tab ...................................................................45
Bảng 2.2. Một số thông tin thống kê về các ontology HPO_NC, MPO_NC và
HPO_MPO_NC ...................................................................................51
Bảng 2.3. Các đặc trưng biểu diễn dữ liệu được sử dụng trong luận án ..............58
Bảng 2.4. Đánh giá các kết quả (tính theo %)......................................................60
Bảng 2.5. Số lượng trung bình của các thẻ trên thực thể biểu hiện trong tất cả các
tập dữ liệu ............................................................................................61
Bảng 3.1. Ma trận khoảng cách giữa các thuộc tính trong hai ontology .............70
Bảng 3.2. Kết quả các độ đo P, R, F của các thuật toán ......................................88
Bảng 3.3. Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE
động vật có vú ......................................................................................................48
Hình 2.6. Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện
động vật có vú ......................................................................................................49
Hình 2.7. Suy diễn quan hệ giữa các thực thể thông qua kết nối hai kho ngữ liệu
..............................................................................................................................50
Hình 2.8. Mô hình học máy ME-BS nhận dạng thực thể y sinh từ văn bản
PubMed ................................................................................................................56
ix
Hình 3.1. Mô hình đối sánh tập thuộc tính của hai khái niệm thuộc hai ontology
miền (Procedure Matching (c1, c2)) ....................................................................64
Hình 3.2. Mô hình đối sánh các khái niệm thuộc hai ontology miền ..................66
Hình 3.3. Minh họa Wikipedia Tiếng Việt ..........................................................72
Hình 3.4. Minh họa từ điển dầu khí Anh – Việt: Cột bên phải mô tả một khái
niệm dầu khí tiếng Việt ........................................................................................73
Hình 3.5. Lược đồ tìm tập dữ liệu “âm tin cậy” trong chiến lược hai bước [56] 77
Hình 3.6. Mô hình học ontology khái niệm dầu khí Wikipedia tiếng Việt .........78
Hình 3.7. Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE
vào tỷ lệ .............................................................................................................87
Hình 3.8. Mô hình triển khai thu nhận ý kiến chuyên gia ...................................94
Hình 4.1. Thủ tục xây dựng một ontology cơ sở miền [38].................................97
Hình 5.1. Quy trình bảy bước xây dựng ontology dầu khí Anh - Việt ..............118
x
MỞ ĐẦU
Tính cấp thiết của luận án
Ontology (được một số nhà nghiên cứu người Việt gọi là “bản thể học”
1
các thuật ngữ, các khái niệm quan trọng, phân loại các khái niệm, phân cấp các
khái niệm, các quan hệ giữa các khái niệm (bao gồm các ràng buộc quan trọng),
các tiên đề ứng dụng và các thể hiện cho các đối tượng kể trên.
Ontology được phân loại thành ontology triết học (philosophical
ontology), ontology miền (domain ontology), ontology mức cao (top-level
ontology), ontology tham chiếu (reference ontology) và ontology ứng dụng
(application ontology) [7]. Ngoại trừ ontology triết học, tất cả các loại ontology
đều thuộc về loại ontology miền.
Do phạm vi ứng dụng rộng rãi của ontology, xây dựng ontology là một bài
toán có tầm quan trọng đặc biệt, là một chủ đề nghiên cứu nhận được sự quan
tâm đặc biệt của các cộng đồng nghiên cứu – triển khai thuộc các ngành khoa
học đa dạng. Nhìn chung, quá trình xây dựng ontology bao gồm ba giai đoạn
(xác định mục đích và phạm vi, nắm bắt ontology và thực thi ontology) [39]. Các
nội dung đặc biệt quan trọng trong xây dựng ontology là (i) xác định mục đích
và phạm vi của ontology cần xây dựng, (ii) xác định các khái niệm/lớp, thực
thể/cá thể, quan hệ/phân cấp trong phạm vi ontology cần xây dựng, (iii) khai thác
các ontology sẵn có, và (iv) huy động tri thức và sự tham gia của các chuyên gia
miền [7], [39].
Hiện chưa có ontology tiếng Việt cho miền dầu khí, song một vài
ontology tiếng Việt cho các miền ứng dụng khác đã được xây dựng, điển hình là
ontology VN-KIM và thành phần ontology tiếng Việt trong hệ thống BioCasster.
VN-KIM [3], [63] được phát triển tại Đại học Bách khoa, Đại học Quốc gia Tp.
Hồ Chí Minh. Ontology này bao gồm 347 lớp thực thể và 114 quan hệ và thuộc
tính. Ontology VN-KIM bao gồm các lớp thực thể có tên phổ biến như
Con_người (Person), Tổ_chức (Organization), Tỉnh (Province), Thành_phố
(City)…, các quan hệ giữa các lớp thực thể và các thuộc tính của mỗi lớp thực
pháp thủ công. Học ontology (ontology learning) là cách tiếp cận bán tự động
xây dựng ontology dựa trên việc sử dụng các kỹ thuật khai phá văn bản (text
mining) hoặc/và học máy (machine learning). Học ontology phục vụ việc xác
định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp trong phạm vi tri thức
miền. Học ontology là một xu hướng có tính hiện đại và đầy thách thức trong
nghiên cứu xây dựng ontology [6], [17], [21], [25], [27], [35], [40], [46], [58],
[62], [67], [74], [78], [79], [80].
Học ontology là chủ để nghiên cứu nhận được sự quan tâm của cộng đồng
nghiên cứu. Hình 0.1 cung cấp một biểu diễn số lượng các công trình khoa học
trên ScienceDirect, Springer và Google Scholar giai đoạn 2006 – 2019 có chứa
chính xác cụm từ “ontology learning” trong tiêu đề ấn phẩm (với ScienceDirect
3
và Google Scholar Advanced Search “not include patents, not include citations”)
hoặc trong thông tin mô tả ấn phẩm (với Springer)2. Kết quả thống kê chỉ ra
hàng năm có tới hàng chục ấn phẩm chứa chính xác cụm từ “ontology learning”
ở tiêu đề (ScienceDirect và Google Scholar) hoặc ở thông tin mô tả (Springer).
Số lượng công bố là khá ổn định qua thống kê với ScienceDirect và Google
Scholar. Trong khi đó, số lượng công bố với Springer có xu thế giảm có thể có
nguyên nhân từ nguồn chứa cụm từ “ontology learning” hoặc sự phân chia chủ
đề “ontology learning” thành các chủ đề con chi tiết hơn.
Hình 0.1. Một biểu diễn số lượng ấn phẩm khoa học có chứa chính xác
cụm từ “ontology learning” trên ScienceDirect, Springer và Google Scholar
Xây dựng ontology và học ontology là chủ đề nghiên cứu của một số luận
án Tiến sỹ trên thế giới, chẳng hạn như [29], [34], [1]. Luận án Tiến sỹ của Z.
Dragisic [29] đề cập tới việc giải quyết vấn đề chưa hoàn thiện các ontology và
mạng ontology theo ba câu hỏi về cách thức hoàn thiện ontology và mạng
học ontology và ứng dụng trong miền dầu khí”.
Bài toán cần giải quyết trong luận án được phát biểu như sau: Cho trước
một từ điển Anh – Việt một miền ứng dụng, cần xây dựng một ontology AnhViêt miền ứng dụng nói trên. Luận án sử dụng tiếp cận học ontology dựa trên
việc khai thác các tài nguyên sẵn có (từ điển Anh-Việt miền, các ontology tiếng
Anh miền) để xác định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp
trong phạm ontology cần xây dựng với việc huy động tri thức và sự tham gia của
các chuyên gia miền.
W. Wong và cộng sự [79] cung cấp một khung nhìn khái quát về học
ontology từ văn bản. Khung nhìn này chứa ba khu vực là khu vực kết quả đầu ra,
khu vực bài toán học ontology và khu vực kỹ thuật và tài nguyên được sử dụng
để phục vụ các bài toán học ontology. Khu vực kết quả đầu ra của học ontology
bao gồm các thuật ngữ, các khái niệm, các quan hệ (quan hệ thứ bậc, quan hệ
không thứ bậc) và các tiên đề. Có bảy bài toán học ontology chính là Xử lý văn
5
bản và Trích xuất thuật ngữ cho kết quả là các thuật ngữ, Hình thức hóa khái
niệm và Gán nhãn khái niệm cho kết quả là các khái niệm, Xây dựng kiến trúc
cho kết quả là các quan hệ thứ bậc, bài toán Phát hiện quan hệ không thứ bậc và
Gán nhãn quan hệ không thứ bậc cho kết quả là các quan hệ không thứ bậc,
Trích xuất tiên đề kết quả là các tiên đề. Khu vực Kỹ thuật/Tài nguyên bao gồm
ba thành phần chính là kỹ thuật/tài nguyên logic, kỹ thuật/tài nguyên ngôn ngữ
học và kỹ thuật/tài nguyên thống kê. Với sáu lập luận, các tác giả nhận định rằng
sự đan xen giữa học ontology và sử dụng web là một xu thế tự nhiên và sử dụng
thông tin trên web để học ontology có nhiều triển vọng. Xu thế trên đây đã định
hướng vào các mô hình học ontology có sử dụng các tài nguyên Web trong luận
án (độ đo khoảng cách Googe, thông tin từ Wikipedia tiếng Việt, các công cụ
sánh thuật ngữ miền ứng dụng có sử dụng Web, v.v.).
Do đặc điểm bán tự động, học ontology thường bao gồm các thành phần
huy động sự tham gia của con người vào quá trình xây dựng ontology. Ví dụ,
Luận án tham gia vào dòng nghiên cứu học ontology trên thế giới và đạt
được một số đóng góp bước đầu, tập trung vào các nghiên cứu, đề xuất các mô
hình học ontology miền.
Về phương diện lý thuyết, luận án có hai đóng góp chính vào dòng nghiên
cứu học ontology. Thứ nhất, luận án đề xuất ba mô hình học ontology gồm (i) mô
hình học ontology xây dựng một ontology kết hợp dữ liệu từ các ontology sẵn có
sử dụng học máy Maximum Entropy và Beam Search nhận dạng thực thể miền
[VNTrinh1], [VNTrinh4], (ii) mô hình học ontology sử dụng độ đo Google để tích
hợp một số tập khái niệm miền sẵn có thành một tập khái niệm miền mới lớn hơn
[VNTrinh2], [VNTrinh4], (iii) mô hình học ontology dựa trên học máy với chỉ dữ
liệu dương và dữ liệu không gán nhãn để bổ sung các khái niệm miền mới từ kho
tài nguyên Wikipedia tiếng Việt vào tập khái niệm miền tiếng Việt sẵn có
[VNTrinh4]. Luận án cũng đề xuất thuật toán học máy với chỉ dữ liệu dương và
dữ liệu không gán nhãn DISTANCE cho mô hình thứ ba. Thứ hai, luận án đề xuất
một mô hình thu nhận ý kiến chuyên gia miền vào quá trình xây dựng ontology
miền dựa trên một khung hợp nhất niềm tin dựa trên tranh luận (bao gồm giao
thức tranh luận hợp nhất niềm tin và lập luận hợp nhất niềm tin) và một thuật toán
xây dựng giải pháp tranh luận hợp nhất niềm tin tương ứng [VNTrinh3].
Về phương diện ứng dụng, luận án đề nghị một quy trình bảy bước xây
dựng một ontology dầu khí Anh-Việt. Quy trình này vừa tổng hợp các kết quả
nghiên cứu của luận án vừa cung cấp một phương án thực thi các kết quả nghiên
cứu vào thực tiễn. Một ontology Dầu khí Anh-Việt thực nghiệm đã được xây
dựng.
7
Bố cục của luận án gồm phần mở đầu và năm chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo. Hình 0.2 cung cấp một khung nhìn sơ
bộ về phân bố các chủ đề trong năm chương nội dung của luận án.
Chương 5 của luận án trình bày một quy trình bảy bước xây dựng ontology
dầu khí Anh - Việt. Quy trình này được xây dựng dựa trên các kết quả nghiên cứu
của luận án về học ontology, về thu nhận ý kiến chuyên gia, các nguyên lý và các
bước xây dựng ontology, và thực tiễn tài nguyên ontology của ngành dầu khí Việt
Nam.
9
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC
ONTOLOGY VÀ ĐỘ ĐO GOOGLE
Hai mục đầu của chương này trình bày các nội dung cơ bản nhất về
ontology, xây dựng ontology và kỹ thuật học ontology. Mục thứ ba của chương
này giới thiệu về độ đo khoảng cách Google, một độ đo dữ liệu được luận án
quan tâm và triển khai áp dụng trong một số kỹ thuật học ontology.
1.1. GIỚI THIỆU CHUNG VỀ ONTOLOGY
1.1.1. Khái niệm ontology
Từ “ontology” có nguồn gốc từ tiếng Hy Lạp, là sự kết hợp của hai từ
“ontos” (“tồn tại”, tiếng Anh “being” ) và “logos” (“từ”, tiếng Anh là “word”)
[32], vì vậy, nói một cách không hình thức, ontology được xây dựng để biểu diễn
các “kiểu tồn tại” trong một miền nào đó dựa trên “từ ngữ”. Các “kiểu tồn tại”
trong một miền gồm có các thuật ngữ, các khái niệm, các quan hệ và các tiên đề
khái quát hóa các quan hệ.
Rất nhiều nghiên cứu chỉ ra rằng, đưa ra một định nghĩa đủ để bao gói
việc biểu diễn các “kiểu tồn tại” dựa trên “từ ngữ” là một công việc rất khó khăn.
Rất nhiều định nghĩa ontology đã được đưa ra, và theo dòng thời gian xây dựng
và ứng dụng ontology, nội dung khái niệm ontology đã được tiến hóa nhằm phù
hợp với phạm vi nghiên cứu và triển khai tương ứng.
D. Gašević và cộng sự [32] giới thiệu và phân tích nội dung năm định
nghĩa phổ biến nhất về ontology trong lĩnh vực trí tuệ nhân tạo. Theo nhóm tác
P. Buitelaar và cộng sự [11]
(b)
P. Cimiano và cộng sự [17]
Hình 1.1. Các tầng đối tượng trong ontology và ví dụ [11][17], [32]
Quan niệm phổ biến này cho thấy một ontology cung cấp ([11], [17],
[32]): (i) một bảng từ vựng (hoặc các tên gọi) để chỉ dẫn các thuật ngữ, (ii) bảng
11
phân cấp (quan hệ thứ bậc) và các quan hệ khác giữa các khái niệm. Loại quan
hệ mức cao được trình diễn dưới dạng tiên đề (iii) lý thuyết nội dung để hiểu rõ
nội dung các thuật ngữ, các khái niệm và các quan hệ, (iv) một nền tảng tri thức
để chia sẻ và tái sử dụng trong cộng đồng. Hình 1.1 trình bày các tầng đối tượng
của một ontology miền và thể hiện tương ứng [11], [17].
Luận án này được định hướng nghiên cứu theo quan niệm phổ biến trên
đây về ontology.
1.1.2. Phân loại ontology
Ontology phổ quát nhất như đã được đề cập là ontology triết học
(philosophical ontology). Ngoài ontology triết học, nhiều kiểu ontology khác
cũng được con người tạo ra đó là ontology miền, ontology mức cao, ontology
tham chiếu (reference ontology) và ontology ứng dụng (application ontology)
[7].
Ontology triết học được xây dựng nhằm mục đích cung cấp một phân loại
rõ ràng và toàn diện về tất cả các thực thể trong mọi lĩnh vực của cuộc sống.
Ontotoly triết học định hướng cho các nghiên cứu về các chủng loại, cấu trúc của
các đối tượng, các tính chất, các sự kiện, các quá trình và các mối quan hệ trong
mọi lĩnh vực của thực tế (siêu hình học: metaphysics). Kết quả trong ontology
nhau trong cùng một miền hoặc trong một số miền liên quan nhau. Ví dụ về các
ontology mức cao như ontology hình thức cơ bản (Basic Formal Ontology:
BFO), ontology mô tả cho kỹ nghệ ngôn ngữ và nhận thức (Descriptive
Ontology for Linguistic and Cognitive Engineering: DOLCE), ontology kết hợp
cao cấp chuẩn (Standard Upper Merged Ontology: SUMO)5.
Ontology ứng dụng (application ontology) được tạo ra nhằm mục đích
thực hiện một số bài toán hoặc ứng dụng cụ thể. Đối ngẫu lại, ontology tham
chiếu (reference ontology) được tạo ra nhằm mục đích cung cấp một trình diễn
kinh điển và toàn diện về các thực thể trong một miền xác định nhằm đóng gói
về các loại thực thể có trong văn bản khoa học. Ontology có trong Hệ thống
thông tin SAPPHIRE (the Situational Awareness and Preparedness for Public
Health Incidents Using Reasoning Engines) là một ontology ứng dụng, hai
ontology miền FMA, GO trên đây là các ontology tham chiếu.
Trong phiên bản đầu tiên, ontology dầu khí Anh-Việt được xây dựng để
phục vụ các ứng dụng tìm kiếm và giải thích thuật ngữ dầu khí cho các nhà
nghiên cứu về lĩnh vực dầu khí cho nên nó được coi là một ontology ứng dụng
cho miền dầu khí.
4
http://www.geneontology.org/;http://sig.biostr.washington.edu/projects/fm/AboutFM.html;
https://bioportal.bioontology.org/ontologies/ENVO; https://www.ebi.ac.uk/chebi/.
5
http://ifomis.uni-saarland.de/bfo/;http://www.loa.istc.cnr.it/old/DOLCE.html;
http://www.adampease.org/OP/
13