TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
*
TIỂU LUẬN
HỌC PHẦN: WEB VÀ CÁC DỊCH VỤ THẾ HỆ MỚI
MÃ HỌC PHẦN: IT6210 TÊN ĐỀ TÀI
TÌM HIỂU VỀ ONTOLOGY – XÂY DỰNG HỆ THỐNG MÔ TẢ
THÔNG TIN TRONG BỘ MÔN TRUYỀN THÔNG VÀ MẠNG
MÁY TÍNH
Giảng viên hướng dẫn: TS. Phạm Huy Hoàng
Nhóm thực hiện: Lê Quốc Hoan
Nguyễn Công Trung
Lớp: 12BMTTT
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
mạng máy tính
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 2
LỜI NÓI ĐẦU 1
1. Khái niệm Ontology 3
1.1 Khái niệm Ontology 3
1.2 Yêu cầu khi xây dựng ontology 4
1.2.1 Các thành phần của ontology 4
Cá thể (Individuals) – Thể hiện 5
Lớp (Classes) - Khái niệm 5
Thuộc tính (Properties) 5
Mối quan hệ (Relation) 5
1.2.2 Tìm hiểu về RDF/RDFS 6
Khái niệm 6
Diểm mạnh và giới hạn của RDF và RDFS 7
1.2.3 Ngôn ngữ OWL 8
2. Phương pháp xây dựng Ontology 10
2.1 Quy trình phát triển Ontology 10
Bước 1: Xác định lĩnh vực và phạm vi của Ontology 10
Bước 2: Xem xét việc sử dụng lại các ontology có sẵn 10
Bước 3: Liệt kê các thuật ngữ quan trọng 10
Bước 4: Xác định các lớp và phân cấp của các lớp 11
Bước 5: Xác định các thuộc tính 11
Bước 6: Xác định ràng buộc của các thuộc tính 12
Bước 7: Tạo các thể hiện / thực thể 12
2.2 Công cụ phát triển ontology 12
3. Ontology về thông tin trong bộ môn Truyền thông và Mạng máy tính 14
3.1 Các lớp trong Ontology 15
1.2 Yêu cầu khi xây dựng ontology
Ngôn ngữ ontology cho phép người sử dụng viết rõ ràng, các khái niệm hình thức
của mô hình miền. Các yêu cầu chính:
- Cấu trúc rõ ràng: đây là điều kiện cần cho máy có thể xử lý thông tin.
- Ngữ nghĩa hình thức miêu tả ý nghĩa tri thức một cách chính xác: Ý nghĩa của ngữ
nghĩa hình thức tồn tại trong một thời gian dài trong miền toán logic. Việc sử dụng
ngữ nghĩa hình thức cho phép con người suy diễn tri thức. Với tri thức trong ontology
chúng ta có thể suy diễn về:
o Thành viên của lớp: Nếu x là một thể hiện của lớp C và C là lớp con của lớp D thì
chúng ta có x là thể hiện của lớp D
o Các lớp tương đương: Nếu lớp A tương đương với lớp B và lớp B tương đương với
lớp C, thì lớp A cũng tương đương với lớp C.
o Tính nhất quán: Giả sử chúng ta khai báo x là thể hiện của lớp A và A là lớp con
của B∩ C, A là lớp con của lớp D, Lớp B và lớp D không có quan hệ với nhau
(disjoint). Thì chúng ta không nhất quán bởi vì A nên là rỗng nhưng lại có thể hiện là
x. Đây là một dấu hiệu của một lỗi trong ontology.
o Phân loại : nếu chúng ta khai báo các cặp thuộc tính giá trị đã biết là điều kiện đủ
cho thành viên trong một lớp A, thì nếu một cá thể x thỏa mãn các điều kiện, chúng
ta có thể kết luận x phải là một thể hiện của A.
- Ngữ nghĩa là điều kiện tiên quyết cho việc hỗ trợ suy diễn: Hỗ trợ suy diễn rất quan
trọng bởi vì nó cho phép kiểm tra tính nhất quán của ontology và tri thức, kiểm tra các
quan hệ thừa giữa các lớp, tự động phân loại các thể hiện trong lớp.
Ngữ nghĩa hình thức và hỗ trợ suy diễn thường được cung cấp bởi việc ánh xạ một
ngôn ngữ ontology đến hình thức logic và sử dụng suy diễn tự động bởi các hình thức
luôn tồn tại. OWL được ánh xạ logic miêu tả và sử dụng các suy diễn đang tồn tại như
FaCT và RACER. Các logic mô tả là tập con của logic vị từ nhằm hỗ trợ suy diễn hiệu
quả.
1.2.1 Các thành phần của ontology
Ontology được sử dụng như là một biểu mẫu trình bày tri thức về thế giới hay một
phần của nó. Ontology thường miêu tả:
Ontology thường phân biệt các nhóm quan hệ khác nhau. Vd:
- Quan hệ giữa các lớp
- Quan hệ giữa các thực thể
- Quan hệ giữa một thực thể và một lớp
- Quan hệ giữa một đối tượng đơn và một tập hợp
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
mạng máy tính
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 6
- Quan hệ giữa các tập hợp.
1.2.2 Tìm hiểu về RDF/RDFS
Khái niệm
- Khái hiệmRDF: (Resource Description Framework) là một “bộ khung” được sử
dụng để mô tả các nguồn tài nguyên trên Internet
- Mô hình cơ bản của RDF gồm ba đối tượng sau:
Tài nguyên (Resources): là tất cả những gì được mô tả bằng biểu thức RDF
Thuộc tính (Properties): thuộc tính, đặc tính, hoặc quan hệ dùng để mô tả tính chất
của tài nguyên.
Phát biểu (Statements): mỗi phát biểu gồm ba thành phần sau:
+ Subject (Tài nguyên): địa chỉ hay vị trí tài nguyên muốn mô tả
+ Predicate (Vị ngữ): xác định tính chất của tài nguyên.
+ Object (Bổ ngữ): có thể là một giá trị nguyên thủy hoặc c
ũ
ng có thể là một
tài nguyên.
Mỗi một phát biểu (subject, predicate, object) còn gọi là một bộ ba ( triple).
- Đồ thị RDF
tất cả mọi thứ đều được coi là các nguồn tài nguyên, bản thân các lớp cũng là các nguồn
tài nguyên, nhưng bên trong nó cũng có thể là tập hợp các nguồn tài nguyên khác.
RDF/RDFS trước đây được coi là một thành phần cốt yếu để biểu diễn nội dung
trong Semantic Web. Tuy nhiên, chúng không đủ mạnh để mô tả thông tin một cách chi
tiết. Cụ thể hơn, chúng không có các ràng buộc cục bộ giữa domain và range, các ràng
buộc tồn tại, tập hợp, các thuộc tính bắc cầu nghịch đảo, đối xứng… (các thuộc tính
liên quan đến logic), và đặc biệt là chúng không có chuẩn ngữ nghĩa nên khó hỗ trợ cho
suy diễn, lập luận.
Diểm mạnh và giới hạn của RDF và RDFS
RDF và RDFS cho phép biểu diễn một vài tri thức ontology. Mô hình cơ bản của
RDF/RDFS liên quan đến tổ chức bộ từ vựng trong việc phân cấp: các quan hệ lớp con,
thuộc tính con, các ràng buộc domain và range, các thể hiện của lớp. Tuy nhiên một số
các đặc điểm bị thiếu. Ví dụ như:
- Tách rời các lớp: Thỉnh thoảng chúng ta muốn chỉ ra các lớp tách rời nhau. Ví dụ lớp
Male và lớp Female là tách rời, nhưng trong RDFS chúng ta chỉ có thể để ở quan hệ
lớp con, ví dụ: Female là lớp con của lớp Person
- Phạm vi giá trị của thuộc tính: rdfs:range định nghĩa dải giá trị của thuộc tính áp dụng
cho tất cả các lớp. Vì vậy trong RDF Schema chúng ta không thể khai báo các ràng
buộc với dải giá trị chỉ áp dụng với một vài lớp nhất định. Ví dụ, trong RDFS chúng ta
không thể định nghĩa bò chỉ ăn cỏ, trong khi các loài động vật khác cũng có thể ăn cỏ.
- Kết hợp các lớp với nhau: Đôi khi chúng ta muốn xây dụng một lớp mới được tạo ra
từ việc kết hợp các lớp khác sử dụng hợp hoặc giao hoặc bù. Ví dụ chúng ta có thể
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
mạng máy tính
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 8
định nghĩa lớp Person bằng việc hợp hai lớp phân biệt là Male và Female. RDF
Schema không cho phép chúng ta định nghĩa như vậy.
- Các ràng buộc về lực lượng: Chúng ta muốn các ràng buộc bao nhiêu giá trị thuộc tính
phân biệt có thể có hoặc bắt buộc. Ví dụ: Chúng ta thích nói rằng một người có đúng
hai cha mẹ, hoặc một khóa học được dạy bởi ít nhất một giảng viên. Kiểu ràng buộc
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 9
OWL ra đời sau các ngôn ngữ này, nó có khả năng biểu diễn các nội dung mà máy có thể
biểu diễn được trên Web.
Các phiên bản của OWL: Hiện nay có ba loại OWL : OWL Lite, OWL DL
(description logic), và OWL Full.
- OWL Lite: hỗ trợ cho những người dùng chủ yếu cần sự phân lớp theo thứ bậc và các
ràng buộc đơn giản. Ví dụ: Trong khi nó hỗ trợ các ràng buộc về tập hợp, nó chỉ cho
phép tập hợp giá trị của 0 hay 1. Điều này cho phép cung cấp các công cụ hỗ trợ OWL
Lite dễ dàng hơn so với các bản khác.
OWL DL (OWL Description Logic): hỗ trợ cho những người dùng cần sự diễn cảm tối
đa trong khi cần duy trì tính tính toán toàn vẹn (tất cả các kết luận phải được đảm bảo
để tính toán) và tính quyết định (tất cả các tính toán sẽ kết thúc trong khoảng thời gian
hạn chế). OWL DL bao gồm tất cả các cấu trúc của ngôn ngữ OWL, nhưng chúng chỉ
có thể được sử dụng với những hạn chế nào đó (Ví dụ: Trong khi một lớp có thể là
một lớp con của rất nhiều lớp, một lớp không thể là một thể hiện của một lớp khác).
OWL DL cũng được chỉ định theo sự tương ứng với logic mô tả, một lĩnh vực nghiên
cứu trong logic đã tạo nên sự thiết lập chính thức của OWL.
OWL Full muốn đề cập tới những người dùng cần sự diễn cảm tối đa và sự tự do của
RDF mà không cần đảm bảo sự tính toán của các biểu thức. Ví dụ, trong OWL Full,
một lớp có thể được xem xét đồng thời như là một tập của các cá thể và như là một cá
thể trong chính bản thân nó. OWL Full cho phép một ontology gia cố thêm ý nghiã
của các từ vựng được định nghĩa trước (RDF hoặc OWL).
Các phiên bản này tách biệt về các tiện ích khác nhau, OWL Lite là phiên bản dễ
hiểu nhất và phức tạp nhất là OWL Full.
Mối liên hệ giữa các ngôn ngữ con của OWL:
- Mọi ontology hợp lệ dựa trên OWL Lite đều là ontology hợp lệ trên OWL DL
- Mọi ontology hợp lệ dựa trên OWL DL đều là ontology hợp lệ trên OWL Full
- Mọi kết luận hợp lệ dựa trên OWL Lite đều là kết luận hợp lệ trên OWL DL
- Mọi kết luận hợp lệ dựa trên OWL DL đều là kết luận hợp lệ trên OWL Full
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
Ontology được xây dựng trên cơ sở các khái niệm trong một lĩnh vực cụ thể, vì vậy
khi xây dựng ontology cần bắt đầu từ các thuật ngữ chuyên ngành để xây dựng thành các
lớp trong ontology tương ứng. Tất nhiên không phải thuật ngữ nào cũng đưa vào
ontology, vì chưa chắc đã định vị được cho thuật ngữ đó. Do đó cần phải liệt kê các thuật
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
mạng máy tính
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 11
ngữ, để xác định ngữ nghĩa cho các thuật ngữ đó, cũng như cân nhắc về phạm vi của
ontology. Việc liệt kê các thuật ngữ còn cho thấy được phần nào tổng quan về các khái
niệm trong lĩnh vực đó, giúp cho các bước tiếp theo được thuận lợi.
Bước 4: Xác định các lớp và phân cấp của các lớp
Công việc xác định các lớp không chỉ đơn giản là tiến hành tìm hiểu về ngữ nghĩa
của các thuật ngữ đã có để có được các mô tả cho thuật ngữ đó, mà còn phải định vị cho
các lớp mới, loại bỏ ra khỏi ontology nếu nằm ngoài phạm vi của ontology hay hợp nhất
với các lớp đã có nếu có nhiều thuật ngữ có ngữ nghĩa như nhau (đồng nghĩa, hay đa ngôn
ngữ). Ngoài ra không phải thuật ngữ nào cũng mang tính chất như một lớp.
Một công việc cần phải tiến hành song song với việc xác định các lớp là xác định
phân cấp của các lớp đó. Việc này giúp định vị các lớp dễ dàng hơn.
Có một số phương pháp tiếp cận trong việc xác định phân cấp của các lớp:
- Phương pháp từ trên xuống (top-down): bắt đầu với định nghĩa của các lớp tổng quát
nhất trong lĩnh vực và sau đó chuyên biệt hóa các khái niệm đó. Ví dụ: Trong
Ontology về quản lý nhân sự, ta bắt đầu với lớp Người, sau đó chuyên biệt hóa lớp
Người đó bằng cách tạo ra các lớp con của lớp Người như : Kỹ sư, Công nhân, Bác
sỹ,… Lớp Kỹ sư cũng có thể chuyên biệt hóa bằng cách tạo ra các lớp con như Kỹ sư
CNTT, Kỹ sư điện, Kỹ sư cơ khí, …
- Phương pháp từ dưới lên (bottom-up): bắt đầu với định nghĩa của các lớp cụ thể nhất,
như các lá trong cây phân cấp. Sau đó gộp các lớp đó lại thành các khái tổng quát hơn.
Ví dụ: ta bắt đầu với việc định nghĩa các lớp như: nhân viên lễ tân, nhân viên vệ sinh,
nhân viên kỹ thuật. Sau đó tạo ra một lớp chung hơn cho các lớp đó là lớp nhân viên.
- Phương pháp kết hợp: kết hợp giữa phương pháp từ trên xuống và từ dưới lên: bắt đầu
Murshed (2005) đưa ra các tiêu chuẩn đánh giá công cụ tạo ontology. Tiêu chuẩn bao
gồm tính năng, khả năng sử dụng lại, lưu trữ dữ liệu, mức độ phức tạp, quan hệ, tính lâu
bền, độ an toàn, độ chắc chắn, khả năng học, tính khả dụng, hiệu lực, và tính rõ ràng.
Protégé và OntoEditFree được phát triển bởi Singh & Murshed sử dụng các tiêu chuẩn
này.
Một số công cụ hiệu chỉnh ontology phổ biến:
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
mạng máy tính
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 13
Các công cụ phát triển Ontology
Protégé hỗ trợ OWL, là công cụ được sử dụng rộng rãi và lâu nhất hiện nay. Nó
cho phép người sử dụng định nghĩa và chỉnh sửa các lớp ontology, các thuộc tính và quan
hệ và các thể hiện sử dụng cấu trúc cây. Các ontology có thể được đưa ra theo các định
dạng RDF(S), XML Schema. Platform protégé cung cấp hai cách chính mô hình hóa
ontology thông qua Protégé - Frame và Protégé – OWL, ngoài ra có thể có nhiều plugin.
Chúng ta có thể quan sát một cách trực quan thông qua OWL Viz, nó cho phép quan sát
ontology dưới dạng đồ họa và đưa file ảnh JPEG. Ngoài ra, nó còn hỗ trợ truy vấn
SPARQL. Hiện tại, Protégé đã có phiên bản 4.2 hỗ trợ OWL 2
Các ưu điểm của Protégé là:
Hỗ trợ đầy đủ ba phiên bản của ngôn ngữ OWL là OWL-Full, OWL-Lite và OWL-
DL.
Nhờ sử dụng mô hình hướng đối tượng của ngôn ngữ Java, Protégé rất hiệu quả
trong việc mô hình hóa các lớp, thực thể, quan hệ…
Giao diện thiết kế trực quan có tính tương tác cao. Người sử dụng có thể định nghĩa
các thành phần của Ontology trực tiếp từ các form. Nó hỗ trợ xây dựng các thành
phần của một Ontology rất nhanh và hiệu quả.
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
mạng máy tính
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 14
các mối quan hệ có thể có. Đây có thể coi là những mối quan hệ điển hình nhất giữa các
khái niệm này.
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
mạng máy tính
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 15
L
à
t
h
à
n
h
v
i
ê
n
c
ủ
a
(
i
s
M
e
m
b
à
t
h
à
n
h
v
i
ê
n
c
ủ
a
(
i
s
M
e
m
b
e
r
O
f
)
C
g
i
ả
(
h
a
s
A
u
t
h
o
r
)
L
à
t
á
c
g
i
ả
c
ủ
a
(
l
o
n
g
T
o
P
r
o
j
e
c
t
)
C
ó
b
à
i
b
á
o
(
h
a
s
P
u
Đ
ư
ợ
c
q
u
a
n
t
â
m
b
ở
i
(
i
s
I
n
t
e
r
e
s
t
e
d
Những cá thể trong ontology được mô tả và thiết lập với mục đích là để luu trữ
những nội dung thông tin của những đối tượng trong bài toán ứng dụng.
3.4 Thuộc tính của các khái niệm trong ontology về thông tin trong bộ môn
Truyền thông và Mạng máy tính.
Lớp Person
Tên thuộc
tính
Ý nghĩa Kiểu Số nhiều
name Tên người Literal
title
Là cách gọi tên người này một cách
lịch sự như Mr./Ms. …
Literal
gender Là nam hay nữ Literal
birthday Ngày sinh Literal
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
mạng máy tính
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 19
image Đường link ảnh đại diện Literal
mbox Địa chỉ email Literal x
homepage Địa chỉ trang chủ cá nhân Literal
phone Số điện thoại Literal x
interests Thích những lĩnh vực nào
Resource
(Area)
x
isAuthorOf Là tác giả của những bài báo nào
Resource
(Publication)
(Publication)
x
isMemberOf
Là thành viên của các dự án, các đề
Resource x
Tìm hiểu về Ontology và xây dựng hệ thống mô tả thông tin trong bộ môn Truyền thông và
mạng máy tính
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 20
tài khoa học nào (Project)
advises
Đã hướng dẫn những sinh viên nào
làm đồ án tốt nghiệp
Resource
(Student)
x
Bảng danh sách các thuộc tính của lớp Lecturer
Lớp Student
Tên thuộc tính
Ý nghĩa Kiểu Số nhiều
name Tên người Literal
title
Là cách gọi tên người này một
cách lịch sự như Mr./Ms. …
Literal
gender Là nam hay nữ Literal
birthday Ngày sinh Literal
image Đường link ảnh đại diện Literal
mbox Địa chỉ email Literal x
Nhóm học viên: Lê Quốc Hoan – Nguyễn Công Trung Trang 21
Lớp Area
Tên thuộc tính Ý nghĩa Kiểu Số nhiều
areaName Tên lĩnh vực Literal
areaDescription Mô tả về lĩnh vực Literal
areaNameInEnglish Tên lĩnh vực trong tiếng Anh Literal
areaKeywords Các từ khóa về lĩnh vực này Literal x
isAreaOfPublication
Là lĩnh vực của những bài
báo nào
Resource
(Publication)
x
isInterestedBy Được những ai yêu thích
Resource
(Person)
x
relatesProject
Liên quan đến những dự án
hay đề tài khoa học nào
Resource
(Project)
x
Bảng danh sách các thuộc tính của lớp Area
Lớp Publication
Tên thuộc tính Ý nghĩa Kiểu Số nhiều
publicationName Tên bài báo Literal
Lớp Project
Tên thuộc tính Ý nghĩa Kiểu Số nhiều
projectName Tên dự án, đề tài khoa học Literal
projectDescription Mô tả về dự án, đề tài Literal
projected Mã dự án, đề tài Literal
projectLevel
Cấp đề tài: cấp Nhà nước,
cấp Bộ, cấp Trường…
Literal
projectBegin Thời điểm bắt đầu Literal
projectEnd Thời điểm kết thúc Literal
projectSponsors
Các nhà tài trợ cho dự án,
đề tài khoa học
Literal x
hasMember Có những thành viên nào
Resource
(Person)
x
hasPublication Có những bài báo nào
Resource
(Publication)
x
relatesArea
Liên quan đến những lĩnh
vực nào
Resource
(Area)