ỨNG DỤNG R2RML ĐỂ CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU CHO
LINKED DATA
Trần Nguyên Phong, Hoàng Hữu Hạnh
Đại học Huế
E-‐‑mail: [email protected], [email protected]
Tóm tắt: RDF (Resource Description Framework) là chuẩn mô tả dữ liệu Web ngữ nghĩa, và
trở thành cơ sở của Linked Data và Web Dữ liệu. Việc chuyển đổi các dữ liệu trong các cơ sở
dữ liệu (CSDL) sang RDF được xem là một trong những bước quan trọng cho việc xây dựng
Web dữ liệu. R2RML (Relational Database to RDF Mapping Language) là một ngôn ngữ để
thể hiện ánh xạ từ các cơ sở dữ liệu quan hệ (RDB) sang bộ dữ liệu RDF. Ánh xạ này cung cấp
khả năng xem dữ liệu hiện có trong mô hình dữ liệu quan hệ RDF, được thể hiện trong một
cấu trúc và từ vựng. R2RML cũng được định nghĩa là một ánh xạ trực tiếp từ cơ sở dữ liệu
quan hệ sang RDF. Bài báo này trình bày việc áp dụng R2RML vào việc chuyển đổi CSDL
quan hệ sang Linked Data phục vụ cho Web Dữ liệu.
Từ khóa: Linked Data, Web of Data, Semantic Web, ontology, RDF, OWL.
1
Giới thiệu
Linked Data là một ứng dụng thực tiễn dựa các công nghệ Web ngữ nghĩa hiện tại, nhằm
cung cấp một cơ chế xuất bản dữ liệu có cấu trúc lên Web, với mục địch tạo ra một thế hệ Web
mới – Web dữ liệu (Web of Data). Linked Data được giới thiệu nhằm mở ra một trào lưu xuất bản
dữ liệu mở, có cấu trúc và phá vỡ các ngăn cách cho các hệ thống CSDL hiện nay. Từ sự khởi đầu
của việc triển khai Web ngữ nghĩa đã có sự quan tâm ngày càng tăng trong việc lập ra các quan
hệ dữ liệu cho Web ngữ nghĩa. Điều này cho phép dữ liệu được kết hợp với các dữ liệu khác trên
Web, liên kết ngữ nghĩa trực tiếp đến dữ liệu quan hệ và hỗ trợ tích hợp dữ liệu với các miền và
lĩnh vực ứng dụng rỗng rãi hơn.
Hiện nay phần lớn dữ liệu trên Web đang được lưu trữ trong các hệ quản trị cơ sở dữ liệu
quan hệ (RDBMS) với các ưu điểm đã được chứng minh về các mặt: khả năng mở rộng, lưu trữ
và RDF thành hai loại:
a)
Ánh xạ tự động:
Một tập hợp các ánh xạ giữa RDB và RDF cụ thể là:
i)
Một mẫu tin RDB là một nút của RDF;
ii) Tên cột của một bảng RDB là một vị từ của RDF;
iii) Một ô của bảng RDB là một giá trị của RDF.
Nhiều hệ thống sử dụng các ánh xạ tự động để ánh xạ giữa RDB và RDF với một bảng của
RDB như một lớp các nút của RDF và các tên cột của RDB như là vị từ của RDF.
Mặc dù các ánh xạ tự động tạo ra thường không nắm bắt được ngữ nghĩa được yêu cầu
của nhiều ứng dụng, nhưng những ánh xạ này có thể là một điểm khởi đầu để tạo ra các tuỳ chọn
hữu ích hơn. Phương pháp này cũng cho phép các ứng dụng Web ngữ nghĩa truy vấn các nguồn
RDB, nơi mà ứng dụng ngữ nghĩa được quy định về ánh xạ RDB. Phương pháp này còn được gọi
là "ʺvùng ánh xạ ontology"ʺ.
b) Ngữ nghĩa miền -‐‑ định hướng ánh xạ:
Cách tiếp cận thứ hai để tạo ra ánh xạ từ RDB sang RDF bằng cách kết hợp ngữ nghĩa miền
ẩn hoặc không ẩn trong tất cả lược đồ RDB. Các mô hình về ngữ nghĩa miền thường được mô
hình hóa như là một miền ontology. Trong thư viện RDF, cho phép các ứng dụng phần mềm tận
dụng lợi thế "ʺthông tin thu được"ʺ và thực hiện các truy vấn liên kết các thực thể với nhau[4].
Ngoài ra, một ánh xạ được tạo ra bằng cách sử dụng ngữ nghĩa miền nhằm làm giảm việc
tạo ra bộ dữ liệu dư thừa hoặc không liên quan. Byrne[4] thảo luận về việc giảm kích thước của
các tập dữ liệu RDF khoảng 2,8 triệu bộ thông qua việc sử dụng ngữ nghĩa theo định hướng của
tên miền ánh xạ từ RDB sang RDF.
Phương pháp này còn được gọi là "ʺmiền ánh xạ ontology"ʺ và quá trình này giống như một
kỹ thuật ontologies công cộng nơi mà các dữ liệu chuyển đổi được định nghĩa trong lược đồ
Tập.
tích hợp. Tuy nhiên, việc sử dụng các miền ontology dựa theo các quy tắc suy luận mà người
dùng định nghĩa để đối chiếu tính không đồng nhất giữa các nguồn RDB là một cách tiếp cận có
hiệu quả cho việc tạo ra một hoặc một tập "ʺtương thích"ʺ của RDF. Do đó, số liệu đánh giá các
phương pháp tiếp cận tạo ánh xạ khác nhau liên quan đến tích hợp dữ liệu.
2.2.
Các tiếp cận chuyển lược đồ RDB sang RDF và RDFS.
Trong phần này, chúng tôi phân loại các công việc khảo sát thành ba lớp lớn cụ thể là:
− Các dự án nhằm chứng minh các khái niệm: Dự án xem xét trong phần này là khám phá
cách tiếp cận cụ thể để chuyển đổi ánh xạ từ RDB sang RDF với một mẫu tin hoặc chứng minh
thực hiện khái niệm. Công việc có thể có hoặc không có, dẫn đến việc phát triển một công cụ/ứng
dụng chung.
3
− Các dự án ứng dụng theo miền: Nhiều dự án được khảo sát đã thúc đẩy bởi yêu cầu ứng
dụng thế giới thực và đã sử dụng ngữ nghĩa miền dựa vào ánh xạ tùy chọn, công cụ tạo ánh xạ
dùng chung hoặc kết hợp cả hai.
− Công cụ/ứng dụng: Các dự án khảo sát bao gồm D2RQ, R2O, Virtuoso, Triplify và các
công cụ Dartgrid đã được đưa ra để ánh xạ RDB sang RDF.
Hình 1: Mô hình cấu trúc tham chiếu cho việc chuyển đổi RDB sang RDF
2.2.1. Các công cụ và ứng dụng
Virtuoso RDF View [4] sử dụng phương pháp bảng thành lớp (lớp RDFS), cột thành vị từ
và đưa vào xem xét trường hợp đặc biệt chẳng hạn như việc một cột là một phần của khóa chính
hoặc khóa ngoại. Các mối quan hệ khóa ngoại giữa các bảng được thực hiện rõ ràng giữa các lớp
có liên quan để đại diện cho các bảng. Các dữ liệu RDB được biểu diễn là đồ thị Virtuoso RDF
mà không tạo vật lý của bộ dữ liệu RDF. Virtuoso RDF View được tạo thành từ "ʺmô hình ánh xạ
Tập.
X;
Số.
Y;
Năm
2015
phương pháp tiếp cận và được thực hiện khá tốt cho các mô hình bộ ba cơ bản nhưng các chức
năng của SPARQL như FILTER, LIMIT được sử dụng.
Công cụ Triplify [4] là một phương pháp đơn giản để chuyển RDF và dữ liệu liên kết từ cơ
sở dữ liệu quan hệ. Triplify dựa trên ánh xạ các yêu cầu HTTP-‐‑ URI vào các truy vấn cơ sở dữ
liệu quan hệ được thể hiện trong SQL với một số bổ sung. Triplify trình bày việc chuyển đổi các
mối quan hệ kết quả vào RDF và công bố các dữ liệu RDF trên web theo trình tự khác nhau, đặc
biệt là dữ liệu liên kết. Triplify được bổ sung bởi một thư viện các cấu hình cho lược đồ quan hệ
chung và một REST cho phép nguồn dữ liệu đăng ký. Kiến trúc gọn nhẹ của Triplify là có thể sử
dụng để xuất bản bộ dữ liệu rất lớn, chẳng hạn như 160GB dữ liệu từ dự án OpenStreetMap.
Công cụ R2O [4] là một ngôn ngữ khai báo dựa trên XML để thể hiện ánh xạ giữa các yếu
tố RDB và ontology. Ánh xạ R2O có thể được sử dụng để "ʺphát hiện mâu thuẫn và không rõ ràng"ʺ
trong định nghĩa bản đồ. Công cụ ODEMapster đã sử dụng một tài liệu R2O hoặc là thực hiện
việc chuyển đổi để đáp ứng với một truy vấn hoặc trong một hàng loạt các chế độ để tạo ra một
biến RDF.
RDBToOnto [4] là một công cụ có cấu hình cao giúp giảm bớt việc thiết kế và thực hiện các
phương pháp để đạt được ontology từ cơ sở dữ liệu quan hệ. Nó cũng là một công cụ định hướng
http://www.w3.org/ns/r2rml#
5
rdf:
http://www.w3.org/1999/02/22-‐‑rdf-‐‑syntax-‐‑ns#
rdfs:
http://www.w3.org/2000/01/rdf-‐‑schema#
xsd:
http://www.w3.org/2001/01/XMLSchema#
ex:
http://example.com/ns#
3.2.
Các thành phần R2RML
3.2.1. Một số thuật ngữ (Terminology)
Các thuật ngữ dưới đây được định nghĩa trong khái niệm và cú pháp của RDF và được
sử dụng trong R2RML [10]:
•
RDF graph: là một tập bộ ba của RDF.
blank node identifier: định danh nút trống để phân biệt với tất cả các URI và literals.
3.2.2. Các mục từ trong bộ từ vựng R2RML
a. Lớp:
Bảng 2: Các lớp trong R2RML
Lớp
rr:BaseTableOrView
Diễn tả
SQL dựa vào bảng hoặc
khung nhìn
rr:LogicalTable
Bảng logic
rr:ObjectMap
Ánh xạ đối tượng
rr:PredicateMap
Ánh xạ vị từ
rr:PredicateObjectMap
Ánh xạ vị từ -‐‑ đối tượng
rr:R2RMLView
rr:constant, rr:column, rr:template
jos.hueuni.edu.vn
X;
Số.
Y;
Năm
2015
b. Thuộc tính:
Bảng 3: Các thuộc tính trong R2RML
Thuộc tính
Mô tả
Bối cảnh
rr:child
Cột child
Điều kiện ràng buộc
rr:class
Lớp IRI
Ánh xạ đối tượng
rr:column
Tên cột
Ánh xạ vị từ -‐‑ đối tượng
rr:parent
Cột parent
Điều kiện ràng buộc
rr:parentTriplesMap
Ánh xạ bộ ba parent
Ánh xạ đối tượng tham chiếu
rr:predicateMap
Ánh xạ vị từ
rr:predicateObjectMap
Ánh xạ đối tượng – vị từ
Ánh xạ bộ ba
rr:sqlQuery
Truy vấn SQL
đầu ra. Đầu vào cho một ánh xạ R2RML là cơ sở dữ liệu.
Phương pháp truy cập vào các dữ liệu đầu ra được cung cấp bởi một bộ xử lý R2RML
tương ứng. Một bộ xử lý R2RML có thể cụ thể hóa các dữ liệu đầu ra vào cho một tập tin, hoặc
cung cấp truy cập ảo thông qua một giao diện để truy vấn cơ sở dữ liệu đầu vào, hoặc cung cấp
bất kỳ phương tiện cho các dữ liệu đầu ra.
7
Hình 2: Chuyển đổi cơ sở dữ liệu quan hệ sang RDF
Một bộ xử lý R2RML cũng có quyền truy cập vào môi trường thực thi bao gồm:
•
Kết nối SQL vào cơ sở dữ liệu đầu vào,
•
Sử dụng IRI trong việc giải quyết các quan hệ được tạo ra bởi các ánh xạ R2RML.
Dữ liệu R2RML là một hệ thống đầu vào của một ánh xạ R2RML, IRI và SQL, và sẽ kết nối
đến một cơ sở dữ liệu đầu vào đồng thời kiểm tra sự xuất hiện của các lỗi dữ liệu. Khi kiểm tra
cơ sở dữ liệu đầu vào, phải báo cáo bất kỳ lỗi nào mà dữ liệu được đưa ra trong quá trình tạo ra
các dữ liệu đầu ra.
4.1.1. Ánh xạ đồ thị và từ vựng R2RML
Một ánh xạ R2RML được biểu diễn như một đồ thị RDF. Nói cách khác, RDF được sử dụng
không chỉ là mô hình dữ liệu của ánh xạ, mà còn là một hình thức đại diện cho ánh xạ R2RML
chính nó [10].
xem xét lược đồ của cơ sở dữ liệu đầu vào và tạo ra một ánh xạ R2RML dưới hình thức một tài
liệu ánh xạ R2RML. Một ánh xạ như vậy được gọi là một ánh xạ mặc định. Ánh xạ mặc định coi
đầu ra của nó là đồ thị trực tiếp tương ứng với cơ sở dữ liệu đầu vào.
4.2.
Định nghĩa các bảng logic
Hình 3: Thuộc tính của các bảng logic
Bảng logic là kết quả của một truy vấn SQL được ánh xạ tới bộ ba của RDF. Một bảng
logic là một trong hai trường hợp sau:
Bảng SQL hoặc khung nhìn, hoặc
Khung nhìn R2RML.
Bảng logic là một truy vấn SQL hiệu quả nếu thực hiện qua kết nối SQL, sản phẩm là kết
quả các nội dung của bảng logic. Dòng của bảng logic là dòng trong một bảng logic.Tên cột là
tên của một cột trong một bảng logic.
4.2.1. SQL dựa vào các bảng và khung nhìn (rr:tableName).
SQL dựa vào bảng hoặc khung nhìn là một bảng logic có chứa dữ liệu SQL từ một bảng
hoặc khung nhìn trong cơ sở dữ liệu đầu vào. Nó được đại diện bởi nguồn tài nguyên có chính
xác một thuộc tính rr:tableName.
Giá trị của rr:tableName xác định tên của bảng hoặc khung nhìn. Giá trị của nó phải là tên
một lược đồ có điều kiện cho bảng hoặc khung nhìn hiện có trong cơ sở dữ liệu đầu vào.
9
nguyên khác như sau:
− Phải có chính xác một thuộc tính rr:logicalTable. Giá trị của nó là một bảng logic mà kết
quả truy vấn SQL được ánh xạ tới bộ ba.
10
jos.hueuni.edu.vn
X;
Số.
Y;
Năm
2015
Hình 4: Thuộc tính của ánh xạ bộ ba
− Phải có chính xác một ánh xạ chủ thể được quy định cụ thể để tạo ra một chủ thể cho
mỗi hàng của bảng logic. Nó có thể được xác định theo hai cách:
1. Sử dụng thuộc tính rr:subjectMap có giá trị chủ thể, hoặc
2. Sử dụng rr:Subject.
− Có thể không có hoặc có nhiều thuộc tính rr:predicateObjectMap mà giá trị phải có ánh
xạ vị từ -‐‑ đối tượng. Cặp ánh xạ vị từ và đối tượng cùng với các đối tượng được tạo ra
bởi các ánh xạ chủ thể có thể hình thành một hoặc nhiều bộ ba RDF cho mỗi hàng.
Ví dụ: Ánh xạ bộ ba bao gồm cả bảng logic, ánh xạ chủ thể và ánh xạ vị từ đối tượng .
rr:logicalTable
[
rr:tableSchema "R2RML";
rr:tableOwner "TEST";
rr:tableName "CUSTOMER"
];
rr:subjectMap
[
rr:template"http://example.com/customer/{makh}";
rr:class exa:customer;
2. Sử dụng thuộc tính rr:objects
− Một hoặc nhiều ánh xạ đối tượng hoặc ánh xạ đối tượng tham chiếu. Nó được xác định
theo một trong hai cách:
1. Sử dụng thuộc tính rr: ObjectMap có giá trị hoặc là một ánh xạ đối tượng, hoặc một
ánh xạ đối tượng tham chiếu.
2. Sử dụng thuộc tính phím tắt rr:objects
d. Tạo các mục từ RDF với thuật ngữ ánh xạ.
Một mục từ RDF là IRI hoặc một nút trống hoặc một literal. Một mục từ ánh xạ là một hàm
tạo ra mục từ RDF từ một dòng của bảng logic. Kết quả của hàm đó được gọi là thuật ngữ
ánh xạ được tạo ra của mục từ RDF.
Một mục từ ánh xạ phải được xác định chính xác một trong các trường hợp sau:
12
•
constant (hằng số)
•
column (cột)
•
template (mẫu)
jos.hueuni.edu.vn
Tập.
X;
Số.
Y;
Năm
2015
?x rr:object ?y.
?x rr:objectMap [rr:constant ?y].
?x rr:graph ?y.
?x rr:graphMap [rr:constant ?y].
Ví dụ: Một ánh xạ vị từ -‐‑ đối tượng sử dụng một hằng số cho cả vị từ của mình và cho đối
tượng của nó.
[ rr: predicateMap [rr: constant rdf: type];
rr: ObjectMap [rr: constant ex: customer]];
Nếu thêm vào một ánh xạ bộ ba, thì ánh xạ vị từ -‐‑ đối tượng sẽ thêm bộ ba cho tất cả các
nguồn tài nguyên ?x tạo ra bởi ánh xạ bộ ba:
? x rdf:type ex:customer.
f. Từ một cột (rr: column)
Giá trị cột của thuật ngữ ánh xạ là một thuật ngữ ánh xạ đại diện bởi một nguồn tài
nguyên có một thuộc tính chính xác rr:column. Giá trị của thuộc tính rr:column là một tên cột
hợp lệ. Giá trị cột là giá trị dữ liệu của cột trong một dòng của bảng logic nhất định.
Cột tham chiếu là một tập hợp đơn có chứa các giá trị của thuộc tính rr:column.
Ví dụ: Định nghĩa một ánh xạ đối tượng được tạo ra từ cột Tenkh của một số bảng logic
Customer
[ ] rr:ObjectMap [rr: column"Tenkh"].
Sử dụng hàng có sẵn từ bảng CUSTOMER như một dòng của bảng logic, giá trị cột của
ánh xạ đối tượng sẽ là "ʺCTy Thanh Thanh"ʺ.
g. Từ một Template (rr:template)
Template là một ánh xạ được đại diện bởi một nguồn tài nguyên có chính xác trong thuộc
tính rr: template. Giá trị của thuộc tính rr:template phải là một chuỗi template hợp lệ.
Một chuỗi template là một chuỗi định dạng có thể được sử dụng để xây dựng chuỗi từ
Tập.
X;
Số.
Y;
Năm
15
•
Phải có chính xác thuộc tính rr:parentTriplesMap mà giá trị phải có trong ánh xạ bộ
ba như là đối tượng ánh xạ tham chiếu của ánh xạ bộ ba parent.
•
Có một hoặc nhiều thuộc tính rr:joinCondition đó là điều kiện ràng buộc.
Điều kiện ràng buộc đại diện bởi nguồn tài nguyên đó là một giá trị chính xác cho hai
thuộc tính sau đây:
•
Thuộc tính rr:child,giá trị biết đến như là điều kiện ràng buộc của cột con và phải là
tên cột được tồn tại trong bảng logic của ánh xạ bộ ba.
•
Thuộc tính rr:parent, giá trị được biết đến như điều kiện ràng buộc của cột cha và
phải là cột được tồn tại trong bảng logic của ánh xạ đối tượng tham chiếu.
Ví dụ: Một đối tượng ánh xạ tham chiếu như là một phần của ánh xạ vị từ -‐‑ đối tượng:
rr:predicateObjectMap
[
rr:predicate hoadon:Makhach_FK;
rr:objectMap [
rr:parentTriplesMap <http://example.com/ns#TriplesMap3>;
Lược đồ cơ sở dữ liệu quan hệ:
KHACHHANG (Makh, Tenkh, diachi)
SANPHAM (Masp, Tensp)
HOADON (Sohd, Makh, Masp, Manv, LoaiVT, Soluong, Dongia)
NHANVIEN (Manv, Holot, Ten, PhaiNam, Diachi, LuongCB).
Trong các quan hệ nên trên những thuộc tính như “Makh, Masp, Sohd, Manv” là những
khoá chính trong cơ sở dữ liệu quan hệ.
16
jos.hueuni.edu.vn
X;
Số.
Y;
Năm
2015
Bước 2: Sử dụng cấu trúc của ngôn ngữ R2RML để chuyển đổi dữ liệu như sau:
Khi dữ liệu được chuyển đổi bằng R2RML thì dữ liệu sẽ được kiểm tra bằng cách chọn
Interactive SQL (isql.exe) trong Virtuoso. Cơ sở dữ liệu quan hệ thể hiện trong Virtuoso như sau:
Các bảng của cơ sở
dữ liệu quan hệ
Hình 8: Các bảng của RDB trong Virtuoso.
Bảng NHANVIEN (EMPLOYEE) với khoá chính là manv.
17
Bảng KHACHHANG (CUSTOMER)
Hình 10: Dữ liệu RDFS biểu diễn trong Ontology dưới dạng OWL
5
Kết luận
Bào báo trình bày quá trình nghiên cứu chuyển đổi cơ sở dữ liệu quan hệ sang RDF và
RDFS. Các kết quả chính của của bài báo là: hệ thống hoá các phương pháp ánh xạ để chuyển đổi
cơ sở dữ liệu quan hệ sang RDF và RDFS; tìm hiểu về ngôn ngữ chuyển đổi R2RML; và ứng dụng
chuyển đổi mô hình dữ liệu quan hệ sang mô hình biểu diễn Ontology bằng OWL và cách thể
hiện Ontology dưới dạng RDF và RDFS.
Trong các nghiên cứu trong tương lai, chúng tôi sẽ nghiên cứu việc thực hiện việc chuyển
đổi tất cả các dữ liệu hiện có biểu diễn trên ontology dưới dạng RDF dưới mục đích nhằm phục
vụ cho thế hệ ứng dụng mới có sử dụng RDF.
19
Tài liệu tham khảo
1. Hoàng Hữu Hạnh, Lê Mạnh Thạnh (2012), Giáo trình Web ngữ nghĩa, Nxb Giáo dục.
2. Hoàng Hữu Hạnh (2012), RDF Ứng dụng, Nxb Đại học Huế.
3. Berners-‐‑Lee T., Hendler J., Lassila O. (2001), The Semantic Web, Scientific American, 284, pp. 34-‐‑43.
4. Ezzat A., Halb W., Hellmann S., Idehen S., Sahoo S., Sequeda J., Thibodeau T.(2009), ”A Survey of Cur-‐‑
rent Approaches for Mapping of Relational Databases to RDF”, pp. 1-‐‑15.
5. Berners-‐‑Lee T. (1998), “Relational Databases on the Semantic Web”, http://www.w3.org/DesignIs-‐‑
sues/RDB-‐‑RDF.html.
6. Buccella A., Penabad M., Rodriguez F., Farina A., Cechich A. (2004), “From Relational Databases to
OWL Ontologies”, Proceedings of the 6th National Russian Research Conference.
7. RDF Primer, http://www.w3.org/TR/rdf-‐‑primer/
8. RDF Vocabulary Description Language 1.0: RDF Schema, http://www.w3.org/TR/rdf-‐‑schema/
9. http://www.w3.org/2001/sw/rdb2rdf/