Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU VÀ TRIỂN KHAI LINKED DATA CHO CÁC ỨNG DỤNG WEB NGỮ NGHĨA" - Pdf 19



179
TẠP CHÍ KHOA HỌC, Đại học Huế, Số 65, 2011

NGHIÊN CỨU VÀ TRIỂN KHAI LINKED DATA
CHO CÁC ỨNG DỤNG WEB NGỮ NGHĨA
Lê Thị Thanh Tâm, Trường Cao đẳng Công nghiệp Huế
Hoàng Hữu Hạnh, Lê Mạnh Thạnh
Đại học Huế
TÓM TẮT
Web ngữ nghĩa là xu thế phát triển trong việc biểu diễn dữ liệu để khắc phục các hạn
chế của Web hiện tại và hướng đến một thế hệ Web đáp ứng tốt hơn nhu cầu của con người và
các ứng dụng. Linked Data là thuật ngữ chỉ cách thức liên kết các nguồn dữ liệu trên Web hay
đơn giản là sử dụng Web để kết nối các dữ liệu từ nhiều nguồn khác nhau, là một trong những
cách tạo dựng nền tảng cho Web ngữ nghĩa. Vấn đề đặt ra là làm sao để chúng ta có thể chia sẻ
các dữ liệu trên Web dễ dàng như chia sẻ các tài liệu trên Web ngày nay. Bài báo này trình bày
các khái niệm và các kỹ thuật nền tảng của Linked Data, mô tả cách xuất bản Linked Data lên
Web. Phần cuối đưa ra ví dụ minh họa việc xuất bản Linked Data và liên kết đến các nguồn dữ
liệu khác trên Web.

1. Giới thiệu
Mặc dù Web đã mang lại những lợi ích to lớn cho đến tận hôm nay. Tuy nhiên,
những công nghệ đó chỉ áp dụng cho Web của tài liệu như hiện tại mà không thể áp
dụng cho một thế hệ Web mới, Web dữ liệu (Web of Data). Thông thường, dữ liệu được
xuất bản lên Web đã được định sẵn dưới dạng thô XML hay bằng HTML, mà bỏ qua
nhiều cấu trúc và ngữ nghĩa của nó, dẫn đến thông tin thu được thiếu chính xác và đầy
đủ. Trong Web siêu văn bản, tính tự nhiên của các mối quan hệ giữa hai tài liệu liên kết
không rõ ràng vì định dạng dữ liệu HTML không hiệu quả khi biểu diễn các hạng mục
riêng biệt được mô tả trong một tài liệu cụ thể và kết nối bởi liên kết định kiểu đến các
mục liên quan. [1, 3]

Linked Data sử dụng mô hình dữ liệu RDF để xuất bản dữ liệu có cấu trúc trên
Web và sử dụng liên kết RDF để kết nối các dữ liệu từ nhiều nguồn dữ liệu khác nhau.
Điều đó tạo ra các nguồn dữ liệu chung trên Web nơi mà các cá nhân hay tổ chức có thể
đưa dữ liệu lên hay sử dụng dữ liệu về bất cứ thứ gì [2, 8].
2.2. Tài nguyên
Để xuất bản dữ liệu trên Web, đầu tiên chúng ta phải đặt tên hay định danh các
thứ quan tâm trong lĩnh vực của ứng dụng. Khi mô tả chúng, ta cần quan tâm đến các
thuộc tính và mối quan hệ của chúng với những thứ khác. Trong thuật ngữ của kiến trúc
Web, tất cả các thứ quan tâm được gọi là tài nguyên [8].
Tài nguyên
Tài nguyên
Tài nguyên
Tài nguyên
Tài nguyên
Tài nguyên
Tài nguyên
Tài nguyên
Tài nguyên
Tài nguyên
Liên kết Liên kết Liên kết Liên kết
A B C
D

E 181
Có hai loại tài nguyên là tài nguyên thông tin và tài nguyên phi thông tin (tài
nguyên thế giới thực hay còn gọi là thực thể thế giới thực) [8]. Tất cả tài nguyên trong
Web tài liệu như các tệp tài liệu, hình ảnh và các tệp phương tiện khác đều là tài nguyên

Định danh tài nguyên (URI)
RDF

URI tài li

u RDF

HTML

URI tài li

u HTML
182
nguyên phi thông tin, chúng được gọi là các bí danh.
2.4.2. Tham chiếu URI
Tham chiếu URI hay tham chiếu tài nguyên là tiến trình tìm kiếm một URI trên
Web để lấy thông tin về tài nguyên được tham chiếu [8].
Với tài nguyên thông tin, khi một URI định danh của một tài nguyên thông tin
được tham chiếu, máy chủ của URI đó thường sẽ sinh ra một biểu diễn mới, một hình
ảnh chụp nhanh về trạng thái hiện tại của tài nguyên thông tin và gửi trở lại máy trạm
dùng giao thức HTTP [8, 9, 15].
Tài nguyên phi thông tin không thể được tham chiếu trực tiếp. Vì vậy, kiến trúc
Web sử dụng một bí quyết để làm cho URI định danh các tài nguyên phi thông tin được
tham chiếu. Thay vì gửi một biểu diễn của tài nguyên, máy chủ gửi đến máy trạm một
tài nguyên thông tin mô tả tài nguyên phi thông tin sử dụng mã HTTP 303 See Other.
Điều này gọi là chuyển tiếp 303 (redirect). Bước thứ 2, máy trạm sẽ tham chiếu đến
URI mới này và lấy thông tin mô tả biểu diễn tài nguyên phi thông tin [15].

t

Liên k
ế
t

A

B

C

D
E

Trình duyệt Linked
Data
Máy tìm kiếm Linked
Data
Ứng dụng Linked
Data 183
3.1. Chuẩn bị dữ liệu
Bước đầu tiên để xuất bản Linked Data là chuẩn bị dữ liệu cho ứng dụng. Dữ
liệu của ứng dụng chính là các tài nguyên trên Web, do đó chuẩn bị dữ liệu trước hết
chính là việc thiết kế không gian tên URI cho tập dữ liệu, có thể hiểu đó là cách tạo ra
URI cho dữ liệu của ứng dụng. Và sau đó sẽ tạo mới hoặc chọn để sử dụng lại các bộ từ
vựng có sẵn [8, 15].

Có nhiều ý tưởng trong việc chọn URI, sau đây là một số ví dụ dùng slash URI:
Cách 1:
-
-
-
Cách 2:
-
-
-
Tuy vậy, thường cần phải có một vài từ khóa chính trong URI của ứng dụng để
chắc chắn cho nó là duy nhất. Từ khóa này cần có ý nghĩa trong lĩnh vực của ứng dụng.
Ví dụ: một phần số ISBN trong lĩnh vực sách và xuất bản được đưa vào định danh URI
là tốt hơn như làm khóa cho các bản ghi CSDL, điều này cũng làm việc khai phá các
liên kết RDF cũng dễ hơn.
3.3. Chọn bộ từ vựng RDF
Khi xuất bản dữ liệu lên Web, nhiều tổ chức, cá nhân khác nhau sử dụng các bộ
từ vựng khác nhau để tham chiếu cho các tài nguyên của ứng dụng tùy theo sở thích hay
mối quan tâm của họ. Web dữ liệu là một môi trường mở, chúng ta có thể dùng bất kỳ
bộ từ vựng nào và có thể dùng cùng lúc hoặc không, tùy ý. Mặc dù vậy, tốt nhất chúng
ta nên sử dụng lại những thuật ngữ từ những bộ từ vựng RDF phổ biến như FOAF,
SIOC, SKOS, DOAP, vCard, Dublin Core, OAI-ORE hay GoodRelations để làm cho
các ứng dụng máy trạm dễ dàng xử lý Linked Data. Khi những bộ từ vựng đó không đủ
cung cấp các thuật ngữ cho ứng dụng, người xuất bản dữ liệu cần phải định nghĩa thuật
ngữ mới và được định nghĩa bởi các URI xác định [8,13].
Tóm lại, để máy trạm dễ dàng xử lý dữ liệu, các bộ từ vựng thông dụng có thể
được sử dụng lại. Chỉ nên định nghĩa những từ mới nếu như không tìm thấy từ nào
trong các bộ từ vựng đã có.
Khi không tìm được bộ từ vựng nào sẵn có phù hợp cho các lớp và thuộc tính
của ứng dụng thì cần phải định nghĩa ra chúng. Định nghĩa một thuật ngữ mới không
khó. Chúng ta có thể định nghĩa những từ vựng sử dụng lược đồ RDF hay OWL.

Cách tiếp cận thủ công mô tả trên không mềm dẻo đối với tập dữ liệu lớn. Trong
trường hợp này, người ta sử dụng thuật toán sinh liên kết tự động để sinh ra các liên kết
RDF giữa các nguồn dữ liệu. Đây là vấn đề phổ biến trong cộng đồng CSDL. Dự án liên
kết dữ liệu mở (LOD-Linking Open Data Project) tập hợp các tài nguyên liên quan để
sử dụng thuật toán sinh liên kết trong ngữ cảnh Linked Data. Hiện nay, vẫn còn thiếu
các công cụ sử dụng để dễ dàng sinh liên kết RDF [8]. Vì vậy, người ta thường cài đặt
thuật toán này với những tập dữ liệu cụ thể.
3.5. Xuất bản dữ liệu
Việc xuất bản lên Web như thế nào hiệu quả phụ thuộc nhiều yếu tố. Đầu tiên
phải kể đến là dữ liệu của chúng ta lớn bao nhiêu? Nếu chỉ xuất bản vài trăm bộ ba RDF, 186
chúng ta có thể cung cấp chúng trong 1 tệp RDF tĩnh và tải lên Web. Nếu dữ liệu nhiều
hơn, chúng ta có thể đưa vào trong kho lưu trữ RDF và dùng các công cụ giao tiếp như
Pubby để xuất bản chúng. Tiếp đến, chúng ta cần xem xét hiện nay dữ liệu đang được
lưu trữ như thế nào? Nếu thông tin hiện đang lưu trữ trong CSDL quan hệ, chúng ta có
thể dùng D2R Server để chuyển đổi và xuất bản kiểu khung nhìn RDF. Nếu thông tin là
có sẵn thông qua API, bạn có thể cài đặt một bao bọc quanh các API. Nếu thông tin của
bạn ở dạng khác như MS Excel, CSV hay BibTeX, bạn cần chuyển qua RDF trước. Và
một yếu tố nữa cần quan tâm là sự thay đổi hay cập nhật của dữ liệu. Nếu dữ liệu phải
thay đổi thường xuyên, chúng ta có thể thích cách tiếp cận mà sinh ra khung nhìn RDF
trên dữ liệu như D2R Server [8,9,15].
Hiện nay, đã có nhiều công cụ hỗ trợ xuất bản Linked Data đã và đang được phát
triển. Các công cụ này vừa cung cấp kho nội dung RDF cho Linked Data trên Web vừa
cung cấp khung nhìn Linked Data trên nguồn dữ liệu không RDF. Công cụ cho phép
người xuất bản từ việc giải quyết với chi tiết kỹ thuật như dàn xếp nội dung và đảm bảo
rằng dữ liệu được xuất bản phụ thuộc thực tiễn cộng đồng Linked Data. Tất cả công cụ
hỗ trợ tham chiếu lại URI trong mô tả RDF. Thêm vào đó, một vài công cụ cung cấp
truy cập truy vấn SPARQL đến tập dữ liệu và hỗ trợ xuất bản RDF. Một số công cụ phổ

động với các yêu cầu HTTP như thế nào. Thêm vào đó, để xem dữ liệu Linked Data của
chúng ta đã hiển thị đúng trong các trình duyệt và các liên kết có hoạt động đúng như
mong muốn không, chúng ta có thể nhập các URI vào trong các trình duyệt Linked Data
như Tabulator, Marbles, OpenLink RDF Brower, Disco [6,8].
4. Ví dụ minh họa
4.1. Bài toán
Dữ liệu cá nhân của tác giả được thiết kế và lưu trữ ở dạng tệp foaf.rdf, sau đó
được xuất bản lên web tại host . Trong hồ sơ này, tác giả
liên kết đến một số hồ sơ hay tài nguyên của người khác đã biết và sẵn có trên Web.
Sau khi xuất bản lên Web, duyệt dữ liệu với trình duyệt hỗ trợ Linked Data. Từ
đó, khám phá thêm các thông tin hữu ích từ các liên kết sẵn có trong tài liệu. Các móc
xích liên kết sẽ dẫn người dùng đi sâu vào các thông tin liên quan.
4.2. Triển khai ứng dụng
4.2.1. Tạo và xuất bản hồ sơ FOAF cá nhân
Hồ sơ cá nhân của tác giả được tạo ra, lưu thành tệp foaf.rdf và tải lên một máy
chủ web miễn phí trên mạng, địa chỉ: .
4.2.2. Kiểm tra tính hợp lệ của dữ liệu
Dữ liệu RDF trên được kiểm tra tính hợp lệ tại địa chỉ

4.2.3. Duyệt và khám phá liên kết
Trình duyệt Linked Data duyệt hồ sơ FOAF của Lê Thị Thanh Tâm: 188

Liên kết đến hồ sơ Tim Berners-Lee.
189

mới trên Web cũng như tạo ra nhiều cơ hội và thách thức cho các nhà nghiên cứu.
Linked Data cũng đang dần trở thành một phương cách để tạo dữ liệu cho Web dựa trên
RDF và các công nghệ Web ngữ nghĩa. Bài bài này trình bày các ý tưởng cơ bản cho
việc xuất bản dữ liệu Linked Data cho các tài nguyên thông tin cho thế hệ Web mới -
Web of Data.
TÀI LIỆU THAM KHẢO
[1]. Hoàng Hữu Hạnh, Web ngữ nghĩa: Những thách thức và hướng tiếp cận mới, Tạp chí
Khoa học, Đại học Huế, Số 48, (2008), 31-40.
[2]. Hoàng Nguyễn Tuấn Minh, Tìm hiểu các ngôn ngữ truy vấn trong Web ngữ nghĩa và
ứng dụng trong truy xuất thông tin, Luận văn Thạc sĩ, Trường Đại học Khoa học Huế,
2009.
[3]. Berners-Lee, T., Linked Data - Design Issues, Retrieved July 23, 2006,

[4]. Berners-Lee, T., The next Web of open: Linked Data, Video in TED2009 Conference,
2009.
[5]. Berners-Lee, T., The year open data went worldwide, Video in TED2010 Conference,
2010.
[6]. Berners-Lee, T., et. al., Tabulator: Exploring and Analyzing Linked Data on the
Semantic Web, Procedings of the 3rd International Semantic Web User Interaction
Workshop (SWUI06), 2006.
[7]. Berrueta, D., Phipps, J., Best Practice Recipes for Publishing RDF Vocabularies - W3C
Working Group Note, Retrieved June 14, 2009, />pub.
[8]. Christian Bizer, R. Cyganiak, and Tom Heath, How to Publish Linked Data on the Web, 192
2007.
[9]. Christian Bizer, Tom Heath, Tim Berners-Lee, Linked Data-The Story So Far, Special
Issue on Linked Data, International Journal on Semantic Web and Information Systems
(IJSWIS), 2009.

is how to share data on the Web easily as document now. This paper presents some concepts and
Linked Data technologies and show how to publish Linked Data which sets up a foundation for
Semantic Web applications on the Web.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status