Nghiên cứu ứng dụng chuẩn quản lý tài nguyên trong doanh nghiệp - Pdf 10

1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Đỗ Thị Hằng NGHIÊN CỨU ỨNG DỤNG CHUẨN QUẢN LÝ
TÀI NGUYÊN TRONG DOANH NGHIỆP Chuyên ngành: Truyền dữ liệu và Mạng máy tính
Mã số: 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. HÀ HẢI NAM


Chương này giới thiệu về siêu dữ liệu và vấn đề quản lý siêu dữ liệu
Chương 2: Cơ sở lý thuyết
Chương này trình bày cơ sở lý thuyết về các chuẩn dữ liệu meta, ngôn ngữ truy vấn SPARQL
Chương 3: Ứng dụng quản lý tài nguyên
Chương này giới thiệu một hệ lưu trữ thông tin quản lý của một doanh nghiệp dưới dạng RDF data
và một web browser để truy xuất tới nguồn dữ liệu RDF đó. Chương 1 – VẤN ĐỀ QUẢN LÝ TÀI NGUYÊN VỚI CHUẨN DỮ LIỆU META
3

1.1 Đặt vấn đề
Với sự phát triển ngày càng nhiều các nguồn tin điện tử, siêu dữ liệu trở nên quan trọng và có nhiều
dạng khác nhau, từ mô tả đến quản trị nguồn. Ngày nay, có nhiều sơ đồ siêu dữ liệu khác nhau được phát
triển và sử dụng trên thế giới. Yếu tố siêu dữ liệu Dublin Core là một trong tiêu chuẩn siêu dữ liệu được
nhiều tổ chức quan tâm đang ngày càng trở nên phổ biến trong việc tạo lập tài liệu điện tử và hỗ trợ tìm kiếm
hiệu quả thông tin. Siêu dữ liệu vẫn còn là vấn đề mới đối với Việt Nam, chúng ta cần phải quan tâm nghiên
cứu, phát triển và ứng dụng siêu dữ liệu trong quá trình phát triển các nguồn tin điện tử. Ứng dụng siêu dữ
liệu sẽ giúp chúng ta có những công cụ tìm kiếm trên Web đảm bảo tính chính xác, phù hợp với yêu cầu hơn.
1.2 Siêu dữ liệu
1.2.1 Định nghĩa
Định nghĩa đơn giản thì Metadata là dữ liệu để mô tả dữ liệu. Metadata cung cấp thông tin về dữ liệu
khác và thông tin được quản lý trong các hệ thống, phần mềm trung gian và các ứng dụng.
Trong cơ sở dữ liệu, metadata là các dạng biểu diễn khác nhau của các đối tượng trong cơ sở dữ liệu.
Trong cơ sở dữ liệu quan hệ thì metadata là các định nghĩa của bảng, cột, cơ sở dữ liệu, view và nhiều đối
tượng khác. Trong kho dữ liệu, metadata là dạng định nghĩa dữ liệu như: bảng, cột, một báo cáo, qui trình
nghiệp vụ

Định nghĩa cấu trúc của hệ thống IT, ứng dụng, CSDL, Data Warehouse…, technical metadata được
bắt nguồn từ các siêu dữ liệu nghiệp vụ, các hàm, các chức năng.
1.2.4 Sources của siêu dữ liệu
 Các hệ thống vận hành
 Phần mềm trung gian
 Các hệ cơ sở dữ liệu
 Các ứng dụng
5

 Data Warehouse
 BI reporting tools
1.2.5 Quản lý siêu dữ liệu
Việc quản lý siêu dữ liệu được thực hiện trong một chu trình. Đó là cách tạo, nhận, lưu trữ và quản
lý giúp cho việc giảm xung đột và dư thừa. Mặt khác đó cũng chính là cách sử dụng của metadata trong từng
trường hợp cụ thể của mỗi ứng dụng, hệ thống.
Hình 1.2 Mô tả các phần chính của quá trình quản lý siêu dữ liệu trong chu trình

Hình 1.2: Quá trình quản lý siêu dữ liệu

Các tổ chức thường muốn trao đổi dữ liệu một cách nhanh chóng và chính xác giữa các hệ thống sử
dụng công nghệ tích hợp ứng dụng . Khi 1 transaction kết thúc, dữ liệu được lưu trữ vào data warehouse và
các hệ thống logic nghiệp vụ dùng để phân tích dữ liệu
ISO/IEC 11179 là một tiêu chuẩn siêu dữ liệu: điều khiển trao đổi dữ liệu trong một môi trường
không đồng nhất, dựa trên định nghĩa chính xác của dữ liệu.
2.1.2.2 Cấu trúc của ISO/IEC 11179 Metadata registry
ISO / IEC 11179 là kết quả của hai yếu tố cơ bản lý thuyết ngữ nghĩa, kết hợp với lý thuyết mô hình
hóa dữ liệu.
a) Lý thuyết ngữ nghĩa:
1. Từ đồng nghĩa
2. Quan hệ giữa nội dung và thể hiện
b) Lý thuyết mô hình hóa dữ liệu: đó là quan hệ của Lớp (Class) và các đặc trưng (characteristic)
2.1.2.3 Mô hình cơ bản của Data Element
Trong ISO/IEC 11179 data element được chia thành hai phần:
 Data Element Concept: (DEC) nội dung được biểu diễn trong các thể hiện của thành phần dữ liệu
(data element)
 Representation: mô tả các kiểu dữ liệu, giá trị, các thuộc tính…
Trong lý thuyết mô hình hóa dữ liệu thì Data Element được định nghĩa như sau:
 Object class
 Property

8

Hình 2.1 Mô hình cơ bản của Data Element
2.1.3 RDF
RDF là một chuẩn dùng để mô tả thông tin do W3C đưa ra nhằm tạo ra các metadata.
2.1.3.1 Tổng quan RDF
Khung mô tả tài nguyên RDF là một ngôn ngữ siêu dữ liệu, cho phép biểu diễn dữ liệu trên Web và
cung cấp một mô hình để mô tả, tạo các mối quan hệ giữa các tài nguyên. RDF định nghĩa một nguồn tài
nguyên (Resource) như một đối tượng bất kỳ có khả năng xác định duy nhất bởi một URI. Mỗi nguồn tài

 Predicate (hay Property) là kiểu thuộc tính hay quan hệ.
 Object là giá trị thuộc tính hay đối tượng của chủ thể đã nêu. Object có thể là một giá trị nguyên thủy
(Literal) như số nguyên, chuỗi, ngày hoặc cũng có thể là một tài nguyên.
Literal
Literal được sử dụng để biểu diễn các giá trị như con số, ngày tháng, chuỗi…Bất kỳ điều gì có thể
biểu diễn bởi một giá trị Literal thì cũng có thể biểu diễn dưới dạng một URI. Một Literal có thể là một
Object của một phát biểu, nhưng không thể là một Subject hay Predicate.
Literal có hai kiểu sau: Plain Literal hay Typed Literal.
2.1.3.3 Cú pháp RDF/XML
Cú pháp RDF/XML cơ bản
Mô hình RDF thể hiện một mô hình ở mức trừu tượng để định nghĩa metadata. Cú pháp RDF được
dùng để tạo ra và trao đổi metadata. Cấu trúc RDF dựa trên XML.
Các ví dụ minh họa
Ví dụ 1: Xét phát biểu sau:
has a creation-date whose value is August 16, 1999
được biểu diễn dưới dạng đồ thị như sau:

Có thể được viết dưới dạng triple như sau:
ex:index.html exterms:creation-date “August 16, 1999”.
10

Cú pháp RDF/XML biểu diễn phát biểu trên như sau:
1. <?xml version="1.0"?>
2. <rdf:RDF xmlns:rdf="
3. xmlns:exterms="
4. <rdf:Description rdf:about="
5. <exterms:creation-date>August 16, 1999</exterms:creation-date>
6. </rdf:Description>
7. </rdf:RDF>
RDF Container

rdf:Property Lớp các thuộc tính của RDF, dùng để mô tả đặc điểm của các
thể hiện rdf:Resource.
rdfs:Datatype Lớp các kiểu dữ liệu của RDF.
rdf:Statement Lớp các phát biểu của RDF.
rdf:Bag Lớp các Container không sắp thứ tự.
rdf:Seq Lớp các Container được sắp thứ tự.
rdf:Alt Lớp các Container thay thế.
rdfs:Container Lớp các RDF Container.
rdfs:ContainerMembershipPrope
rty
Lớp các thuộc tính thành viên của một Container. Nó được
mô tả dưới dạng: rdf:_1, rdf:_2,…
rdf:List Lớp các danh sách (list) của RDF.
Bảng 2.3: Các thuộc tính trong RDF/RDFS
Tên thuộc tính Chú thích Domain Range
rdf:type Chỉ mối quan hệ là thể hiện
của một lớp
rdfs:Resource rdfs:Class
rdf:subClassOf Chỉ mối quan hệ lớp con của
một lớp
rdfs:Class rdfs:Class
rdf:subPropertyOf Chỉ mối quan hệ đặc biệt hóa
của một thuộc tính
rdf:Property rdf:Property
rdfs:domain Không gian giá trị được áp
dụng cho một thuộc tính nào
đó
rdf:Property rdfs:Class
rdfs:range Miền giá trị cho một thuộc
tính nào đó

rdfs:Resource rdfs:Resource
rdf:subject Subject của một phát biểu
RDF
rdfs:Statement rdfs:Resource
rdf:predicate Predicate của một phát biểu
RDF.
rdfs:Statement rdfs:Resource
rdf:object Object của một phát biểu
RDF.
rdfs:Statement rdfs:Resource
2.2 Truy vấn dữ liệu trong RDF
2.2.1 Giới thiệu
Khung ứng dụng RDF được xem là công cụ để mô tả thông tin về các tài nguyên cho Web ngữ nghĩa
một cách linh động. RDF có thể được sử dụng để biểu diễn thông tin cá nhân, mạng xã hội, siêu dữ liệu về
tài nguyên số cũng như để cung cấp một phương tiện tích hợp các nguồn thông tin hỗn tạp. Với một nguồn
tài nguyên phong phú và lớn như thế, làm thế nào để chúng ta có thể truy vấn chính xác và hiệu quả. Điều đó
đã đặt ra một thách thức cho các nhà nghiên cứu, làm sao xây dựng một ngôn ngữ có thể đáp ứng được yêu
cầu nói trên.
Tổ chức W3C đã phát triển và giới thiệu một ngôn ngữ chuẩn để truy vấn dữ liệu RDF. Ngôn ngữ
truy vấn SPARQL (Simple Protocol And RDF Query Language). Đây là một ngôn ngữ được phát triển bởi
nhóm RDF Data Access Working Group – một phần trong hoạt động của Semantic Web.
SPARQL là một ngôn ngữ để truy cập thông tin từ các đồ thị RDF. Nó cung cấp những tính năng
sau:
 Trích thông tin trong các dạng của URI, các blank node và các plain hay typed literals.
 Trích thông tin từ các đồ thị con
 Xây dựng một đồ thị RDF mới dựa trên thông tin trong đồ thị truy vấn.
2.2.2 Tạo một câu truy vấn đơn giản
Một câu truy vấn bao gồm 2 mệnh đề, mệnh đề SELECT và mệnh đề WHERE. Mệnh đề SELECT
định danh các biến mà ứng dụng quan tâm và mệnh đề WHERE bao gồm các triple pattern
Một triple pattern là một RDF triple nhưng mỗi thành phần (subject, predicate hay object) đều có thể

?x foaf:nick “Alice” , “Peter” .
Các viết trên tương tự với cách viết:
?x foaf:nick “Alice” .
?x foaf:nick “Peter” .
2.2.4.3 Blank node:
Một blank node chỉ được sử dụng một lần trong câu truy vấn có thể được viết tắt bằng cách sử dụng
“[]”.
[] :p “v” .
[ :p “v” ] .
2.2.4.4 RDF Collections:
14

RDF collection có thể được viết trong các triple pattern sử dụng dấu “()”.
Dạng “()” là một dạng viết tắt của resource rdf:nil hay < .
2.2.4.5 RDF Literal
Một RDF Literal trong ngôn ngữ SPARQL được viết như một chuỗi trong dấu (“”), theo sau có thể là một
tag optional language (được chỉ bởi ‘@’) hay là một kiểu optional datatype (được chỉ với ‘^^’). Có một dạng
viết thuận lợi đối với các kiểu numeric-typed literal như xsd:integer, xsd:double hay là xsd:boolean.
2.2.5 Ràng buộc dữ liệu
Ta có thể truy vấn dữ liệu với một kiểu dữ liệu có điều kiện.
2.2.5.1 Thêm vào kiểu Optional
Với những ví dụ trên ta thấy rằng mỗi giải pháp của câu truy vấn phải hoàn toàn phù hợp với các thành phần
của querry pattern. Nhưng với việc thêm vào từ khóa optional ta có thể có nhiều hơn giải pháp, mặc dù mỗi
giải pháp này có thể chỉ thỏa mãn một phần của querry pattern.
2.2.5.2 Ràng buộc trong khối Optional
Ràng buộc có thể được sử dụng trong khối optional.
2.2.5.3 Nhiều khối Optional
Graph pattern được định nghĩa đệ qui. Một câu truy vấn có thể có một hay nhiều khối optional và bất
kỳ thành phần nào trong query pattern có thể có một phần optional.
2.2.6 RDF Dataset

lập trình cho RDF, RDFS, OWL và SPARQL.
3.2.2 Sesame
Sesame là một phần mềm mã nguồn mở giúp cho việc lưu trữ và truy vấn dữ liệu RDF và RDFS.
Trước hết, được xây dựng như một phần mềm trung gian chạy trên nền Java Web Server Tomcat, Sesame
cho phép người dùng cài đặt và cấu hình nó để lưu trữ dữ liệu RDF và RDFS.
3.2.3. Virtuoso open
Virtuoso là một cơ sở dữ liệu quan hệ có hiệu năng cao. Giống như một cơ sở dữ liệu, nó cung cấp
các giao dịch, một trình biên dịch SQL thông minh, ngôn ngữ stored-procedure mạnh với các tuỳ chọn là
Java và .Net server – side hosting, hot backup, …Nó có tất cả các giao diện truy cập dữ liệu như ODBC,
JDBC, ADO .Net và OLE/DB
Virtuoso có một kho lưu trữ được xây dựng trong WebDAV. Kho lưu trữ có thể lưu trữ nội dung
trang web tĩnh và động, cung cấp các phiên bản và hỗ trợ SPARQL nhúng vào SQL để truy vấn dữ liệu RDF
được lưu trữ trong cơ sở dữ liệu của Virtuoso.
Trong demo này sử dụng Virtuoso Open vì nó cung cấp gần như toàn bộ DataProVider: .Net, J2SE,
PHP và các công cụ hỗ trợ mapping rdf, các graph, và có các API đầy đủ hơn hai framework trên.
3.3 Mô tả các cơ sở dữ liệu minh họa
Thiết kế cơ sở dữ liệu gồm các bảng như sau:
Bảng 3.2: Customer
STT Tên trường Kiểu Kích thước
1 CustomerID VARCHAR 5
2 CompanyName VARCHAR 40
3 ContactName VARCHAR 30

4 ContactTitle VARCHAR 30

5 Address VARCHAR 60
16

6 City


Tạo RDF view
RDF View là ánh xạ dữ liệu quan hệ thành RDF. Virtuoso bao gồm khai báo Meta Schema để định
nghĩa mapping của SQL data tới RDF ontologies. Mapping dữ liệu là động, do đó các thay đổi dữ liệu được
cập nhật ngay trong RDF representation
Ở cấp độ cơ bản nhất, RDF Views chuyển đổi tập kết quả của một câu lệnh Select trong SQL tới
một tập triples. Trong mô hình thực thể quan hệ mỗi thực thể được biểu diễn là một bảng, mỗi thuộc tính của
thực thể là một cột trong bảng, các quan hệ giữa các thực thể được chỉ định bởi các khóa ngoại.
17

Đối với hệ CSDL quan hệ ERD thì mỗi entity (thực thể) xem như một dòng trong CSDL bao gồm
các giá trị tương ứng với cột. Mỗi table xem như là một lớp (class) và biểu diễn của RDF cũng thể hiện
tương tự cho entity:
 Mỗi cột trong table sẽ là thuộc tính
 Mỗi giá trị của cột sẽ là giá trị thuộc tính
 Mỗi khóa chính sẽ là ID của entity
 Mỗi dòng là thể hiện của mỗi thực thể
 Mỗi thể hiện sẽ biểu diễn tập tripple với ID entity
Thuật toán cơ bản của mapping:
 Tạo một lớp RDF cho từng table
 Chuyển đổi khóa chính và khóa phụ vào trong IRI
 Gán mỗi predicate IRI tới từng cột
 Gán rdf:type predicate cho tưng dòng và link tới lớp RDF tương ứng

18

Hình 3.4: Kết quả mapping Customer table tới RDF Entity
Đóng gói thành package và thực thi trong engine của Virtuoso

Hình 3.5: Tool rdf_mapper của Virtuoso
19

Browser Virtuoso
Engine
Xử lý truy vấn
SPARQL

Câu truy vấn được xử lýRDF Views

Data
Provider
Service
Thi hành câu
truy v

n

20
Hình 3.7: Lược đồ tuần tự của ứng dụng
Thực thi chương trình ta được kết quả sau khi Get Graph tương ứng với câu truy vấn như sau:
select distinct ?g
where {graph ?g {?s < ?o}}
dưới dạng XML file, ta dùng hàm phân tách dữ liệu XML của .Net sử dụng phương thức WebClient.http để

where {graph ?g {?s < ?o}}
22 Hình 3.9: Kết quả Get Types
Kết quả sau khi get items: sẽ tương ứng với câu truy vấn:
select ?s
from <i>http://localhost:8890</i>
where {?s <> <i> </i>} Hình 3.10: Kết quả Get Items

23

Nếu click vào một URI ta sẽ được kết quả như sau:
ứng khác.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status