ứng dụng web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số - Pdf 10



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
   Lương Đỗ Long
ỨNG DỤNG WEB NGỮ NGHĨA TRONG
LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ LUẬN VĂN THẠC SĨ KHOA HỌC
HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
  

TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ” là kết quả nghiên cứu của riêng tôi,
không sao chép của riêng ai. Các số liệu và bảng biểu là hoàn toàn chính xác và nội
dung luận văn có tham khảo và sử dụng các tài liệu, thông tin đuợc đăng tải trên các
tác phẩm, tạp chí và các trang web theo danh mục tài liệu của luận văn.
Hà nội, ngày 02 tháng 05 năm 2011
Tác giả luận văn
Lương Đỗ Long

ii LỜI CẢM ƠN
Trước tiên tôi xin chân thành cảm ơn PGS.TS Đỗ Trung Tuấn, người thầy đã
hướng dẫn tận tình, chỉ bảo thẳng thắn và đã động viên tôi rất nhiều để tôi hoàn
thành bản luận văn này.
Tôi xin chân thành cảm ơn các thầy, cô giáo của Trường Đại học Công nghệ
đặc biệt là các thầy, cô giáo trong bộ môn Hê thống Thông tin đã giảng dạy, động
viên và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và làm luận văn.
Sau cùng, tôi xin đuợc gửi lời cám đến các bạn đồng nghiệp, các bạn học viên
cao học khóa 15 - những người đã động viên, giúp đỡ tôi trong suốt quá trình học
tập và thực hiện luận văn này.
Hà nội, Mùa hè năm 2011
Tác giả luận văn

Lương Đỗ Long
2.2. Kiến trúc của thư viện số ngữ nghĩa 30
2.3. Bản thể luận cho thư viện số ngữ nghĩa 31
2.3.1. Bản thể luận biểu ghi thư mục 31
2.3.2. Bản thể luận cho cấu trúc nội dung 33
2.3.3. Cơ bản về sự phân loại 34
2.3.4. Xây dựng Bản thể luận 36
2.4. Thư viện số ngữ nghĩa và mạng xã hội 37
2.5. Tìm kiếm trong thư viện ngữ nghĩa 38
iv

2.5.1. Tìm kiếm dựa trên sự phân loại 38
2.5.2. Tìm kiếm ngữ nghĩa 38
Kết luận 40
Chương 3. Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm JeromeDL 41
3.1 Giới thiệu phần mềm JeromeDL 41
3.2. Kiến trúc và Bản thể luận trong JeromeDL 42
3.2.1. Kiến trúc của JeromeDL 42
3.2.2. Bản thể luận trong JeromeDL 44
3.3. Truy vấn trong JeromeDL 48
3.4. Sử dụng JeromeDL 51
Kết luận 53
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54
TÀI LIỆU THAM KHẢO 56

v
Bảng kí hiệu thuật ngữ viết tắt


Hình 2.2. Biểu diễn cấu trúc tài liệu dưới dạng RDF 29
Hình 2.3. Kiến trúc thư viện số ngữ nghĩa 31
Hình 2.4. Bản thể luận BibTeX 32
Hình 2.5. Một dạng cây phân cấp 35
Hình 2.6. Một Bản thể luận Cys 35
Hình 2.7. Quá trình tìm kiếm trong thư viện số ngữ nghĩa 39
Hình 2.8. Quá trình chia sẻ dữ liệu RDF 40
Hình 3.1. Giao diện của JeromeDL 42
Hình 3.2. Kiến trúc của JeromeDL 43
Hình 3.3. Bản thể luận MarcOnt 44
Hình 3.4. Bản thể luận cấu trúc nội dung 46
Hình 3.5. Mạng xã hội trong JeromeDL 48
Hình 3.6. Các bước trong truy vấn JeromeDL 49
Hình 3.7. Giao diện chức năng tìm kiếm ngữ nghĩa 52
Hình 3.8. Giao diện chức năng xuất bản tài liệu 53
vii Danh mục bảng biểu

Bảng 1. Các lớp trong RDFS 18
Bảng 2. Các thuộc tính trong RDFS 19
Bảng 3. Các lớp, thuộc tính, thể hiện của Bản thể luận MarcOnt 45
Bảng 4. Các lớp, thuộc tính, thể hiện của Bản thể luận cấu trúc nội dung 47

viii MỞ ĐẦU


ix

thư viện số dựa trên kiến trúc của Web ngữ nghĩa làm cho thư viện số có nhiều ưu
điểm hơn so với cách tiếp cận thông thường.
Luận văn này tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, dựa trên
cách tiếp cận web ngữ nghĩa, tìm hiểu cách tích hợp ngữ nghĩa vào các thư viên số.
Cấu trúc của luận văn gồm 3 chương:
Chương 1: Tổng quan về Web ngữ nghĩa
Tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, các thành phần cơ bản
làm nên web ngữ nghĩa.
Chương 2: Tiếp cận Web ngữ trong lưu trữ và quản lí tài liệu số
Tìm hiểu một trong những cách quản lí tài liệu số đó là thư viện số. Nghiên
cứu cách tích hợp ngữ nghĩa vào các tài nguyên trong thư viện số: cơ chế biên mục
và phân loại dựa trên ngữ nghĩa
Chương 3: Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm
JeromeDL
Giới thiệu phần mềm mã nguồn mở JeromeDL trong việc xây dựng các thư
viện số ngữ nghĩa.
1 Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA

Trong chương này, sẽ giới thiệu công nghệ cơ bản được sử dụng trong luận
văn, bao gồm định nghĩa về web ngữ nghĩa, những nồ lực trong việc xây dựng web
ngữ nghĩa từ web hiện tại, giới thiệu kiến trúc web ngữ nghĩa của tổ chức World
WideWeb Consortium (W3C). Tìm hiểu về Bản thể luận và ngôn ngữ bản thể luận.

1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu
1.1.1. Khái niệm

Web cũ, Web ngữ nghĩa liên kết dữ liệu từ nhiều nguồn khác nhau một cách
hiệu quả hơn dựa trên định danh của tài nguyên (URI) và quan hệ giữa
chúng. Cách liên kết này đôi khi còn được gọi là liên kết bằng siêu dữ liệu.
Trong web ngữ nghĩa, với sự trợ giúp của các công nghệ khác, chúng ta có thể
trợ giúp cho máy tính hiểu được các khái niệm, mối quan hệ giữa chúng, xử lí
nhanh chóng, chính xác các truy vấn từ người dùng.
1.1.2. Siêu dữ liệu
Một trong những nền tảng cơ bản làm nên web ngữ nghĩa là các siêu dữ liệu.
Siêu dữ liệu dùng để mô tả tài nguyên thông tin, còn gọi là dữ liệu về dữ liệu. Mỗi
thực thể hay khái niệm có thể có một hay nhiều siêu dữ liệu. Cho ví dụ, một khóa
luận tốt nghiện có [một tác giả], [tên khóa luận], [cán bộ hướng dẫn], là các siêu
dữ liệu về khóa luận. Chúng ta có thể đơn giản hóa việc phân loại và truy vấn dữ
liệu bằng cách dùng các siêu dữ liệu.
Mối liên hệ giữa siêu dữ liệu và tài nguyên thông tin mà nó mô tả có thể được
thể hiện ở một trong hai cách sau:
 Các phần tử metadata được chứa trong một biểu ghi tách biệt bên ngoài
đối tượng mô tả.
 Các phần tử metadata có thể được nhúng (gắn) vào bên trong tài
nguyên mà nó mô tả.
Trước đây với tài liệu truyền thống, các mô tả dữ liệu nằm ngoài đối tượng mô
tả, như vậy siêu dữ liệu được lưu trữ một cách tách biệt bên ngoài đối tương mô tả.
3

Với tài liệu số, siêu dữ liệu của chúng được nhúng (gắn) trong bản thân tài
nguyên hoặc liên kết với tài nguyên mà nó mô tả như trong trường hợp các thẻ meta
của tài liệu HTML
i. Sơ đồ siêu dữ liệu
Sơ đồ siêu dữ liệu là tập hợp những yếu tố siêu dữ liệu được thiết kế cho mô tả
một dạng tài nguyên thông tin cụ thể. Như vậy siêu dữ liệu là sơ đồ hình thức được
xác định để mô tả tài nguyên thông tin cho đối tượng số hoặc không số. Thí dụ tập

một URN. Việc sử dụng URI là rất quan trọng, vì nó cho phép xây dựng một hệ
thống phân tán, trong đó các tài nguyên nằm ở nhiều nơi khác nhau trên mạng. Một
biến thể khác của URI là định danh tài nguyên được quốc tế hóa: Internationalized
Resource Identifier (IRI), nó cho phép sử đụng các kí tự Unicode trong định danh
[1].
Để mã hóa các thông tin, dữ liệu ta sử dụng chuẩn mã hóa Unicode, đây là
chuẩn thống nhất dùng để mã hóa các tập kí tự quốc tế. Nó cho phép tất cả các ngôn
ngữ của tất cả các nước có thể được mã hóa thống nhất, tránh hiện tượng mỗi quốc
gia lại sử dụng một chuẩn mã hóa riêng, gây khó khăn cho trao đổi dữ liệu.
5

ii. Biểu diễn XML
Tầng tiếp theo là Ngôn ngữ đánh dẫu mở rộng: Extensible Markup Language
(XML), nó được dùng để biểu diễn dữ liệu mà máy tính có thể hiểu và xử lí dữ liệu
được. XML là công nghệ chính và là chuẩn của web hiện tại và trong tương lai. Với
XML, máy tính có thể tích hợp và tương tác trao đổi dữ liệu với nhau. XML cung
cấp một phương tiện dùng văn bản để mô tả thông tin và áp dụng một cấu trúc kiểu
cây cho thông tin đó. Tại mức căn bản, mọi thông tin đều thể hiện dưới dạng text,
chen giữa là các thẻ đánh dấu với nhiệm vụ ký hiệu sự phân chia thông tin thành
một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và
các thuộc tính của các phần tử đó. Đơn vị cơ sở của XML là các ký tự theo định
nghĩa của Bộ ký tự toàn cầu (Universal Character Set). Các ký tự được kết hợp theo
các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc
nhiều thực thể, mỗi thực thể thường là một phần nào đó của các ký tự thuộc tài liệu,
được mã hóa dưới dạng một chuỗi các bit và lưu trữ trong một tệp văn bản.
Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phương tiện. RFC3023
định nghĩa các loại "application/xml" và "text/xml", với ý rằng dữ liệu được biểu
diễn bằng XML mà không nói gì đến ngữ nghĩa của dữ liệu.
Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc được phép, và ý nghĩa
của các phần tử và thuộc tính có tính chất mở và có thể được định nghĩa bởi một

<rdf:Description rdf:about=
"
<dc:creator>Lương Đỗ Long</dc:creator>
<dc:title>Các dạng khảo sát hàm số</dc:title>
<dc:description>Giới thiệu các dạng khảo sát hàm số thường hay gặp
trong các kì thi đại học</dc:description>
<dc:date>2000-01-20</dc:date>
</rdf:Description>
</rdf:RDF>

Chi tiết về RDF sẽ được đề cập chi tiết ở phần sau.
iv. Lược đồ RDF
Để xác định ra cấu trúc và ngữ nghĩa của RDF, ngôn ngữ lược đồ RDF: RDF
Scheme (hay RDFS) đã được đề xuất. RDFS là một ngôn ngữ Bản thể luận đơn
giản của web ngữ nghĩa, được coi là một ngôn ngữ cơ sở của web ngữ nghĩa. RDFS
cung cấp một phương tiện để đặc tả các từ vựng mô tả tính chất và quan hệ giữa các
tài nguyên RDF, bao gồm:
- Định nghĩa các lớp tài nguyên
- Định nghĩa các quan hệ giữa các lớp
- Định nghĩa các loại thuộc tính mà các lớp trên có
7

- Định nghĩa các mối quan hệ giữa các thuộc tính.
v. Bản thể luận
Đối với mỗi miền ứng dụng cụ thể, sẽ có một tập các khái niệm và các mối
quan hệ, ràng buộc giữa chúng tạo thành một bản thể luận. Một khái niệm có thể là
một lớp, một thuộc tính của một lớp hay bộ từ vựng sử dụng trong miền ứng dụng
đó. Bộ từ vựng bản thể luận được xây dựng trên cơ sở tầng RDF và RDFS, cung
cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập
luận. Để xây dựng được các bộ từ vựng này, người ta đã sử dụng các ngôn ngữ bản

nghĩa là không đáng tin cậy? Câu trả lời ở đây được xem xét trong các ngữ cảnh.
Mỗi ứng dụng trên web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế các mệnh
đề trên có thể nằm trong các ngữ cảnh khác nhau khi đó ngữ nghĩa tương ứng khác
nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó. Để có được
sự chứng minh về độ tin cậy thì các lập luận được áp dụng là không đơn điệu và có
các cơ chế kiểm tra chứng minh kết hợp với công nghệ chữ ký điện tử để xác nhận
độ tin cậy. Các ngôn ngữ chứng minh là ngôn ngữ cho ta chứng minh một mệnh đề
là đúng hay sai.
ix. Giao diện người dùng và ứng dụng
Đây là tầng trực tiếp giao tiếp với người dùng và ứng dụng, tầng này cung cấp
giao diện cho người dùng và các dịch vụ khác truy cập.
1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên và Bản thể luận
1.3.1 Ngôn ngữ mô tả tài nguyên RDF
Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của
Semantic Web. Như đã đề cập ở bên trên, XML là nền tảng cơ bản làm nên web
ngữ nghĩa, tuy nhiên XML không đủ khả năng để tạo ra ngữ nghĩa trong web. Mặc
dù XML cho phép người dùng thêm dữ liệu tùy ý vào cấu trúc tài liệu nhưng nó
không đề cập gì đến ngữ nghĩa của tài liệu hàm chứa.
Ngôn ngữ Cơ cấu mô tả tài nguyên - RDF được đề xuất nhằm khắc phục
những nhược điểm của XML không thể giải quyết được. Định nghĩa cơ bản của
ngôn ngữ RDF là dùng để mã hóa các siêu dữ liệu của các tài nguyên vào một bộ ba
(RDF Triple): [chủ ngữ], [vị ngữ] và [đối tượng]. Ta biết rằng mỗi một thực thể hay
khái niệm đều có các thuộc tính, mỗi thuộc tính đều có các giá trị, vì vậy mọi tài
nguyên cũng đều có thể được biểu diễn qua ngôn ngữ RDF.
XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì
đó về dữ liệu. RDF cung cấp một mô hình dữ liệu, và một cú pháp đơn giản sao cho
9

các hệ thống độc lập có thể trao đổi và sử dụng nó. RDF được thiết kế sao cho hệ
thống máy tính có thể hiểu được và có thể đọc được thông tin, chứ không phải để

- Đối tượng là: “Nguyễn Văn A”
10

Mô hình cơ bản của RDF gồm ba bộ phận sau:
 Tài nguyên: là tất cả những gì được mô tả bằng biểu thức RDF
 Thuộc tính: là đặc tính hay quan hệ mô tả tính chất tài nguyên
 Phát_biểu: mỗi phát biểu gồm ba thành phần sau
- [Chủ ngữ]: địa chỉ hay vị trí tài nguyên muốn mô tả.
- [Vị ngữ]: xác định tính chất của tài nguyên.
- [ Đối tượng]: nội dung gán cho thuộc tính.
ii. RDF và Cơ sở dữ liệu quan hệ
Trong các Cơ sở dữ liệu quan hệ truyền thống, dữ liệu được lưu dưới dạng các
bảng. Trong mỗi bảng, mỗi hàng là một bản ghi không có giới hạn về số lượng các
trường.
Ví dụ ta có bảng sau:
ISBN Tên Tác giả NXB Số trang Giá bán
10001111

Lập trình C Lê A ĐHQG 250 45.000
10111112

Vi xử lí Trần H Giáo dục 300 50.000
Nếu lưu các dữ liệu trên dưới dạng RDF, đòi hỏi các dữ liệu phải được chia
nhỏ để lưu dưới dạng các bộ ba:
ISBN Tên
10001111 Lập trình C
10111112 Vi xử lí
Phát_biểu: {10001111, Tên, “Lập trình C”}
So với CSDL quan hệ, cách lưu trữ dưới dạng RDF có những ưu điểm sau:
- Tổ chức dữ liệu đơn giản, đồng nhất nên thông tin dễ dàng chỉnh sửa

[10] Qname ::= [ NSprefix ':' ] name
[11] URI-reference ::= string, interpreted per [URI]
[12] IDsymbol ::= (bất kỳ ID nào hợp lệ nào của XML)
[13] name ::= (bất kỳ tên hợp lệ nào của XML)
[14] NSprefix ::= (bất kỳ tiếp đầu ngữ namespace hợp lệ nào)
[15] string ::= (bất kỳ chuỗi nào
Ví dụ:
Xét phát biểu sau {ketquasoxo.html, create-date, “10-10-2010”}
Cú pháp RDF/XML để biểu diễn cho phát biểu trên như sau:
12

1: <?xml version="1.0"?>
2: <rdf:RDF xmlns:rdf="

3: xmlns:exterms="
4: <rdf:Description rdf:about="
5: <exterms:creation-date>10-10-2010</exterms:creation-date>
6: </rdf:Description>
7: </rdf:RDF>
Trong đó:
Dòng 1: là khai báo XML, cho biết nội dung theo sau dựa trên cú pháp XML
và phiên bản XML được dùng.
Dòng 2 và 3: bắt đầu với thẻ rdf:RDF , cho biết rằng nội dung XML tiếp theo
mô tả RDF. Từ khóa này xác định tài liệu này được biểu diễn dưới dạng RDF. Tiếp
theo là phần khai báo không gian tên XML được sử dụng trong tài liệu, tùy vào nhu
cầu và mục đích sử dụng mà ta có thể dùng các không gian tên khác nhau cho từng
tài liệu.
Dòng 4, 5, 6: mô tả những mệnh đề RDF. Để mô tả bất kỳ phát biểu nào dạng
RDF/XML có thể dùng rdf:Description, và rdf:about , đây chính là [chủ ngữ] của
phát biểu. Thẻ bắt đầu rdf:Description trong dòng 4 cho biết bắt đầu mô tả về một

<rdf:li>Trần B</rdf:li>
</rdf:Bag>
</group:member>
</rdf:Description>
</rdf:RDF>
<rdf:Seq> là danh sách có thứ tự của các tài nguyên hoặc các giá trị. Chẳng
hạn dùng Sequence để lưu trữ các giá trị theo thứ tự bảng chữ cái. Sequence cho
phép những giá trị có thể trùng lặp nhau.
Ví dụ:
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="
xmlns:class="
<rdf:Description rdf:about="
<class:member>
<rdf:seq>
<rdf:li>Nguyễn A</rdf:li>
<rdf:li>Nguyễn B</rdf:li>
<rdf:li>Nguyễn C</rdf:li>
<rdf:li>Nguyễn D</rdf:li>
</rdf:seq>
</class:member>
</rdf:Description>
14

</rdf:RDF>
<rdf:Alt> là một danh sách các tài nguyên hoặc các giá trị, được dùng để biểu
diễn các giá trị lựa chọn của một thuộc tính (người dùng chỉ có thể được lựa chọn
một trong các giá trị đó).
Ví dụ:
<?xml version="1.0"?>


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status