Nghiên cứu Web ngữ nghĩa và ứng dụng trong trợ giúp tìm kiếm văn bản nghiệp vụ hành chính - Pdf 24

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN
NGUYỄN ĐOÀN ANH VŨ
NGHIÊN CỨU WEB NGỮ NGHĨA VÀ ỨNG DỤNG
TRONG TRỢ GIÚP TÌM KIẾM
VĂN BẢN NGHIỆP VỤ HÀNH CHÍNH
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Đà Nẵng 2014
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN
NGUYỄN ĐOÀN ANH VŨ
NGHIÊN CỨU WEB NGỮ NGHĨA VÀ ỨNG DỤNG
TRONG TRỢ GIÚP TÌM KIẾM
VĂN BẢN NGHIỆP VỤ HÀNH CHÍNH
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. PHẠM ANH PHƯƠNG
Đà Nẵng 2014
2
LỜI CẢM ƠN
Để hoàn thành luận văn này tôi được rất nhiều sự động viên giúp đỡ của các
cá nhân và tập thể.
Trước hết, cho tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Phạm Anh Phương
đã hướng dẫn tôi thực hiện đề tài nghiên cứu của mình.
Xin cùng bày tỏ lòng biết ơn chân thành tới các thầy cô giáo, người đã đem lại
cho tôi những kiến thức vô cùng quý giá, có ích trong những năm học vừa qua.
Cũng xin gửi lời cám ơn chân thành tới Ban Giám hiệu, Phòng Đào tạo, Khoa
sau đại học, Đại học Duy Tân, đã tạo điều kiện cho tôi trong quá trình học tập và
nghiên cứu.

678$"!)9! !"#$%&.(%&":;
;</$$=! !"#$%&>
,?@"AB$ !"#$%&C
DEFGHDI?DJKLM
!ANO2P"0!"(")QR"SD.("$T0M
,!ANOU.(U$ !V
!ANODWXSDWX$ !Y
;I"T'T)Q
;ZP"")[!T"T'T)Q
;,!AN$=!T"T'T)Q
;8$\")01")$=!T"T'T)Q,
>8$")]"")9 !"#$%&
>U
>,DWX;
>DWX>
,DM
,8$&-O^"$_("`")!A$")"M
iii
,DT&Ta-^O]")#"M
,,"0ba-'^O$c 1$M
,,!A$")"a-d 7@ ]")#"V
,,!A$")"a-d 7@ ]")#"V
,,,)QR"'eT:2-")Y
DfghSZFHY
P$iO8Aj"Y
,?8" `")kS28O,l
?@"AB$`")kS28O,
A"Am!$S!T0"")no0p"),,
,q#T""!'QrAaHs"t$$sk,,
W!!DA.!'a* 7@ 09',

,>;8$Ano")2:†$'"AR"$4"n$
,C^"b~.5$8$%&}`")O1$.1$T")(")8T01$AT")"n$
,M$8$$]")A*"")R"$\ !"#$%&AT")"n$,
,MI"T'T)Qbi'e")]"")9#@"),
,M,I"T'T)Q7T!†$$]")"),
,Mf")01")%&")9")[!bsQ06")`")A<)BO†$^O$T†$"&^$†$
O…]")
,V^"b~$").5$8$$]")A*"")R"$\ !"#$%&AT")"n$
,,€‡g‚v?yz
,FˆKU‰WŠFIII‹DŒv?yz;
,DWX•DTA$W$AO#T"XA! %TA7Ž;
,…")|!"DWX;
,,!•09'DWX>
,,DWX•DWXS$ !ŽC
,,8$'O.(-$t"AT")DWX•DWXC
,,,/01bsQ06")I"T'T)Q.DWXM
,I•I"T'T)Q&!")!)ŽY
,;W‘I•WDH)"!A7O!"|!)‘I"T'T)Q"mA"$!QAŽ;
,;wZ’“W„;
Hình 2.1. Biểu đồ Ca sử dụng 41
,>Z”z“W„;,
,>T)";,
Bảng 2.1. Đặc tả Login 42
v
,>,T)T;,
Bảng 2.2. Đặc tả Logout 42
,> OTA]")#"•%&;,
Bảng 2.3. Đặc tả Import thông tin từ website 43
,>; OTA]")#"&–")!Q;
Bảng 2.4. Đặc tả Import thông tin bằng tay 43

,V,!T0"AQ._">>
,V,,Hž"7@"AB$&R"AT")>>
Hình 2.5. Mô hình đề xuất cho hệ thống tìm kiếm văn bản hành chính 56
,V,3Ÿ09'>C
,Y?•€•,>C
CHƯƠNG 3: THIẾT KẾ HỆ THỐNG VÀ TRIỄN KHAI ỨNG DỤNG 57
H‰˜g‚v?yzƒ˜>M
8$)!2T:"bsQ06")`")>M
Hình 3.1. Sơ đồ tổng quan hệ thống 58
!2T:"•@7@T"T'T)Q>V
,!2T:",•UsQ06")\")01")>Y
,Hs"t$$\$"{")d 7@ $=!`")>Y
,WQT")9")[!>Y
,,* 7@ T•7—!>Y
,* 7@ "s")$!T>Y
,Fq g‚v?yzDIƒFIW„Cl
Bảng 3.1. Các quyền của hệ thống 60
?g‚v?yzDIƒFIW„Cl
j2œT)"Cl
Hình 3.2. Biểu đồ Login 60
,j2œT)TC
Hình 3.3. Biểu đồ Logout 61
j2œ OTA]")#"•%&C
Hình 3.4. Biểu đồ Import thông tin từ website 61
vii
;j2œ OTA]")#"=$]")&–")!QC,
Hình 3.5. Biểu đồ Import bằng tay 62
>j2œU ]")#"C,
Hình 3.6. Biểu đồ Xem thông tin 62
Cj2œi!]")#"C

>CZ8")8$n3")A*"i") M>
?@|42:2n<$$=!'^".{"MC
,:"$@$=!`")MC
n")O8Aj"$=!'^".{"MC
TÀI LIỆU THAM KHẢO 78
@")MV
@")"MV
"A"MY
ix
DANH MỤC CÁC TỪ VIẾT TẮT
Thuật ngữ
viết tắt
Mô tả ý nghĩa
CNTT Công nghệ thông tin
CSDL Cơ sở dữ liệu
DAML DARPA Agent Markup Language
DARPA Defense Advanced Research Projects Agency
DTD Document Type Definition
FOAF Friend Of A Friend
HTTP Hypertext Transfer Protocol
IE Information Extraction
IR Information Retrieval
JSP JavaServer Pages
NLP Natural Language Processing
OIL Ontology Inference Layer
QA Question Answering
RDF Resource Description Framework
RDFS Resource Description Framework Schema
SGML Standard Generalized Markup Language
SOAP Simple Object Access Protocol

web có thể giúp chúng tôi giải quyết những vấn đề trên. Vì vậy, tôi đã chọn đề tài
luận văn tốt nghiệp “Nghiên cứu Web ngữ nghĩa và ứng dụng trong trợ giúp tìm
kiếm văn bản nghiệp vụ hành chính”.
2. Mục tiêu nghiên cứu
- Nghiên cứu về Ontology và Web ngữ nghĩa.
- Ứng dụng để xây dựng hệ thống tìm kiếm văn bản nghiệp vụ hành chính.
3. Đối tượng và phạm vi nghiên cứu
• Đối tượng nghiên cứu: là văn bản hành chính, ngành giáo dục, semantic
web và xử lý ngôn ngữ trong văn bản.
• Phạm vi nghiên cứu: là ứng dụng semantic web để xây dựng giải pháp tìm
kiếm văn bản hành chính trong ngành giáo dục.
1
4. Phương pháp nghiên cứu
Phương pháp lý thuyết: Tìm hiểu về semantic web; Tìm hiểu về xử lý ngôn
ngữ tự nhiên; Tìm hiểu về quá trình xây dựng một công cụ search engine; Ứng dụng
semantic web để xây dựng website; Phương pháp xây dựng một website tìm kiếm
hoàn chỉnh; Phương pháp và quy trình xây dựng một công cụ tìm kiếm, Tổng hợp
thông tin văn bản thu thập được.
Phương pháp thực nghiệm: Xây dựng ontology; Xây dựng cơ sở dữ liệu; Xây
dựng kho dữ liệu huấn luyện; triển khai thực tế trên Internet.
5. Ý nghĩa khoa học và thực tiễn
Về mặt khoa học đề tài đóng góp một công cụ tìm kiếm theo công nghệ
semantic web dành riêng cho ngành quản lý hành chính, phương pháp xây dựng
ontology về văn bản nói chung và văn bản cho ngành giáo dục nói riêng, ứng dụng
semantic web về mặt tìm kiếm, xử lý Tiếng Việt và vấn đề đa ngữ trong ontology.
Về thực tiễn đề tài mở ra hướng nghiên cứu ứng dụng mới về tìm kiếm văn
bản quản lý hành chính, hỗ trợ tìm kiếm văn bản chính xác hơn.
6. Bố cục luận văn
Luận văn bao gồm ba chương với các nội dung chính sau :
Chương 1 : Tổng quan về semantic web, search engine và hệ hỏi-đáp. Trong

hiệu quả hơn”.[12]
Semantic web không phải là một trang web riêng biệt mà nó chỉ là một sự mở
rộng của Web hiện tại, mà ở đó có các thông tin về ngữ nghĩa nhiều hơn, làm cho
máy tính và con người có thể phối hợp làm việc tốt hơn.[9]
Semantic Web không phải chỉ dành cho World Wide Web. Nó kèm theo một
tập hợp các công nghệ mà cũng có thể làm việc trên intranet của nội bộ các công
ty, doanh nghiệp…[9]
1.1.1.2. Một ví dụ đơn giản về semantic web
Ví dụ tôi muốn tìm kiếm thông tin với từ khóa “quy định chức năng của
trường Cao Đẳng Nghề Đà Nẵng” thì kết quả tìm được theo cách thông thường sẽ
hiển thị toàn bộ những văn bản có chứa cụm từ cần tìm như trên, như vậy sẽ gây
khó khăn trong việc tìm kiếm ra các thông tin chính xác của cụm từ đó. Đối với
cách tìm kiếm theo ngữ nghĩa, kết quả trả về sẽ là văn bản chính xác nhất như sau :
3
Ví dụ cụm từ cần tìm: “quy định chức năng của trường Cao Đẳng Nghề Đà
Nẵng”
Bảng 1.1. Ví dụ về semantic web
Web hiện tại Semantic web
1.1.1.3. Sự khác nhau giữa semantic web và web hiện tại
Bảng 1.2. Sự khác nhau của semantic web và web hiện tại
Web hiện tại Semantic web
- Là web gồm các tài liệu (web of
documents).
- Là web gồm dữ liệu (web of data).
- Chỉ biểu diễn “syntax”- biểu diễn
thông tin.
- Biểu diễn “semantic”- biểu diễn nghĩa
phía sau thông tin
- Lưu trữ thông tin. - Thao tác trên thông tin.
- Tìm kiếm dựa vào từ khóa. - Tìm kiếm dựa vào ngữ nghĩa.

Dữ liệu liên kết động: Thay thế cách liên kết sử dụng hyperlink tĩnh trong web
cũ, semantic web liên kết dữ liệu từ nhiều nguồn khác nhau một cách hiệu quả hơn
dựa trên định danh của tài nguyên (URI) và quan hệ giữa chúng. Cách liên kết này
đôi khi còn được gọi là liên kết bằng siêu dữ liệu (meta data).
5
Semantic web không chỉ cung cấp các URI cho tài liệu như đã làm trong quá
khứ mà còn cho con người, các khái niệm, các mối liên hệ. Chúng ta cũng có thể
kết hợp những thông tin đã được mô tả ở nhiều site khác nhau để biết thêm thông
tin về người này ở những ngữ cảnh khác nhau ví dụ như vài trò của anh ta ra sao
khi anh ta là tác giả, nhà quản lý, nhà phát triển.
%&%&+,)*
Kiến trúc web ngữ nghĩa có các lớp cơ bản sau:
Hình 1.1. Kiến trúc semantic web [12]
Mô hình trên có tất cả 7 lớp, trong đó có một số tầng còn đang trong quá
trình hoàn thiện. Nội dung các tầng như sau:
Lớp URI, Unicode : Đây là tầng cơ bản định nghĩa định dạng xử lý nhằm
chuẩn hoá dữ liệu xử lý.Tầng này đã được chuẩn hoá và thống nhất sử dụng. Hai
quy định chính của chuẩn hoá dữ liệu đó là kiểu chữ và kiểu liên kết.
Lớp XML : là ngôn ngữ đánh dấu mở rộng, dùng để lưu trữ dữ liệu. XML
sau đó được phát triển lên thành XML Schema với những định nghĩa mở rộng. Tất
cả các nghiên cứu chỉ ra rằng, XML là ngôn ngữ tối ưu để phát triển.
Lớp RDF : Đó là cấu trúc dữ liệu biểu diễn ngữ nghĩa. Được phát triển dựa
trên k£ thuật lưu trữ dữ liệu của XML và kiểu cấu trúc dữ liệu thông minh. RDF sau
này được định nghĩa mở rộng nhằm tinh gọn dữ liệu và được định nghĩa bằng RDFs
– RDF Schema.
Lớp Ontology : Ontology là cấu trúc dữ liệu biểu diễn ngữ nghĩa nâng cao.
Được phát triển trên nền tảng RDF có phát triển thêm những định nghĩa về từ vựng
ngữ nghĩa bổ sung những ràng buộc dữ liệu.
6
Unicode URI

nghệ nền tảng lý tưởng để xây dưng một hệ thống mạng toàn cầu thông qua đó.
Thật sự thì mạng chỉ là một nơi mà bất kỳ thứ nào có một URI thì cũng được
xem là ở trên mạng. Khi sử dụng URI, chúng ta có thể dùng cùng một cách đặt tên
đơn giản để đề cập đến các tài nguyên dưới các giao thức khác nhau : HTTP, FPT,
GOPHER, EMAIL …
Một dạng thức quen thuộc của URI là URL - Uniform Resource Locator.
Một URL là một địa chỉ cho phép chúng ta thăm một trang Web, như:
Nếu click vào nó, URL sẽ bảo máy tính nơi để tìm
thấy. Mặc dù thường được đề cập đến như URL, nhưng URI cũng được đề cập đến
như các khái niệm trong Web ngữ nghĩa để chỉ các resource.
Ví dụ, chúng ta có một quyển sách với tiêu đề “Machine Learning”, URI của
nó như sau : />7
UUID có thể được thiết lập bằng cách kết hợp thời gian và địa chỉ của
Ethernet card hay một con số ngẫu nhiên, sau đó nó được xác định là duy nhất.
mailto:: xác định địa chỉ mail của một người nào đó.
“Mọi thứ trên Web đều có thể có một URI duy nhất.”
URI là nền tảng của Web ngữ nghĩa.Trong khi mọi thành phần khác của Web
gần như có thể được thay thế nhưng URI thì không.URI liên hệ các thành phần của
Web lại với nhau. Để định danh các thành phần trên Web, chúng ta sử dụng bộ định
danh. Bởi vì chúng ta sử dụng một hệ thống đồng bộ về định danh và cũng bởi vì
mỗi thành phần được định danh được xem như là một tài nguyên, nên chúng ta gọi
những bộ định danh này là “Các Bộ Định Danh Tài Nguyên” hay URIs. Chúng ta
có thể gán URI cho bất cứ thứ gì, và bất cứ thứ gì có URI đều có thể biểu diễn trên
Web. Ví dụ: con người, quyển sách, con ruồi, những gì mà chúng ta có thể nghĩ
đến, tất cả đều có thể có URI.
Có thể nhận thấy rằng trong thể hiện này URI :
“http://logicerror/myWeaving TheWeb” đang thực hiện hai nhiệm vụ: nó biểu diễn
cả quyển sách vật lý cũng như trang Web nó mô tả. Đây là một lĩnh vực đang được
thảo luận, gọi là vấn đề trong định danh Web ngữ nghĩa và nó là tâm điểm thảo luận
cho người thực hiện Web ngữ nghĩa.

pháp được đưa ra là dùng siêu dữ liệu (metadata) mô tả dữ liệu trên Web để máy có
thể hiểu được chúng. Siêu dữ liệu là một dạng dữ liệu dùng để mô tả dữ liệu khác.
Chẳng hạn như, sách là một loại tài nguyên trên Web
( khi đó các thông tin mô tả cho tài nguyên
này: tên tác giả, tên tựa sách, ngày xuất bản,… chính là siêu dữ liệu.
RDF (Resource Description Framework) là nền tảng của Web ngữ nghĩa và
xử lý metadata, được định nghĩa bởi tổ chức W3C. RDF cho phép trao đổi thông tin
giữa các ứng dụng trên Web mà máy có thể hiểu được.
Cấu trúc căn bản của một RDF statement gồm 3 thành phần:
• Chủ thể (Subject) - là cái mà chúng ta đề cập, thường được
nhận diện bởi một URI.
• Thuộc tính của chủ thể (Predicate), có kiểu metadata (ví dụ như
tiêu đề, tác giả, ), cũng có thể được xác định bởi một URI.
9
Chủ thể
Thực thể
Thuộc tính
• Giá trị của thuộc tính (Object) ví dụ: một người có tên Eric
Miller. Tập hợp các RDF statement được lưu dưới dạng cú pháp của XML,
còn được gọi là RDF/XML.
Ví dụ :RDF mô tả của thông tin địa chỉ của một người.
Hãy xem một khai báo RDF đơn giản :
< />< />< />URI thứ nhất là subject. Trong thể hiện này subject là “me”. URI thứ 2 là
predicate. Nó liên kết subject và object. Trong thể hiện này predicate là
“reallyLikes”. URI thứ 3 là object. Ở đây object là “Tim Berners-Lee’s book
‘Weaving the Web’”. Vì vậy khai báo RDF trên nói rằng “I really like ‘Weaving the
Web’”.
Ví dụ trên được viết dưới dạng RDF như sau:
<rdf:RDF
xmlns:rdf="

Một số lý do cần phát triển một Ontology:
- Để chia sẻ những hiểu biết chung về cấu trúc thông tin giữa con người và
các software agent.
- Để cho phép tái sử dụng lĩnh vực tri thức (domain knowledge).
- Để làm cho các giả thuyết về lĩnh vực được tường minh.
- Để tách biệt tri thức lĩnh vực (domain knowledge) ra khỏi tri thức thao
tác(operational knowledge ).
1.1.4.2. Vai trò của ontology
Chia sẻ những hiểu biết chung về các khái niệm, cấu trúc thông tin giữa con
người hoặc giữa các hệ thống phần mềm: đây là vai trò quan trọng nhất của một
ontology. Ta có thể hình dung ontology như một cuốn từ điển chuyên ngành,
cung cấp và giải thích các thuật ngữ cho người không có chuyên môn yêu cầu.
Cho phép tái sử dụng tri thức: đây là vấn đề khó và là mục tiêu nghiên cứu
quan trọng trong những năm gần đây. Nó là bài toán trộn hai hay nhiều ontology
nhỏ thành một ontology lớn và đầy đủ hơn.
11
Cho phép tri thức độc lập với ngôn ngữ: đây cũng là vấn đề liên quan đến tái
sử dụng tri thức, nhưng ở vai trò này, bài toán đặt ra là làm thế nào để một hệ
thống ontology có thể được sử dụng bởi các ngôn ngữ của các quốc gia khác nhau
mà không cần xây dựng lại.
Cho phép tri thức trở nên nhất quán và tường minh: trong một hay nhiều lĩnh
vực cụ thể, có thể có các khái niệm khác nhau nhưng có cùng tên, điều này sẽ gây
nhập nhằng về ngữ nghĩa. Tuy nhiên, trong hệ thống ontology thì mỗi khái niệm
phải là duy nhất.
Cung cấp một phương tiện cho công việc mô hình hóa: bản thân ontology là
một tập các khái niệm phân cấp được liên kết với nhau bởi các quan hệ. Cơ bản
mỗi khái niệm có thể xem như là một lớp, mà đối tượng của lớp đó cùng các quan
hệ đã góp phần tạo nên cấu trúc của bài toán.
Cung cấp một phương tiện cho việc suy luận: hiện nay một số ngôn ngữ
ontology đã tích hợp lớp ontology suy luận (Ontology Inference Layer) bên trong

tháng 2 năm 1998. Thực chất, XML phát triển không phải với mục đích hiển thị
trang web mà là trợ giúp cấu trúc cho tài liệu và dữ liệu để chúng có thể trao đổi
giữa các ứng dụng hoặc các tổ chức. XML không thay thế được cho HTML.
HTML và XML được thiết kế cho hai mục đích khác nhau:
• HTML được thiết kế để hiển thị và trình bày thông tin.
• XML được thiết kế để lưu trữ và vận chuyển thông tin.
File XML được định nghĩa dựa vào các thẻ (tags) do người sử dụng đặt theo
cấu trúc phân cấp. Tags và cấu trúc XML được định nghĩa theo DTD (Document
Type Definition) hoặc XML Schema.
Trong các ứng dụng mạng, XML định nghĩa các format dữ liệu để trao đổi
như sau:
• Cấu trúc file XML với DTD hay XML Schema quy định về protocol giao
tiếp.
• Dữ liệu được biểu diễn theo các tag.
• Là môi trường để các hệ thống không đồng nhất có thể giao tiếp với
nhau.
• Hệ thống cho phép mở rộng nhiều đối tượng tham gia, mở rộng giao dịch
mà không ảnh hưởng đến các giao dịch cũ.
• Có thể truyền qua giao thức HTTP.
13

Trích đoạn Đặc điểm của SemWeb Tạo một câu truy vấn đơn giản Cơ sở dữ liệu Tìm kiếm nâng cao Các bước xây dựng ontology
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status