KỸ THUẬT NÂNG CAO HIỆU QUẢ TRA CỨU SÁCH TẠI THƯ VIỆN TRƯỜNG CAO ĐẲNG KINH TẾ CÔNG NGHỆ TP.HCM - Pdf 38

i

CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN


Luận văn tựa đề “KỸ THUẬT NÂNG CAO HIỆU QUẢ TRA CỨU SÁCH TẠI
THƯ VIỆN TRƯỜNG CAO ĐẲNG KINH TẾ CÔNG NGHỆ TP.HCM” được
Phan Văn Út thực hiện và nộp nhằm thỏa một trong các yêu cầu tốt nghiệp Thạc sĩ
ngành Khoa Học Máy Tính.
Ngày bảo vệ luận văn, TP.HCM, ngày 21 tháng 11 năm 2015

Chủ tịch Hội đồng

Người hướng dẫn

PGS.TS. Trần Công Hùng
Học viện công nghệ Bưu chính Viễn Thông
Ngày

PGS.TS. Đỗ Văn Nhơn
Đại học Công Nghệ Thông tin TpHCM

tháng năm 2015

Ngày

Viện Đào Tạo Sau Đại Học

GS. TSKH. Hoàng Văn Kiếm
Ngày tháng nă m 2015


Quá trình công tác:
Nơi công tác

Thời gian
Năm 2009 đến nay

Chức vụ

Trường CĐ Kinh tế - Công nghệ Nhân viên Trung tâm
Tp. HCM
thông tin thư viện

-

Địa chỉ liên lạc: 482/2 Khu phố 3A, Phường Thạnh Lộc, Quận 12, Tp. HCM.

-

Điện thoại: 0902.051.560

-

Email:


iii

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài “Kỹ thuật nâng cao hiệu quả tra cứu sách tại Thư

Luận văn đã hoàn thành với một số kết quả nhất định tuy nhiên vẫn không
tránh khỏi thiếu sót. Kính mong sự cảm thông và đóng góp ý kiến từ quý thầy cô và
các bạn.
Một lần nữa tôi xin chân thành cảm ơn!
Thành phố Hồ Chí Minh, ngày 25 tháng 10 năm 2015
Người thực hiện
Phan Văn Út


v

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................


vii

NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN 2
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
Tp. Hồ Chí Minh, ngày

tháng năm 2015


viii

NHẬN XÉT CỦA HỘI ĐỒNG PHẢN BIỆN
..................................................................................................................................

MỤC LỤC .................................................................................................................. ix
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ...................................................................... xii
DANH MỤC CÁC BẢNG ........................................................................................ xiii
DANH SÁCH CÁC KÝ HIỆU, CHỮ VIẾT TẮT ..................................................... xiv
TÓM TẮT ................................................................................................................. xv
ABSTRACT ............................................................................................................ xvii
MỞ ĐẦU ............................................................................................................... xviii
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI ................................................................. 1
1.1. Giới thiệu tổng quan về vấn đề nghiên cứu ....................................................... 1
1.1.1. Nhu cầu và thực trạng tìm kiếm theo ngữ nghĩa trên kho tài liệu .............. 1
1.1.2. Khảo sát một số giải pháp và ứng dụng tìm kiếm ngữ nghĩa trên kho tài
liệu hiện nay ............................................................................................. 1
1.2. Mục tiêu và phạm vi nghiên cứu ....................................................................... 4
1.3. Phương pháp nghiên cứu ................................................................................... 5
1.4. Ý nghĩa khoa học và thực tiễn của đề tài ........................................................... 6
1.5. Nội dung thực hiện ........................................................................................... 6
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT .......................................................................... 8
2.1. Giới thiệu về tìm kiếm thông tin ....................................................................... 8
2.1.1. Khái niệm ................................................................................................. 8
2.1.2. Cấu trúc hệ thống tìm kiếm thông tin ........................................................ 8
2.1.3. Đánh giá hệ thống tìm kiếm thông tin ....................................................... 9
2.2. Các mô hình và phương pháp tìm kiếm thông tin ............................................ 10
2.2.1. Mô Hình Boolean ................................................................................... 11


x

2.2.2. Mô hình Boolean cải tiến (Advanced Boolean Model )........................... 12
2.2.3. Mô Hình Không Gian Vector(Vector Space Model) ............................... 14
2.2.4. Latent Semantic Indexing - LSI .............................................................. 15

CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ....................................... 73
5.1. Kết quả đạt được của luận văn ........................................................................ 73
5.2. Những hạn chế của đề tài ................................................................................ 73
5.3. Hướng phát triển. ............................................................................................ 74
TÀI LIỆU THAM KHẢO ....................................................................................... 75
PHỤ LỤC................................................................................................................. 77


xii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Trang
Chương 2. Cơ sở lý thuyết
Hình 2.1. Phân loại ontology theo Guarino ............................................................ 24
Hình 2.2. Phân loại ontology theo Lassila và Mc Guiness...................................... 25
Hình 2.3. Ví dụ mạng phân cấp trong WordNet ..................................................... 31
Chương 3. Mô hình và giải pháp
Hình 3.1. Ví dụ về quan hệ phân cấp của Information Technology ........................ 51
Hình 3.2. Mô hình CSDL ontology........................................................................ 61
Hình 3.3. Tổ chức CSDL của kho tài liệu .............................................................. 62
Chương 4. Cài đặt thử nghiệm và đánh giá
Hình 4.1. Mô hình kiến trúc hệ thống quản lý kho tài nguyên theo ngữ nghĩa ........ 66
Hình 4.2. Biểu đồ phân cấp chức năng................................................................... 68
Hình 4.3. Biểu đồ xử lý chức năng người quản lý tổng quát .................................. 68
Hình 4.4. Biểu đồ xử lý tổ chức quản lý kho tài liệu và bảo quản .......................... 69
Hình 4.5. Biểu đồ xử lý hỗ trợ và quản lý người dùng ........................................... 69
Hình 4.6. Biểu đồ xử lý chức năng người sử dụng tổng quát.................................. 70
Hình 4.7. Biểu đồ xử lý tìm kiếm theo từ khóa ...................................................... 70
Hình 4.8. Biểu đồ xử lý tìm kiếm theo ngữ nghĩa .................................................. 70


: Hệ điều hành

IR

: Information Retrieval

KĐTNN

: Keyphrase đặc trưng ngữ nghĩa


xv

TÓM TẮT
Với sự phát triển của công nghệ thông tin như hiện nay thì điều kiện học tập
của con người ngày càng được nâng cao. Chính vì vậy việc tổ chức một kho tài liệu
học tập về CNTT với chức năng tìm kiếm liên quan đến thông tin hay nội dung tài
liệu là một nhu cầu cấp thiết trong việc giảng dạy, học tập và nghiên cứu. Như vậy
làm thế nào để việc tìm kiếm của người sử dụng có hiệu quả hơn. Để giải quyết các
vấn đề trên luận văn đã xây dựng một hệ thống cho phép tra cứu, tìm kiếm tài liệu
theo nhiều chức năng không chỉ hỗ trợ tìm kiếm dựa trên từ khóa, tìm kiếm theo hệ
thống thư mục mà còn hỗ trợ tìm kiếm dựa trên tri thức của lĩnh vực hay theo ngữ
nghĩa, trả về tập tài liệu kết quả đúng nhất với ý định của người dùng.
Nghiên cứu tìm hiểu các phương pháp, kỹ thuật biểu diễn, xử lý ngữ nghĩa của
tài liệu, đặc biệt là hướng tiếp cận dựa trên Ontology cho việc quản lý kho tài
nguyên học tập về lĩnh vực CNTT theo ngữ nghĩa, bao gồm các mô hình, vấn đề,
thuật giải, kỹ thuật, qui trình để tổ chức một kho tài liệu quản lý được các thông tin
ngữ nghĩa liên quan đến nội dung của tài liệu cũng như hỗ trợ biểu diễn và xử lý
ngữ nghĩa trong tìm kiếm.
Những phương pháp và kỹ thuật liên quan đến luận văn bao gồm.

ABSTRACT
Research to find out the methods, techniques performed, semantic processing
of documents, particularly Ontology based approach for the management of
learning resources repositories of semantic IT, including the patterns, problems,
algorithms, techniques, procedures for organizing a document management
repository for information related to the semantic content of the document and
supports the performance and handling of semantic search Search.
These methods and techniques related to the thesis included.
 Method of performing and processing knowledge, representation and
semantic processing of documents
 Information Retrieval Methods and search strategies.
 Evaluation method of semantic similarity between two keyphrase and
semantic similarity between two graphs keyphrase.
 Methods and techniques based on ontologies will be applied in a flexible
way with the development to create the model, the language specification,
technical organization document repository for semantic incident handling
storage and a semantic search more effectively.
Thesis has launched many innovative techniques effectively in semantic
representation and processing calculate semantic similarity between documents and
queries. These improvements were proposed in direct essays overcome technical
limitations in semantic search, significantly enhances efficiency semantic search.
Thesis has proposed a method of processing a query performing a weighted
graph keyphrase help determine more precise search requests of users. This
significantly enhances the ability to handle the query of the system, improve the
effectiveness of the search process. In addition, the weighting of keyphrase graph
represents the document has been significantly adjusted thesis based on survey
results from practice. The formula for weighting more accurately not only
contributes to increased accuracy for semantic search problem that the arrangement
of search results is also effective and close to the requirements of users.




xix

các yêu cầu sử dụng ngày càng cao, đặc biệt là việc tổ chức và xử lý tích hợp dữ
liệu, thông tin và tri thức.
Như vậy làm thế nào để việc tìm kiếm của người sử dụng có hiệu quả hơn.
Để giải quyết các vấn đề trên cần phải xây dựng một hệ thống cho phép tra cứu, tìm
kiếm tài liệu theo nhiều chức năng không chỉ hỗ trợ tìm kiếm dựa trên từ khóa, tìm
kiếm theo hệ thống thư mục mà còn hỗ trợ tìm kiếm dựa trên tri thức của lĩnh vực
hay theo ngữ nghĩa, trả về tập tài liệu kết quả đúng nhất với ý định của người dùng.
Ứng dụng đã được cài đặt, thử nghiệm tại trường cao đẳng Kinh tế công
nghệ Thành phố Hồ Chí Minh. Kết quả thực nghiệm bước đầu cho thấy giải pháp
đã đề xuất là khả quan và có khả năng ứng dụng tốt.
Nội dung của luận văn được trình bày trong 5 chương, bao gồm:
Chương 1: Giới thiệu và khảo sát các hệ thống tìm kiếm thông tin, phân tích
đánh giá thực trạng, trình bày mục tiêu, giới hạn của đề tài, ý nghĩa lý luận và thực
tiễn, phương pháp nghiên cứu, hướng tiếp cận giải quyết vấn đề và nội dung thực
hiện của đề tài.
Chương 2: Trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề truy hồi
thông tin bao gồm định nghĩa, mô tả cấu trúc và phân loại các hệ thống tìm kiếm
thông tin, các phương pháp và mô hình tìm kiếm, vấn đề biểu diễn ngữ nghĩa của tài
liệu, các lý thuyết nền tảng về Ontology cùng với các phương pháp và kỹ thuật tính
khoảng cách ngữ nghĩa giữa các khái niệm.
Chương 3: Mô hình và giải pháp: Chương này đề xuất các mô hình gồm một
mô hình ontology mô tả tri thức về một lĩnh vực đặc biệt trong đó sử dụng
keyphrase là thành phần chính để hình thành các khái niệm của ontology; xây dựng
đồ thị keyphrase biểu diễn nội dung, phương pháp đánh giá độ tương đồng ngữ
nghĩa giữa hai keyphrase và độ tương đồng ngữ nghĩa giữa hai đồ thị keyphrase.
Chương 4: Cài đặt thử nghiệm: Xây dựng ứng dụng thử nghiệm quản lý kho

sử dụng ngày càng cao, đặc biệt là việc tổ chức và xử lý tích hợp dữ liệu, thông tin
và tri thức.
Trong lĩnh vực của khoa học máy tính, hiện đang có một sự chuyển hướng
dần đến những thứ mà có thể gọi là sự hướng tri thức hoặc xử lý ngữ nghĩa. Theo
đó, những hệ thống tìm kiếm dựa trên khái niệm được nghiên cứu phát triển nhằm
thay thế cho những hệ thống truyền thống vốn đã bộc lộ nhiều khuyết điểm lớn.
1.1.2. Khảo sát một số giải pháp và ứng dụng tìm kiếm ngữ nghĩa trên kho tài

liệu hiện nay
1.1.2.1.

Về một số động cơ tìm kiếm thông dụng hiện nay

Đối với nhu cầu tìm kiếm thông tin nói chung, hầu hết đều nghĩ đến cái
tênGoogle. Tuy nhiên, thị trường các công cụ tìm kiếm thông tin trên máy tính vẫn
đang ngày càng trở nên đông đảo và gia tăng không ngừng. Trên lĩnh vực tìm kiếm


2

trên internet, người khổng lồ Google bị bám đuổi và cạnh tranh gay gắt từ các dịch
vụ như Yahoo search (yahoo.com), Microsoft Bing (bing.com), Ask (ask.com),
v.v.... Các động cơ tìm kiếm này đã nổi tiếng trên toàn thế giới, ngôn ngữ được hỗ
trợ chính là tiếng Anh nhưng cũng sử dụng được với các ngôn ngữ khác. Ngoài ra,
với tham vọng là xây dựng các động cơ tìm kiếm tận dụng những lợi thế địa
phương của quốc gia về ngôn ngữ và văn hóa, các công ty quốc gia cũng xây dựng
các động cơ tìm kiếm riêng cho mình như Baidu (baidu.com) của Trung Quốc,
Heeya (heeya.com) của Hàn Quốc hay Yandex (yandex.com) của Nga, v.v...
Nếu bàn về tìm kiếm theo từ khóa, Google đã gần như không có đối thủ. Tuy
nhiên, nếu người dùng không biết rõ về từ khóa họ cần cung cấp cho máy tìm kiếm,

hoá thư mục để có thể tra cứu qua các cổng thông tin trực tuyến với nhiều chức
năng tìm kiếm theo tên tác giả, tựa tài liệu, từ khoá, chủ đề, ...Các hệ thống thư viện
thường có tài liệu được tổ chức quy cũ, chặt chẽ và tính đặc thù chuyên môn cao.
Các cơ sở dữ liệu tài liệu: Các cơ sở dữ liệu thông tin khoa học kĩ thuật
thường được các công ty, tổ chức lớn xây dựng, bằng cách tập hợp thông tin tóm tắt
từ rất nhiều các tạp chí chuyên ngành khác nhau, sắp xếp và tổ chức sao cho việc
tìm kiếm thông tin được dễ dàng hơn.
Vấn đề quan trọng nhất đối với các hệ thống này là tổ chức lưu trữ và tìm
kiếm thông tin. Đối với việc lưu trữ tài liệu, các hệ thống sử dụng các chuẩn siêu dữ
liệu như MARC, LOM, IMS, Dublin Core, ... để hỗ trợ việc sắp xếp và tìm kiếm.
Tuy nhiên các chuẩn này chỉ đơn thuần tạo siêu dữ liệu với các trường mô tả đơn
giản như tiêu đề, bản quyền, tác giả, ... và tập từ vựng riêng biệt còn hạn chế, do đó
vẫn chưa đủ khả năng biểu diễn các tài nguyên theo ngữ nghĩa hay nội dung. Đối
với vấn đề tìm kiếm, việc tìm kiếm chủ yếu vẫn dựa vào từ khóa, độ chính xác và
độ bao phủ của hệ thống không cao. Giải pháp quản lý tài nguyên còn chủ yếu ở
mức xử lý dữ liệu và vì thế các tính năng của hệ thống còn nhiều hạn chế trong việc
áp dụng các yêu cầu sử dụng ngày càng cao, đặc biệt là việc tổ chức và xử lý tích
hợp dữ liệu, thông tin và tri thức. Chính nhược điểm này đòi hỏi hướng tiếp cận
theo ngữ nghĩa mà theo đó các hệ thống phải được xây dựng hướng tới việc quản lý
tri thức kết hợp với quản lý và xử lý các thông tin ngữ nghĩa liên quan đến nội dung
của tài liệu.
Trong những năm gần đây, kỹ thuật tìm kiếm tài liệu có nhiều thay đổi và
cải tiến, xu hướng tìm kiếm hiện nay đang dịch chuyển từ mang tính chất cú pháp


4

(syntax), cấu trúc (structure), thành mang tính chất ngữ nghĩa (semantic), từ tìm
kiếm trên từ khóa (keyword) trở thành tìm kiếm trên khái niệm (concept). Các
phương pháp truy hồi thông tin dựa trên khái niệm và ngữ nghĩa nhắm đến việc mô

Ứng dụng các giải pháp được nghiên cứu, hướng tới việc xây dựng một hệ
thống quản lý kho tài nguyên học tập về lĩnh vực CNTT trong phạm vi thư viện của
Trường cao đẳng Kinh tế công nghệ TpHCM.
Luận văn đặt mục tiêu đưa ra được một số cải tiến trong mô hình biểu diễn và
nhất là các phương pháp kỹ thụật giải quyết các vấn đề của bài toán đánh giá độ
tương đồng ngữ nghĩa của tài liệu. Các đề xuất sẽ nhắm đến việc cải thiện hiệu quả
khâu tìm kiếm theo ngữ nghĩa trên cả hai bình diện cải tiến sự hiệu quả (thông qua
hai độ đo precision và recall) lẫn cải thiện thời gian thực thi.
Quá trình thực hiện luận văn sẽ bao gồm việc thu thập dữ liệu, tổ chức, quản lý
thử nghiệm và xây dựng một ứng dụng thử nghiệm dưới dạng một hệ thống truy hồi
tài liệu theo ngữ nghĩa trên nền web. Ứng dụng thử nghiệm này hướng đến mục đích
phục vụ cho việc tìm kiếm tài liệu học tập của sinh viên tại thư viện trường cao đẳng
Kinh tế công nghệ TpHCM.
1.3. Phương pháp nghiên cứu
Xuất phát từ việc phân tích các phương pháp và kỹ thuật đã có, đặc biệt là kỹ
thuật được đề xuất trong [1], luận văn cố gắng đưa ra những đóng góp phát triển và
đề xuất mới về mặt kỹ thuật với khả năng xử lý chính xác và hiệu quả hơn.
Những phương pháp và kỹ thuật liên quan đến luận văn bao gồm các phương
pháp và kỹ thuật của trí tuệ nhân tạo có thể được điểm qua như:
 Phương pháp biểu diễn và xử lý tri thức, biểu diễn và xử lý ngữ nghĩa các
tài liệu
 Phương pháp truy hồi thông tin và các chiến lược tìm kiếm.
 Các phương pháp tính khoảng cách ngữ nghĩa giữa các khái niệm và
tương quan ngữ nghĩa giữa các đối tượng được so khớp.
 Đặc biệt là các phương pháp và kỹ thuật dựa trên các ontology sẽ được



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status