xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin - Pdf 29


TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN HỆ THỐNG THÔNG TIN

TSÀN QUẾ HƯƠNG – 0112385

VÕ HỒ BẢO KHANH – 0112387 XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG
TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP
ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN

KHÓA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN


………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………

………………………………………………………………………………………Xác nhận của GVPB Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 3
ĐỀ CƯƠNG CHI TIẾT
Thông tin chung về đề tài:
Tên đề tài:

Xây dựng bộ ngữ liệu để đánh giá (test collection) bằng tiếng Việt và chương
trình trợ giúp đánh giá các hệ tìm kiếm thông tin

GVHD: Tiến sĩ Hồ Bảo Quốc
Sinh viên thực hiện:
1. MSSV: 0112385 Họ và tên: Tsàn Quế Hương
2. MSSV: 0112387 Họ và tên: Võ Hồ Bảo Khanh

Tóm tắt nội dung luận văn:
Đề tài gồm 2 phần :

_ Tìm hiểu về tìm kiếm thông tin (information retrieval), đánh giá các hệ thống tìm kiếm
thông tin (information retrieval systems evaluation)

_ Tìm hiểu cấu trúc của bộ ngữ liệu, phương pháp xây dựng bộ ngữ liệu của TREC (Text
REtrieval Conference)

_ Tìm hiểu và sử dụng các hệ thống tìm kiếm : SMART, IOTA ,Lucene,Terrier…

_ Xây dựng bộ ngữ liệu kiểm tra bằng tiếng ViệtLuận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 4
_ Xây dựng một hệ chương trình phục vụ việc kiểm tra và đánh giá các hệ thống tìm
kiếm thông tin. Chương trình phải chạy được trên hai hệ điều hành : Windows và Linux,
chương trình viết bằng ngôn ngữ Java
Các công cụ, công nghệ chính được nghiên cứu, ứng dụng trong đề tài
Borland Jbuider X

Visual Studio . NET
Microsoft Visio 2003
Rational Rose
Microsoft Word, Power Point
Xác nhận của GVHD

tương đối mới và hấp dẫn ở Việt Nam . Một lần nữa chúng em xin cảm ơn Thầy vì
Thầy đã tận tình hướng dẫn chúng em đề tài luận văn “Xây dựng bộ ngữ liệu dùng
để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ thố
ng tìm
kiếm thông tin”.
Chúng em xin cảm ơn gia đình, các anh chị, bạn bè đã động viên, giúp đỡ
chúng em để hoàn thành tốt đề tài luận văn này.
Nhóm sinh viên thực hiện
Tsàn Quế Hương – Võ Hồ Bảo Khanh

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 6
MỤC LỤC

MỞ ĐẦU ............................................................................................................10

Chương 1 : TỔNG QUAN .................................................................................13


2.2.2.3. Đánh giá sự liên quan............................................................................40
2.2.3. Thực hiện đo khả năng tìm kiếm ..................................................................41
2.2.3.1. Các khái niệm về độ đo và liên quan .....................................................41
2.2.3.2. Cách tính độ bao phủ (R) và độ chính xác (P)........................................42
2.2.3.3. Phương pháp tính độ chính xác dự
a trên 11 điểm chuẩn của độ bao phủ 44
2.2.3.3.1. Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm .....................44
2.2.3.3.2. Đường cong độ bao phủ và độ chính xác RP...................................45
2.2.3.3.3. Đường cong RP cho tập truy vấn ....................................................47
2.2.3.3.4. Đánh giá hệ thống tìm kiếm thông tin dựa vào đồ thị......................48
2.2.3.4. Sự liên quan giữa câu hỏi và tài liệu ......................................................49
2.2.3.4.1. Các độ liên quan.............................................................................49
2.2.3.4.2. Các vấn đề về độ liên quan .............................................................49
2.2.3.4.3. Đánh giá với độ liên quan nhiều cấp độ ..........................................51
2.2.3.4.4. Phươ
ng pháp đo độ bao phủ (R), độ chính xác (P) dựa trên độ liên
quan nhiều cấp độ ..........................................................................................53

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 7
2.2.4. TREC và đánh giá theo chuẩn TREC ...........................................................54
2.2.4.1. TREC là gì? ..........................................................................................54
2.2.4.2. Cách xây dựng ngữ liệu của TREC........................................................56
2.2.4.2.1. Xây dựng tập hợp các tài liệu..........................................................57
2.2.4.2.2. Xây dựng các chủ đề.......................................................................57
2.2.4.2.3. Xây dựng bảng đánh giá liên quan chuẩn........................................58
2.3. Ngữ liệu tiếng Việt .............................................................................................59
2.3.1. Từ................................................................................................................60
2.3.1.1. Quan niệm về từ....................................................................................60
2.3.1.2. Quan niệm về hình vị ............................................................................61

3.2.1.7. Tính bảo mật .........................................................................................76
3.2.2. Phân tích hệ thống đánh giá..........................................................................76
3.2.2.1. Chức năng của hệ
thống ........................................................................76
3.2.2.2. Chức năng yêu cầu ................................................................................77
3.2.2.2.1. Chức năng đánh giá một hệ thống IR..............................................77
3.2.2.2.2. Chức năng so sánh nhiều hệ thống IR.............................................77
3.2.2.2.3. Sơ đồ use case ................................................................................77
3.2.2.2.4. Sơ đồ tuần tự hoạt động usecase .....................................................79

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 8
3.3. Thiết kế hệ thống đánh giá..................................................................................86
3.3.1. Các chức năng của chương trình...................................................................86
3.3.1.1. Chức năng “Định dạng cơ sở dữ liệu tài liệu”........................................86
3.3.1.2. Chức năng “Định dạng kết quả trả về”...................................................86
3.3.1.3. Chức năng “Định dạng file index”.........................................................87
3.3.1.4. Chức năng “Thực thi hệ thống IR” ........................................................87
3.3.1.5. Chức năng “Xử lý kết quả trả về”..........................................................87
3.3.1.6. Chức năng ”Đánh giá một hệ
thống IR”.................................................87
3.3.1.7. Chức năng “Đánh giá nhiều hệ thống IR”..............................................87
3.3.2. Thiết kế hệ thống .........................................................................................88
3.3.2.1. Sơ đồ kiến trúc tổng thể.........................................................................88
3.3.2.1.1. Danh sách các lớp đối tượng...........................................................88
3.3.2.1.2. Lớp đối tượng thể hiện....................................................................88
3.3.2.1.3. Lớp đối tượng xử lý........................................................................91
3.3.2.1.4. Lớp đối tượng lưu trữ .....................................................................99
3.3.2.2. Sơ đồ kiến trúc tổng quát cho từng chức năng của chương trình ............99
3.3.2.2.1. Chức năng “Định dạ

3.3.2.6.7. Màn hình thực thi hệ thống (TH_ThucThiHT)..............................129
3.3.2.6.8. Màn hình định dạng kết quả (TH_DDKetQua)..............................130

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 9
3.3.2.6.9. Màn hình định dạng thông tin index (TH_DDIndex).....................131
3.3.2.6.10. Màn hình đánh giá hệ thống (TH_KqDanhGia)...........................133
3.3.2.6.11. Màn hình xem đồ thị của hệ thống..............................................136
3.3.2.6.12. Màn hình xem chi tiết (TH_XemChiTiet) ...................................136
3.3.2.6.13. Màn hình so sánh hệ thống (TH_SoSanhHT)..............................138
3.3.2.7. Thiết kế hệ thống lớp đối tượng...........................................................139
3.3.2.7.1. Các lớp đối tượng xử lý ................................................................139
3.3.2.7.2. Các lớp đối tượng lưu trữ..............................................................169
Chương 4 : KẾT QUẢ ĐÁNH GIÁ ..................................................................171

4.1. Ngưỡng đánh giá ..............................................................................................171
4.2. Đánh giá hệ thống tìm kiếm thông tin search4VN.............................................171
4.3. So sánh hệ thống tìm kiếm search4VN và hệ thống Lucene...............................177
4.4. Nhận xét chương trình hỗ trợ đánh giá hệ thống tìm kiếm thông tin ..................179
4.4.1. Ưu điểm.....................................................................................................179
4.4.2. Khuyết điểm ..............................................................................................179
Chương 5 : KẾT LUẬN ....................................................................................181

Chương 6 : HƯỚNG PHÁT TRIỂN..................................................................182

PHỤ LỤC .........................................................................................................183

Tài liệu tham khảo ..........................................................................................186
nhờ có sự trợ giúp của công nghệ thông tin con người có thể thỏa mãn nhu cầu này
một cách dễ dàng. Thật vậy, có rất nhiều hệ
thống tìm kiếm thông tin
(
Information Retrieval system

hay IR system
)
trên máy tính đang tồn tại để trợ
giúp con người. Tuy nhiên, khả năng tìm kiếm thông tin của các hệ thống này
chắc chắn khác nhau. Do đó, việc đánh giá các hệ thống tìm kiếm thông tin
(
Evaluation of Information Retrieval systems)

là một nhu cầu không thể thiếu
nhằm xác định các hệ thống tìm kiếm thông tin hiệu quả. Việc đánh giá này có ý
nghĩa rất lớn đối với sự tồn tại và phát triển của các hệ thống tìm kiếm thông tin.
Nó giúp xác định khả năng tìm kiếm của các hệ thống tìm kiếm thông tin từ đó mà
các tổ chức, công ty, trường học tạo ra hệ thống này có thể phát triển, thay đổi hệ
thố
ng để đưa ra khả năng tìm kiếm thông tin tốt nhất. Ngoài ra, việc xác định các
hệ thống tìm kiếm thông tin hiệu quả rất hữu ích đối với người dùng, họ sẽ cảm
thấy tin tưởng vào kết quả tìm kiếm mà hệ thống tìm được. Xa hơn nữa, việc đánh
giá sẽ tạo ra một cuộc cách mạng trong lĩnh vực tìm kiếm thông tin; giúp đưa tìm
kiếm thông tin vào trong thế giới thực của
đời sống. Chẳng hạn, khi các hệ thống
tìm kiếm thông tin tiến bộ chuyển từ nghiên cứu sang thế giới thực của cạnh tranh
thương mại thì những nhà thiết kế, nhà phát triển, người bán hàng, và những đại
diện bán hàng của các sản phẩm thông tin mới như sách điện tử, và các phương
tiện tìm kiếm (Search engines) … muốn biết sản phẩm của họ có cung cấp cho

hệ thống thông tin ở trên). Hiệu quả của kết quả trả về được định nghĩa là khả
năng h
ệ thống tìm kiếm thông tin tìm được các tài liệu liên quan
(
Relevant
Documents
)
và loại bỏ đi

những tài liệu không liên quan
(
Irrelevant
Documents
)
. Đây là mô hình hướng hệ thống trong nghiên cứu tìm kiếm thông tin.
Mô hình này mô hình đánh giá được sử dụng nhiều nhất và hiệu quả nhất trên thế
giới.
Và để xây dựng hệ thống đánh giá các hệ thống tìm kiếm thông tin tiếng Việt
theo mô hình hướng hệ thống, trước hết, chúng tôi cần phải xây dựng bộ ngữ liệu
dùng để đánh giá bằng tiếng Việt
(
a Vietnamese Test collection
)
. Bộ ngữ liệu
dùng để đánh giá gồm có kho ngữ liệu mẫu bằng tiếng Việt
(
a Vietnamese

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 12

sự kết hợp của hai độ đo: độ bao phủ
(
Recall
)

và độ chính xác
(
Precision
)
. Từ
kết quả trả về, chúng ta có thể biết được khả năng tìm kiếm của riêng từng hệ
thống tìm kiếm thông tin và so sánh khả năng của các hệ thống tìm kiếm với nhau.
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 13
Chương 1 : TỔNG QUAN

system) hiện nay. Thay vào đó, người sử dụng phải dịch nhu cầu thông tin của
mình sang một câu truy vấn có thể được xử lý bằng phương tiện tìm kiếm hay hệ
thống tìm kiếm thông tin. Điều này tạo ra một tập các từ khóa tóm tắt mô tả nhu
cầu thông tin người dùng hay còn gọi là câu truy vấn. Dựa trên câu truy vấn của
người sử dụng, mục đích chính của hệ thống tìm kiế
m thông tin là tìm kiếm các
thông tin hữu ích hay liên quan cho người sử dụng.

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 14
Vậy có thể nói một cách tổng quát, hệ thống tìm kiếm thông tin là một hệ
thống cho phép người sử dụng tìm kiếm tài liệu để thỏa mãn nhu cầu thông tin từ
một kho ngữ liệu lớn.
Để tìm kiếm thông tin, hệ thống tìm kiếm phải thực hiện các công việc sau.
Trước hết, hệ thống tìm kiếm xử lý tài liệu thô thành những tài liệu được tách từ,
phân đoạn
(
tokenized documents
)
và sau đó lập chỉ mục
(
index
)
dựa trên vị trí
của từ. Khi người dùng đưa vào câu truy vấn, hệ thống tìm kiếm thông tin cũng sẽ
xử lý các câu truy vấn thành ngôn ngữ chỉ mục mô tả các yếu tố thông tin cần tìm
kiếm và thực hiện đối chiếu với chỉ mục tài liệu để tìm ra các tài liệu liên quan.
Cuối cùng, các tài liệu liên quan sẽ được trả về cho người dùng theo một danh
sách được sắp xếp theo độ ưu tiên chính xác giảm dầ
n

So sánh để biết người sử dụng cần danh sách các tài liệu trả về (ranked list) dài
cỡ bao nhiêu để
họ có thể nhìn dễ dàng nhất. Đánh giá để biết hệ thống nào thật sự
tốt, người dùng có thể tin tưởng kết quả trả về được.
1.2.2. Các tiêu chuẩn được dùng để đánh giá
Hiện nay, trên thế giới có ba tiêu chuẩn được dùng để đánh giá hệ thống tìm
kiếm thông tin. Thứ nhất là tiêu chuẩn về tính hiệu quả tức sự chính xác, tính đầy
đủ của kết quả trả v
ề so với mục đích tìm kiếm của người sử dụng, và giá trị vẫn
có thể đoán được trong các tình huống khác có nghĩa là khi đưa vào các câu truy
vấn khác, tập tài liệu khác thì hệ thống vẫn có thể tìm ra kết quả chính xác. Thứ
hai là tiêu chuẩn về hiệu năng, gồm có tốc độ tìm kiếm của thuật toán, khả năng
lưu trữ, thời gian trả về cho người sử dụng, thời gian lậ
p chỉ mục, kích thước chỉ
mục… Thứ ba là tiêu chuẩn về khả năng sử dụng hệ thống tức là có thể nghiên
cứu, học hỏi trên hệ thống tìm kiếm, người không biết tin học hay các chuyên gia
tin học đềi có thể sử dụng hệ thống.
1.2.3. Các mô hình đánh giá
Theo chúng tôi được biết, trên thế giới có tất cả bốn mô hình đánh giá các hệ
thống tìm kiếm thông tin. Chúng bao gồm : đánh giá hộp kính,
đánh giá hộp đen,
đánh giá hướng hệ thống, đánh giá hướng người dùng hay còn gọi là đánh giá
nghiên cứu người dùng [
2
].

Đánh giá hộp kính
(
glass box evaluation
)

thống tìm kiếm thông tin lần lượt thực hiện các câu truy vấn, tìm kiếm trên
tập dữ liệ
u đã được xây dựng và ghi lại kết quả những tài liệu nào liên quan
đến câu truy vấn nào rồi đem so sánh với Bảng Đánh giá liên quan chuẩn
(
Relevance judgment
)
đã được xây dựng. Với mỗi câu truy vấn tính toán
độ chính xác và độ bao phủ dựa trên kết quả trả về và bảng đánh giá liên
quan chuẩn để nhận xét hiệu quả tìm kiếm của

hệ thống tìm kiếm thông tin.
Hướng đánh giá này được thực hiện rất phổ biến ở các dự án, hội nghị về
nghiên cứu hệ thống tìm kiếm thông tin như:
Cranfield , MEDLARS,
SMART, STAIRS và TREC.

Đánh giá hướng người dùng
(
user studies evaluation
)
: Hướng nghiên
cứu người dùng ra đời vào những năm 1970 khi mà nhiều hệ thống tìm
kiếm thông tin thương mại ra đời. Mục đích chính của hướng nghiên cứu
này là nhằm xác định cách thức tìm kiếm của người sử dụng [
3
]. Hướng
đánh giá này còn cho phép xem xét hệ thống ở khía cạnh người dùng; tức là
đánh giá về mặt tương tác với người sử dụng như giao diện của hệ thống
tìm kiếm thông tin, thời gian hệ thống tìm kiếm đối với một câu truy vấn,

tài của chúng tôi, chúng tôi chỉ sử dụng mô hình đánh giá hướng hệ thống vì mô
hình đánh giá hướng người dùng cần có sự hợp tác của rất nhiều người dùng để
lấy thông tin phản hồi sau khi s
ử dụng hệ thống tìm kiếm thông tin đó hoặc cần
phải tham gia trao đổi về hiệu năng tìm kiếm tại các hội nghị. Nhưng các hội nghị
dành cho mô hình đánh giá hướng người dùng đa số chưa có một phương pháp
luận cụ thể nào dùng để đánh giá. Ngoài ra, với mô hình hướng hệ thống, chúng

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 18
tôi có thể xây dựng ứng dụng để đánh giá nhiều hệ thống tìm kiếm thông tin một
cách tự động.
1.2.4. Các độ đo dùng để đánh giá
Độ bao phủ (Recall) và độ chính xác (Precision) là 2 đơn vị đo cơ bản nhất
để đánh giá chất lượng một hệ thống tìm kiếm thông tin [
4
]. Độ bao phủ là tỉ lệ
giữa các tài liệu liên quan được trả về trên tổng số các tài liệu liên quan thật sự.
Trong khi đó, độ chính xác là tỉ lệ giữa các tài liệu liên quan được trả về trên tổng
số tài liệu được trả về.
Có nhiều phương pháp sử dụng một hoặc các độ đo này để tính toán đánh giá,
chẳng hạn phương pháp Độ chính xác trung bình (Mean Average Precision –
MAP) chỉ sử dụng độ chính xác, không quan tâm
đến độ bao phủ. Phương pháp đo
dựa trên giá trị đơn Swet’s E-Measure hoặc chiều dài tìm kiếm trung bình thì cũng
chỉ sử dụng một giá trị để tính toán. Phương pháp tính độ chính xác dựa trên 11
điểm chuẩn của độ bao phủ sử dụng cả hai độ đo độ bao phủ và độ chính xác.
Chúng tôi thực hiện đánh giá theo phương pháp tính độ chính xác dựa trên 11
điểm chuẩn của độ bao phủ bởi vì phương pháp này khá
đơn giản, dễ thực hiện

Relevance judgment. Các phương pháp này gồm có:
 Phương pháp đánh giá toàn bộ, phương pháp này thường không khả
thi vì tỉ lệ tập câu hỏi*tập tài liệu là quá lớn. Phương pháp này rất tốn
chi phí.
 Phương pháp Pooling hay còn gọi là ph
ương pháp lấy một số tài liệu
liên quan nhất để làm bảng đánh giá liên quan chuẩn. Phương pháp này
sử dụng tốt cho đánh giá nhiều hệ thống tìm kiếm thông tin. Phương
pháp này đòi hỏi phải có một sự đa dạng các hệ thống tìm kiếm thông
tin. Bước đầu tiên của phương pháp này là tìm thấy các tài liệu liên
quan cho mỗi hệ thống. Các hệ thống khác nhau tìm thấy các tài liệu
liên quan khác nhau. Bước tiếp theo là tổng hợp các kế
t quả của tất cả
các hệ thống lại và lấy phần giao của các bảng đánh giá liên quan của
các hệ thống. Nhưng phần giao này có thể chỉ là một số lượng nhất định
các tài liệu gần như chính xác nhất. Việc đánh giá dựa trên phương pháp
này thật sự khách quan khi đánh giá các hệ thống không được chọn để
giao lấy bảng Đánh giá liên quan chuẩn.
 Phương pháp đánh giá h
ướng dẫn chỉ tìm kiếm thỉnh thoảng cho kết
quả tốt. Phương pháp này cho phép tương tác giữa nghiên cứu truy vấn,
tìm kiếm, đánh giá. Tăng cường thêm bằng cách xem lại, điều chỉnh,
đánh giá lại. Nói chung, khi sử dụng phương pháp này, người đánh giá

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 20
phải thao tác bằng tay rất nhiều, xem các tài liệu trả về có thật sự là liên
quan hay chưa để đưa vào bảng Đánh giá liên quan chuẩn.
 Các đánh giá dựa trên những thành phần đã biết, phương pháp này
tốn ít chi phí nhất. Phương pháp này cho phép thay đổi câu hỏi để tìm ra

Trang 21
một khoảng trắng nhưng tiếng Việt thì hoàn toàn khác, một từ có thể gồm từ một
từ đơn trở lên. Do đó, để những hệ thống tìm kiếm thông tin, ngữ liệu phải được
chuẩn hóa về giống với tiêu chuẩn ngữ liệu dùng để tìm kiếm của hệ thống đó.
Nhưng cũng chính điều này làm cho ngữ liệu của chúng tôi có thể được sử dụ
ng
linh hoạt để đánh giá nhiều hệ thống tìm kiếm thông tin cho nhiều thứ tiếng khác
nhau. Điều này còn có ý nghĩa rất lớn trong tìm kiếm thông tin vì chúng ta có thể
sử dụng hệ thống tìm kiếm hiệu quả của nước ngoài để tìm kiếm thông tin tiếng
Việt.
1.2.7. Phương pháp đánh giá tầm quan trọng của kết quả trả về
Các độ đo thực hiện toàn bộ hệ thống tìm kiếm ch
ủ yếu được lấy trung bình
trên tập câu hỏi. Vì tính chất biến đổi của các câu hỏi là rất lớn, và sự thay đổi của
các độ đo tính toán là rất cao, nên đòi hỏi một phương pháp phân tích thống kê
thích hợp để đánh giá xem sự khác biệt được đo giữa các hệ thống có phải là có ý
nghĩa thống kê đến một độ tin cậy nhất định không. Vì vậy, phương pháp đánh giá
tầm quan trọng c
ủa kết quả trả về được sử dụng là phương pháp thống kê.
khác nhau để giải quyết vấn đề này nhưng chúng đều liên quan đến cách tổ chức
vật lý hoặc luận lý các yếu tố thông tin. Trong thư viện, cách tổ chức vật lý chính
là việc lập chỉ mục cho tài liệu, tức là sự sắp xếp các con số của các quyển sách,
cách đánh số thường được quy định bởi các thư viện lớ
n. Những quyển sách sẽ
được đặt vào những vị trí xác định dựa vào những con số này. Ngoài ra, cách tổ
chức luận lý dữ liệu phải được thêm vào với cách tổ chức vật lý để giúp người sử

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 23
dụng tìm kiếm thông tin dễ dàng hơn. Chẳng hạn, những quyển sách ấn bản về tìm
kiếm thông tin có thể được xác định bằng cách nhìn vào danh mục các chủ đề của
thư viện với thuật ngữ cần tìm là “tìm kiếm thông tin”. Một khi ta tìm thấy thuật
ngữ thích hợp, các thẻ số kế tiếp nhau sẽ xác định những quyển sách liên quan đến
chủ đề đang tìm kiếm. Những quyển sách này phụ thu
ộc vào các con số và chúng
sẽ được tìm thấy tại những vị trí xác định. Bên cạnh đó, mỗi khi muốn thay đổi
thuật ngữ chủ đề của sách, chúng ta không cần thay đổi vị trí của sách trên kệ
sách; tức là, các yếu tố thông tin có thể được tổ chức luận lý lại bằng cách thay đổi
danh mục thư viện mà không cần thay đổi sắp xếp vật lý.
Xã hội ngày càng phát triển do đó thông tin rất đa d
ạng phong phú, bài toán đặt
ra là chúng ta phải làm sao để quản lý được số lượng thông tin khổng lồ một cách
có hiệu quả. Từ đó dẫn đến nhu cầu làm giảm một lượng các yếu tố thông tin đến
một kích thước có thể quản lý, các yếu tố thông tin còn lại được xem là có liên
quan nhiều nhất đến lĩnh vực tìm kiếm. Mặt khác, chúng ta rất khó dự đoán mẫu,
trạng thái phát triển tương lai của thông tin, hoặc n
ếu có thể dự đoán thì tỉ lệ rủi ro
rất cao. Khó khăn tiếp theo trong việc tổ chức thông tin hiệu quả là ước muốn giữ
những yếu tố liên quan gần nhau. Ví dụ, những chủ đề liên quan đến nhiều lĩnh

Wide Web chính là các kỹ thuật tìm kiếm thông tin. Quả thật, các hệ thống tìm
kiếm thông tin ngày càng phát triển về thuật toán, kỹ thuật tìm kiếm thông tin nhờ
có sự ra đời của Internet. Vì nhu cầu tìm kiếm thông tin của con người trên
Internet là một nhu cầu phổ biến, thiết thực, không thể thiếu nên các nhà phát triển
hệ thống tìm kiếm thông tin cũng phải nỗ lự
c để mang lại hiệu năng, hiệu quả cho
người sử dụng.
Chúng ta thấy rõ ràng là nghiên cứu tìm kiếm thông tin có truyền thống tập
trung vào tìm kiếm thông tin dạng văn bản
(
Text Retrieval
)
hay tài liệu văn
bản
(
Document Retrieval
)
. Trong một thời gian dài, tìm kiếm thông tin gần như
đồng nghĩa với tìm kiếm tài liệu hay tìm kiếm văn bản. Trong thời gian gần đây,
các viễn cảnh ứng dụng mới như ứng dụng trả lời câu hỏi
(
question answering
)
,
ứng dụng nhận dạng chủ đề
(
topic detection
)
, hay ứng dụng lưu vết
(

Theo lý thuyết, hệ thống tìm kiếm thông tin là một hệ thống thông tin. Nó
được
sử dụng để lưu trữ, xử lý, tra cứu, tìm kiếm, và phổ biến các yếu tố thông tin đến
người sử dụng. Hệ thống tìm kiếm thông tin thường thao tác với các dữ liệu dạng
văn bản và không có sự giới hạn về các yếu tố thông tin trong văn bản.
Hệ thống thông tin bao gồm một tập hợp các yếu tố thông tin, một tập các yêu
cầu, và một vài cơ ch
ế tìm kiếm để quyết định yếu tố thông tin nào liên quan đến
các yêu cầu. Theo nguyên tắc, mối quan hệ giữa các câu truy vấn và tài liệu có
được từ sự so sánh trực tiếp. Nhưng trên thực tế, sự liên quan giữa các câu truy
vấn và tài liệu xác định không phải được quyết định trực tiếp; mà gián tiếp bằng
cách : các tài liệu, yếu tố thông tin phải chuyển sang ngôn ngữ chỉ mục trước khi
xác định mức độ liên quan.
2.1.2.2. Cách th
ức hoạt động của hệ thống tìm kiếm thông tin
Hình 1 minh họa cấu trúc, cách hoạt động cơ bản của một hệ thống tìm kiếm
thông tin cổ điển.

Trích đoạn Ngữ liệu tiếng Việt Mô hình vec-tơ của hệ thống SMART Sử dụng mô hình vec-tơ Phân tích hệ thống đánh giá các hệ thống tìm kiếm thông tin
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status