Đồ án tốt nghiệp xây DỰNG bộ NGỮ LIỆU để ĐÁNH GIÁ BẰNG TIẾNG VIỆT và CHƯƠNG TRÌNH TRỢ - Pdf 22

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN HỆ THỐNG THÔNG TIN
TSÀN QUẾ HƯƠNG – 0112385
VÕ HỒ BẢO KHANH – 0112387
XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG
TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP
ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN
KHÓA LUẬN CỬ NHÂN TIN
HỌC

GIÁO VIÊN HƯỚNG DẪN
T.S HỒ BẢO QUỐC
NIÊN KHÓA 2001 - 2005
Ý KIẾN CỦA GIÁO VIÊN PHẢN BIỆN
………………………………………………………………………………………
….…………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………

Các thuật toán, phương pháp, quy trình chính được nghiên cứu, ứng dụng trong đề tài
_ Tìm hiểu về tìm kiếm thông tin (information retrieval), đánh giá các hệ thống tìm kiếm
thông tin (information retrieval systems evaluation)
_ Tìm hiểu cấu trúc của bộ ngữ liệu, phương pháp xây dựng bộ ngữ liệu của TREC (Text
REtrieval Conference)
_ Tìm hiểu và sử dụng các hệ thống tìm kiếm : SMART, IOTA ,Lucene,Terrier…
_ Xây dựng bộ ngữ liệu kiểm tra bằng tiếng Việt
_ Xây dựng một hệ chương trình phục vụ việc kiểm tra và đánh giá các hệ thống tìm
kiếm thông tin. Chương trình phải chạy được trên hai hệ điều hành : Windows và Linux,
chương trình viết bằng ngôn ngữ Java
Các công cụ, công nghệ chính được nghiên cứu, ứng dụng trong đề tài
Borland Jbuider X
Visual Studio . NET
Microsoft Visio 2003
Rational Rose
Microsoft Word, Power Point
Xác nhận của GVHD
Lời cám ơn


Chúng em xin chân thành cảm ơn các Thầy Cô Khoa Công nghệ Thông tin đã
hướng dẫn và giảng dạy rất nhiệt tình cho chúng em trong suốt bốn năm học ở
Trường Đại học Khoa học Tự nhiên. Những kiến thức mà chúng em đã học được
trên giảng đường sẽ là hành trang quý báu trên bước đường đời của chúng em.
Chúng em xin cảm ơn Thầy Hồ Bảo Quốc đã tạo cơ hội cho chúng em được
nghiên cứu học hỏi về lĩnh vực tìm kiếm thông tin bằng Tiếng Việt, một lĩnh vực
tương đối mới và hấp dẫn ở Việt Nam . Một lần nữa chúng em xin cảm ơn Thầy vì
Thầy đã tận tình hướng dẫn chúng em đề tài luận văn “Xây dựng bộ ngữ liệu dùng
để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ thống tìm
kiếm thông tin”.


tìm ki ế m thông

tin 13
1.2. T ổ ng

quan v ề

đ ánh giá

các

h ệ th ố ng

tìm ki ế m

thông tin 14
1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thông tin 14
1.2.2. Các tiêu chu ẩ n đượ c dùng

để đ ánh giá 15
1.2.3. Các



hình đ ánh giá 15
1.2.4. Các độ

đ o


li ệ u

đượ c ch



n

20
1.2.7. Ph ươ ng

pháp

đ

ánh

giá

t



m

quan tr ọ ng

c ủ a

k ế t

tìm ki

ế

m

thông

tin và

h ệ

th ố ng

tìm ki ế m thông tin

22
2.1.2. H ệ th ố ng tìm ki ế m thông

tin 25
2.1.2.1. Khái ni ệ m

v ề

h ệ th ố ng

tìm ki ế m thông

tin 25
2.1.2.2. Cách th ứ c


sánh tìm ki ế m thông

tin c ổ

đ i ể n

và tìm ki

ế

m

thông

tin trên

Web 29
2.1.4. So

sánh tìm ki ế m thông

tin

v ớ i tìm

ki ế m d ữ

li ệ u 30
2.1.5. Công

th ứ t


liên quan 32
2.1.6.1. Mô

hình Đạ

i

s ố

Bool 32
2.1.6.2. Mô

hình không

gian

vec-t ơ 33
2.2. Đ ánh giá

các

h ệ th ố ng

tìm ki ế m thông

đế

n

TREC

37
2.2.2.2. Th ủ t



c

đ ánh giá 39
2.2.2.3. Đ ánh giá

s ự

liên quan 40
2.2.3. Th ự c hi ệ n đ o

kh ả n ă ng

tìm ki ế m 41
2.2.3.1. Các

khái ni ệ m

v ề độ



thực thi

hệ

thống

tìm kiếm 44
2.2.3.3.2. Đường

cong

độ

bao

phủ



độ

chính xác

RP 45
2.2.3.3.3. Đường cong

RP

cho tập


về

độ

liên quan 49
2.2.3.4.3. Đánh giá

với độ

liên quan

nhiều

cấp

độ 51
2.2.3.4.4. Phương

pháp

đo

độ

bao

phủ

(R), độ


ng ữ

li ệ u

c ủ a TREC

56
2.2.4.2.1. Xây dựng tập

hợp các tài

liệu 57
2.2.4.2.2. Xây dựng

các chủ

đề 57
2.2.4.2.3. Xây dựng

bảng

đánh giá

liên quan chuẩn 58
2.3. Ng ữ li ệ u

ti ế ng Vi ệ t 59
2.3.1.


Ranh gi ớ i t



62
Ch ươ ng 3 : THI Ế T K Ế VÀ

CÀI

ĐẶ T

63
3.1. Xây d ự ng

b ộ

ng ữ

li ệ u

dùng

để đ ánh giá 63
3.1.1. Xây d ự ng

kho

ng ữ

li ệ u

3.1.3. Tách t



ti ế ng

Vi ệ t 65
3.1.4. Xây d ự ng

b ả ng

đ ánh giá 65
3.1.4.1. H ệ th ố ng

SMART 66
3.1.4.1.1. Giới thiệu

hệ thống

SMART 66
3.1.4.1.2. Quá trình tìm kiếm

thông

tin của SMART 66
3.1.4.1.3. Mô

hình vec-tơ của

hệ

3.2.1. Mô

t


h ệ th ố ng tr



giúp

đ ánh giá 74
3.2.1.1. hát

bi ể u

bài

toán

74
3.2.1.2. M ụ c tiêu 75
3.2.1.3. h ạ m vi 75
3.2.1.4. Ch ứ c

n ă ng 75
3.2.1.5. Tính kh ả d ụ ng 76


hệ

thống

IR

77
3.2.2.2.2. Chức năng

so

sánh

nhiều

hệ

thống

IR

77
3.2.2.2.3. Sơ đồ

use case 77
3.2.2.2.4. Sơ đồ tuần tự hoạt động usecase 79
3.3. Thi ế t

k ế h ệ

qu ả tr ả v ề ” 86
3.3.1.3. Ch ứ c

n ă ng

“ Đị nh d ạ ng

file

index” 87
3.3.1.4. Ch ứ c

n ă ng

“Th ự c thi

h ệ

th ố ng

IR” 87
3.3.1.5. Ch ứ c

n ă ng

“X ử

lý k ế t

qu ả tr ả v ề ” 87


ki ế n trúc

t ổ ng

th ể 88
3.3.2.1.1. Danh sách

các

l ớ p

đối

tượng 88
3.3.2.1.2. Lớp đối tượng thể hiện 88
3.3.2.1.3. Lớp đối tượng

xử

lý 91
3.3.2.1.4. Lớp đối tượng

lưu trữ

99
3.3.2.2. ơ đồ

ki ế n trúc




t ổ

ch ứ c

l ư u

tr



105
3.3.2.3.1. Mô

hình dữ

liệu 105
3.3.2.3.2. Sơ đồ logic dữ liệu 107
3.3.2.4. T ố

ch ứ c l ư u

tr


d ữ

lý điều

kiện để thực thi

hệ thống IR

128
3.3.2.6.7. Màn hình thực thi hệ thống (TH_ThucThiHT) 129
3.3.2.6.8. Màn hình định dạng kết quả (TH_DDKetQua) 130
3.3.2.6.9. Màn hình định dạng thông tin index (TH_DDIndex) 131
3.3.2.6.10. Màn hình đánh giá hệ thống (TH_KqDanhGia) 133
3.3.2.6.11. Màn hình xem đồ thị của hệ thống 136
3.3.2.6.12. Màn hình xem chi tiết (TH_XemChiTiet) 136
3.3.2.6.13. Màn hình so sánh hệ thống (TH_SoSanhHT) 138
3.3.2.7. Thi ế t

k ế h ệ th ố ng

l ớ p

đố

i

t ượ ng 139
3.3.2.7.1. Các lớp đối

tượng xử

lý 139


tìm ki ế m search4VN



h ệ

th ố ng

Lucene 177
4.4. Nh ậ n xét

ch ươ ng

trình

h ỗ

tr



đ ánh giá h ệ

th ố ng tìm ki ế m thông

tin 179
4.4.1. Ư u đ i ể m 179
4.4.2. Khuy ế t


Nó giúp xác định khả năng tìm kiếm của các hệ thống tìm kiếm thông tin từ đó mà
các tổ chức, công ty, trường học tạo ra hệ thống này có thể phát triển, thay đổi hệ
thống để đưa ra khả năng tìm kiếm thông tin tốt nhất. Ngoài ra, việc xác định các
hệ thống tìm kiếm thông tin hiệu quả rất hữu ích đối với người dùng, họ sẽ cảm
thấy tin tưởng vào kết quả tìm kiếm mà hệ thống tìm được. Xa hơn nữa, việc đánh
giá sẽ tạo ra một cuộc cách mạng trong lĩnh vực tìm kiếm thông tin; giúp đưa tìm
kiếm thông tin vào trong thế giới thực của đời sống. Chẳng hạn, khi các hệ thống
tìm kiếm thông tin tiến bộ chuyển từ nghiên cứu sang thế giới thực của cạnh tranh
thương mại thì những nhà thiết kế, nhà phát triển, người bán hàng, và những đại
diện bán hàng của các sản phẩm thông tin mới như sách điện tử, và các phương
tiện tìm kiếm (Search engines) … muốn biết sản phẩm của họ có cung cấp cho
những người sử dụng và người mua hàng tiềm năng các lợi thế cạnh tranh hay
không, sẽ được thỏa mãn nhu cầu thông tin này một cách dễ dàng, chính xác.
Khả năng tìm kiếm của hệ thống tìm kiếm thông tin chúng tôi vừa đề cập
được nghiên cứu ở nhiều cấp độ: thứ nhất là về khả năng xử lý tức thời gian tìm
kiếm và không gian lưu trữ hay còn gọi là hiệu năng; thứ hai là về khả năng tìm
kiếm hay hiệu quả của kết quả trả về; thứ ba là khả năng về hệ thống tức hệ thống
có thỏa mãn nhu cầu thông tin của người dùng hay không.
Hiện nay, trên thế giới đã có rất nhiều hệ thống đánh giá các hệ thống tìm kiếm
thông tin nhưng chủ yếu là đánh giá các hệ thống tìm kiếm thông tin tiếng Anh,
tiếng Pháp. Đối với tiếng Việt, theo chúng tôi được biết, chưa có một hệ thống nào
được dùng để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Nhưng theo xu
hướng phát triển của đất nước và nhu cầu tìm kiếm thông tin thì các hệ thống tìm
kiếm thông tin tiếng Việt bắt buộc phải tồn tại và phát triển. Vì vậy, Việt Nam
chúng ta rất cần các hệ thống được dùng để đánh giá hiệu năng, hiệu quả của các
hệ thống tìm kiếm thông tin tiếng Việt.
Do ý nghĩa to lớn của lĩnh vực nghiên cứu đánh giá này, chúng tôi đã quyết
định chọn đề tài đánh giá các hệ thống tìm kiếm thông tin. Chúng tôi nghĩ rằng hệ
thống đánh giá của chúng tôi sẽ là cơ sở để đánh giá tất cả các hệ thống tìm kiếm
thông tin, nhất là hệ thống tìm kiếm thông tin tiếng Việt. Chúng tôi cũng hy vọng

Tìm kiếm thông tin liên quan đến việc biểu diễn, lưu trữ, tổ chức và tiếp cận
các yếu tố thông tin (một tài liệu có thể có một hoặc nhiều yếu tố thông tin) [
1
].
Theo lý thuyết, không có giới hạn về các loại yếu tố thông tin trong tìm kiếm
thông tin. Trên thực tế, các loại yếu tố thông tin ngày càng trở nên đa dạng cùng
với sự phát triển của xã hội. Ngoài ra, một tập hợp các yếu tố thông tin được gọi là
hữu dụng khi và chỉ khi nó đầy đủ và luôn được cập nhật. Đầy đủ ở đây có nghĩa
là tập hợp này phải chứa một tỉ lệ lớn các yếu tố thông tin được xem là có khả
năng liên quan đến các lĩnh vực xác định. Hơn nữa, việc biểu diễn và tổ chức các
yếu tố thông tin nên cung cấp cho người dùng cách truy cập dễ dàng nhất đến
thông tin mà người đó quan tâm. Nhưng không may là tính chất của nhu cầu thông
tin người dùng không phải đơn giản. Chúng ta xem xét một ví dụ về một nhu cầu
thông tin hiển nhiên của người sử dụng trong ngữ cảnh tìm kiếm World Wide Web
hay chỉ là Web:
Tìm tất cả các trang hay tài liệu chứa thông tin về bệnh ung thư phổi và nguyên
nhân dẫn đến ung thư phổi, các tài liệu được xem là liên quan phải vừa nói đến các
triệu chứng ung thư phổi, vừa nói đến nguyên nhân dẫn đến căn bệnh này gồm cả
tác hại của việc hút thuốc và ô nhiễm môi trường.
Từ ví dụ trên, chúng ta thấy rõ ràng là sự mô tả đầy đủ nhu cầu thông tin người
dùng không thể được sử dụng trực tiếp để tìm kiếm trên bình diện của các phương
tiện tìm kiếm Web (Web Search Engine) hay hệ thống tìm kiếm thông tin (IR
system) hiện nay. Thay vào đó, người sử dụng phải dịch nhu cầu thông tin của
mình sang một câu truy vấn có thể được xử lý bằng phương tiện tìm kiếm hay hệ
thống tìm kiếm thông tin. Điều này tạo ra một tập các từ khóa tóm tắt mô tả nhu
cầu thông tin người dùng hay còn gọi là câu truy vấn. Dựa trên câu truy vấn của
người sử dụng, mục đích chính của hệ thống tìm kiếm thông tin là tìm kiếm các
thông tin hữu ích hay liên quan cho người sử dụng.
Vậy có thể nói một cách tổng quát, hệ thống tìm kiếm thông tin là một hệ
thống cho phép người sử dụng tìm kiếm tài liệu để thỏa mãn nhu cầu thông tin từ

product, cosine…); thành phần nào là tốt nhất cho lựa chọn thuật ngữ (loại bỏ
stopword, phương pháp lấy gốc từ stemming …); thành phần nào là tốt nhất trong
lựa chọn phương pháp đánh giá thuật ngữ (term weighting) như TF, IDF … (các
thành phần này sẽ được nói rõ hơn trong chương sau).
So sánh để biết người sử dụng cần danh sách các tài liệu trả về (ranked list) dài
cỡ bao nhiêu để họ có thể nhìn dễ dàng nhất. Đánh giá để biết hệ thống nào thật sự
tốt, người dùng có thể tin tưởng kết quả trả về được.
1.2.2. Các tiêu chuẩn được dùng để đánh giá
Hiện nay, trên thế giới có ba tiêu chuẩn được dùng để đánh giá hệ thống tìm
kiếm thông tin. Thứ nhất là tiêu chuẩn về tính hiệu quả tức sự chính xác, tính đầy
đủ của kết quả trả về so với mục đích tìm kiếm của người sử dụng, và giá trị vẫn
có thể đoán được trong các tình huống khác có nghĩa là khi đưa vào các câu truy
vấn khác, tập tài liệu khác thì hệ thống vẫn có thể tìm ra kết quả chính xác. Thứ
hai là tiêu chuẩn về hiệu năng, gồm có tốc độ tìm kiếm của thuật toán, khả năng
lưu trữ, thời gian trả về cho người sử dụng, thời gian lập chỉ mục, kích thước chỉ
mục… Thứ ba là tiêu chuẩn về khả năng sử dụng hệ thống tức là có thể nghiên
cứu, học hỏi trên hệ thống tìm kiếm, người không biết tin học hay các chuyên gia
tin học đềi có thể sử dụng hệ thống.
1.2.3. Các mô hình đánh giá
Theo chúng tôi được biết, trên thế giới có tất cả bốn mô hình đánh giá các hệ
thống tìm kiếm thông tin. Chúng bao gồm : đánh giá hộp kính, đánh giá hộp đen,
đánh giá hướng hệ thống, đánh giá hướng người dùng hay còn gọi là đánh giá
nghiên cứu người dùng [
2
].
Đánh giá hộp kính (glass box evaluation) : đánh giá hệ thống dựa trên
việc đánh giá tất cả mọi thành phần của hệ thống. Có nghĩa là khi biết rõ

các thành phần của hệ thống, chúng ta tiến hành đánh giá các thành phần đó.
Đánh giá hộp đen (black box evaluation) : đánh giá hệ thống bằng cách

mức độ hài lòng của người sử dụng… Hướng nghiên cứu này cho rằng nhu
cầu của người dùng được thoả mãn tương đương với hiệu quả của hệ thống.
Chỉ khi nhu cầu thông tin người dùng được thỏa mãn, khi ấy tìm kiếm
thông tin mới được gọi là có ích. Hội nghị quốc tế về Tìm kiếm Thông tin
trong Ngữ cảnh (Information Seeking in Context) được tổ chức như là
một diễn đàn cho các nhà nghiên cứu lĩnh vực này khám phá các phương
pháp và các kết quả nghiên cứu. Một hội nghị khác mới được thành lập tên
là Nhóm Quan tâm Đặc biệt (Special Interest Group - SIG) đến tìm kiếm,
nhu cầu và sử dụng thông tin của Xã hội Hoa Kỳ về Khoa học Thông tin
(American Society of Information Science). Những hội nghị này cũng
tương tự như TREC trong việc cố gắng khuyến khích nghiên cứu hướng
người dùng, để phát triển mối liên hệ giữa các nhà nghiên cứu trong kỹ
thuật, giáo dục và chính phủ, và để xác định, cải tiến các kỹ thuật tìm kiếm
thích hợp. Nhưng các hội nghị này khác nhau ở chỗ các hội nghị mới chưa
có phương pháp luận đánh giá chuẩn nào được xúc tiến. Đánh giá hướng
người dùng có đóng góp rất lớn đến lĩnh vực tìm kiếm thông tin. Đóng góp
này gồm có việc xác định cách thức tìm kiếm thông tin của con người, nối
liền khoảng cách giữa nhu cầu thông tin giữa các cá nhân và các hệ thống
tìm kiếm thông tin, dẫn đến một thế hệ mới của các hệ thống tìm kiếm
thông tin bao gồm các giao diện đồ hoạ máy tính-người sử dụng.
Hiện nay, trong số bốn mô hình trên thì hai mô hình đánh giá hướng hệ thống
và hướng người dùng đang được sử dụng chính và rộng rãi nhất. Trong phạm vi đề
tài của chúng tôi, chúng tôi chỉ sử dụng mô hình đánh giá hướng hệ thống vì mô
hình đánh giá hướng người dùng cần có sự hợp tác của rất nhiều người dùng để
lấy thông tin phản hồi sau khi sử dụng hệ thống tìm kiếm thông tin đó hoặc cần
phải tham gia trao đổi về hiệu năng tìm kiếm tại các hội nghị. Nhưng các hội nghị
dành cho mô hình đánh giá hướng người dùng đa số chưa có một phương pháp
luận cụ thể nào dùng để đánh giá. Ngoài ra, với mô hình hướng hệ thống, chúng
tôi có thể xây dựng ứng dụng để đánh giá nhiều hệ thống tìm kiếm thông tin một


• Tập câu truy vấn mẫu là những câu hỏi được tạo ra phù hợp với tập tài liệu
mẫu. Tập câu truy vấn này sau đó sẽ được sử dụng để tìm kiếm.
• Bảng đánh giá liên quan chuẩn là bảng chứa thông tin về số thứ tự câu hỏi
và các tài liệu liên quan thật sự của câu hỏi đó. Bảng Đánh giá liên quan
chuẩn được dùng như là bảng đối chiếu để tính độ bao phủ và độ chính xác.
Có nhiều cách khác nhau để tạo bảng đánh giá liên quan chuẩn hay bảng
Relevance judgment. Các phương pháp này gồm có:
 Phương pháp đánh giá toàn bộ, phương pháp này thường không khả
thi vì tỉ lệ tập câu hỏi*tập tài liệu là quá lớn. Phương pháp này rất tốn
chi phí.
 Phương pháp Pooling hay còn gọi là phương pháp lấy một số tài liệu
liên quan nhất để làm bảng đánh giá liên quan chuẩn. Phương pháp này
sử dụng tốt cho đánh giá nhiều hệ thống tìm kiếm thông tin. Phương
pháp này đòi hỏi phải có một sự đa dạng các hệ thống tìm kiếm thông
tin. Bước đầu tiên của phương pháp này là tìm thấy các tài liệu liên
quan cho mỗi hệ thống. Các hệ thống khác nhau tìm thấy các tài liệu
liên quan khác nhau. Bước tiếp theo là tổng hợp các kết quả của tất cả
các hệ thống lại và lấy phần giao của các bảng đánh giá liên quan của
các hệ thống. Nhưng phần giao này có thể chỉ là một số lượng nhất định
các tài liệu gần như chính xác nhất. Việc đánh giá dựa trên phương pháp
này thật sự khách quan khi đánh giá các hệ thống không được chọn để
giao lấy bảng Đánh giá liên quan chuẩn.
 Phương pháp đánh giá hướng dẫn chỉ tìm kiếm thỉnh thoảng cho kết
quả tốt. Phương pháp này cho phép tương tác giữa nghiên cứu truy vấn,
tìm kiếm, đánh giá. Tăng cường thêm bằng cách xem lại, điều chỉnh,
đánh giá lại. Nói chung, khi sử dụng phương pháp này, người đánh giá
phải thao tác bằng tay rất nhiều, xem các tài liệu trả về có thật sự là liên

quan hay chưa để đưa vào bảng Đánh giá liên quan chuẩn.
 Các đánh giá dựa trên những thành phần đã biết, phương pháp này

nhau. Điều này còn có ý nghĩa rất lớn trong tìm kiếm thông tin vì chúng ta có thể
sử dụng hệ thống tìm kiếm hiệu quả của nước ngoài để tìm kiếm thông tin tiếng
Việt.
1.2.7. Phương pháp đánh giá tầm quan trọng của kết quả trả về
Các độ đo thực hiện toàn bộ hệ thống tìm kiếm chủ yếu được lấy trung bình
trên tập câu hỏi. Vì tính chất biến đổi của các câu hỏi là rất lớn, và sự thay đổi của
các độ đo tính toán là rất cao, nên đòi hỏi một phương pháp phân tích thống kê
thích hợp để đánh giá xem sự khác biệt được đo giữa các hệ thống có phải là có ý
nghĩa thống kê đến một độ tin cậy nhất định không. Vì vậy, phương pháp đánh giá
tầm quan trọng của kết quả trả về được sử dụng là phương pháp thống kê.
Chương 2 : CƠ SỞ LÝ THUYẾT
2.1. Tìm kiếm thông tin và các hệ thống tìm kiếm thông tin
2.1.1. Lịch sử tìm kiếm thông tin và hệ thống tìm kiếm thông tin
Tìm kiếm thông tin có một lịch sử lâu đời gắn liền với các thư viện và trung
tâm tìm kiếm thông tin. Trước đây, khi mà máy tính và internet chưa ra đời, những
người có nhu cầu thông tin ngoài việc nhờ sự trợ giúp thông tin từ bạn bè, người
thân còn có thể tìm đến thư viện hoặc các trung tâm thông tin để tìm kiếm thông
tin cần thiết. Cách biểu diễn, lưu trữ, tổ chức và phổ biến thông tin của thư viện
được xem là cách làm truyền thống của một hệ thống tìm kiếm thông tin. Thư viện,
khi tiếp nhận các yếu tố thông tin hay tài liệu mới, trước hết là phân tích yếu tố
thông tin đó. Sau đó, những mô tả thích hợp sẽ được chọn ra để mô tả, phản ánh
nội dung của yếu tố thông tin đó. Dựa trên những mô tả này, mỗi yếu tố thông tin
sẽ được phân loại theo những thủ tục đã được thiết lập rồi sáp nhập vào tập hợp
các yếu tố thông tin đã tồn tại. Các thủ tục này được tạo ra để hệ thống hóa các
yêu cầu (các yêu cầu được thiết kế để thay thế cho một nhu cầu thông tin ) và để
so sánh những yêu cầu, truy vấn đó với mô tả của các yếu tố thông tin đã lưu trữ.
Việc so sánh này chính là cơ sở để quyết định các yếu tố thông tin thích hợp với
câu truy vấn tương ứng. Cuối cùng, một cơ chế tìm kiếm và phổ biến thông tin sẽ
được dùng để trả các yếu tố thông tin cần thiết đến người sử dụng hệ thống.
Tuy nhiên, chúng ta phải xem xét vấn đề nảy sinh về vị trí thật sự của một yếu

mà việc lưu trữ, tìm kiếm thông tin trở nên dễ dàng hơn. Máy tính có thể thao tác
trên tất cả các loại thông tin và có thể lưu trữ một cách nhanh chóng một số lượng
thông tin khổng lồ. Ngoài ra, cơ chế tìm kiếm thông tin trên máy tính có thể rất
nhanh chóng và hiệu quả tùy thuộc mô hình cài đặt, thuật toán của cơ chế đó. Cơ
chế tìm kiếm này cũng khá giống với cơ chế tìm kiếm thông tin của thư viện.
Trước hết, dựa trên ngôn ngữ chỉ mục và các yếu tố thông tin đại diện cho nội
dung của tài liệu, tập tài liệu sẽ được biểu diễn dưới dạng tập hợp các chỉ mục đại
diện cho tập tài liệu đó. Trong khi đó, nhu cầu tìm kiếm thông tin được biểu diễn
dưới dạng câu truy vấn có cấu trúc hoặc không cấu trúc mà máy có thể hiểu được.
Sau đó, máy sẽ so sánh hai dạng biểu diễn trên, biểu diễn tài liệu và biểu diễn câu
truy vấn, để biết được tài liệu nào phù hợp với truy vấn nào. Sau khi so sánh, máy
sẽ định vị được vị trí vật lý của yếu tố thông tin cần tìm kiếm và phổ biến nó đến
người sử dụng. Đây là cơ chế tìm kiếm chung cho mọi hệ thống tìm kiếm thông tin.
Tuy nhiên, cách đây không quá 20 năm, sau khi máy tính ra đời, các hệ thống
tìm kiếm thông tin chủ yếu được sử dụng trong phòng thí nghiệm để tìm kiếm một
kho ngữ liệu sách và tài liệu. Mặc dù chúng không bao hàm các phương pháp toán
phức tạp, nhưng khi Internet phát triển thì kỹ thuật tìm kiếm chủ yếu trên World
Wide Web chính là các kỹ thuật tìm kiếm thông tin. Quả thật, các hệ thống tìm
kiếm thông tin ngày càng phát triển về thuật toán, kỹ thuật tìm kiếm thông tin nhờ
có sự ra đời của Internet. Vì nhu cầu tìm kiếm thông tin của con người trên
Internet là một nhu cầu phổ biến, thiết thực, không thể thiếu nên các nhà phát triển
hệ thống tìm kiếm thông tin cũng phải nỗ lực để mang lại hiệu năng, hiệu quả cho
người sử dụng.
Chúng ta thấy rõ ràng là nghiên cứu tìm kiếm thông tin có truyền thống tập
trung vào tìm kiếm thông tin dạng văn bản (Text Retrieval) hay tài liệu văn
bản (Document Retrieval). Trong một thời gian dài, tìm kiếm thông tin gần như
đồng nghĩa với tìm kiếm tài liệu hay tìm kiếm văn bản. Trong thời gian gần đây,
các viễn cảnh ứng dụng mới như ứng dụng trả lời câu hỏi (question answering),
ứng dụng nhận dạng chủ đề (topic detection), hay ứng dụng lưu vết (tracking)
trở thành các lĩnh vực hoạt động mạnh mẽ trong nghiên cứu tìm kiếm thông tin.

thông tin cổ điển.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status