LUẬN VĂN TỐT NGHIỆP XÂY DỰNG HỆ THỐNG TÌM
KIẾM THÔNG TIN TIẾNG VIỆT
DỰA TRÊN CÁC CHỈ MỤC LÀ
CÁC TỪ GHÉP
Giáo viên hướng dẫn :
Sinh viên thực hiện : Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 1 Nguyn Trung Hiu - 0112216
I CM N
Chúng em xin gi li cm n chân thành nht n thy H Bo Quc, ngi ã
n tình hng dn, giúp chúng em trong sut thi gian thc hin lun vn này.
Chúng con cm n Cha, M và gia ình, nhng ngi ã dy d, khuyn khích,
ng viên chúng con trong nhng lúc khó khn, to mi u kin cho chúng con
nghiên cu hc tp.
Chúng em cm n các thy, cô trong khoa Công Ngh Thông Tin ã dìu dt,
ging dy chúng em, giúp chúng em có nhng kin thc quý báu trong nhng nm hc
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 3 Nguyn Trung Hiu - 0112216
NHN XÉT CA GIÁO VIÊN PHN BIN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……nm 2005
Ký tên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 4 Nguyn Trung Hiu - 0112216
C LC
DANH SÁCH CÁC BNG...................................................................................8
DANH SÁCH CÁC HÌNH V..............................................................................8
Phn 1 : TÌM HIU LÝ THUYT..........................................................................11
Chng 1: TNG QUAN V TÌM KIM THÔNG TIN...................................11
4.2 Vn bng mã ting Vit.........................................................................27
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 5 Nguyn Trung Hiu - 0112216
4.3 Các khó khn khác.....................................................................................27
Chng 3: TÁCH T TNG........................................................................29
1. Tách t trong Ting Anh .................................................................................29
2. Tách t trong Ting Vit .................................................................................29
2.1 Mt sc m chính v t ting Vit [2.2]..............................................29
2.1.1 Ting...................................................................................................29
2.1.2 T .......................................................................................................30
2.2 Tách t tng ting Vit .........................................................................30
3. Các phng pháp tách t ting Vit.................................................................30
3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30
3.1.1 Mô t...................................................................................................30
3.1.2 Áp dng tách t ting Vit...................................................................31
3.2 Longest Matching [1.4]..............................................................................37
3.3 Kt hp gia fnTBL và Longest Matching.................................................37
Chng 4: LP CH MC ..................................................................................38
1. Khái quát v h thng lp ch mc...................................................................38
2. Phng pháp lp ch mc [1.1]........................................................................38
2.1 Xác nh các t ch mc.............................................................................38
2.2 Các phng pháp tính trng s ca t........................................................40
2.2.1 Tn s tài liu nghch o....................................................................40
2.2.2 nhiu tín hiu (The Signal – Noise Ratio) ......................................40
2.2.3 Giá tr phân bit t (The Term Discrimination Value) .........................42
2.3 Lp ch mc tng cho tài liu ting Anh................................................43
3. Lp ch mc cho tài liu ting Vit..................................................................45
4. Tp tin nghch o tài liu ...............................................................................46
4.1 Phân bit gia tp tin nghch o và tp tin trc tip..................................46
1. Cu trúc lu tr d liu....................................................................................64
1.1 Tp tin lu ni dung tài liu.......................................................................64
1.1.1 Cu trúc DTD / XSD...........................................................................64
1.1.2 Tài liu XML ......................................................................................66
1.2 Tp tin sau khi tách t tài liu....................................................................67
1.2.1 Cu trúc DTD / XSD...........................................................................67
1.2.2 Tài liu XML ......................................................................................68
1.3 Tp tin cha các t không th hin ni dung ca vn bn (stop list)...........70
1.3.1 Cu trúc DTD / XSD...........................................................................70
1.3.2 Tài liu XML ......................................................................................71
1.4 Tp tin ch mc o ( Inverted ).................................................................71
1.4.1 Cu trúc DTD / XSD...........................................................................71
1.4.2 Tài liu XML ......................................................................................73
1.5 Tp tin sau khi tách t câu hi....................................................................74
1.5.1 Cu trúc DTD / XSD...........................................................................74
1.5.2 Tài liu XML ......................................................................................75
1.6 Tp tin cha các t ca câu hi sau khi loi b các t trong danh sách
StopList...........................................................................................................76
1.6.1 Cu trúc DTD / XSD...........................................................................76
1.6.2 Tài liu XML ......................................................................................77
1.7 Tp tin cha các t trong câu hi và các tài liu liên quan..........................77
1.7.1 Cu trúc DTD / XSD...........................................................................77
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 7 Nguyn Trung Hiu - 0112216
1.7.2 Tài liu XML ......................................................................................79
1.8 Tp tin cha tng quan gia câu hi và các tài liu.............................80
1.8.1 Cu trúc DTD / XSD...........................................................................80
1.8.2 Tài liu XML ......................................................................................82
2. Chi tit các lp i tng ................................................................................83
Nguyn Th Thanh Hà - 0112215 8 Nguyn Trung Hiu - 0112216
DANH SÁCH CÁC BNG
ng 1-1 So sánh IRS vi các h thng thông tin khác ..........................................................17
ng 4-1 Cách tp tin nghch o lu tr...............................................................................47
ng 4-2 Cách tp tin trc tip lu tr...................................................................................47
ng 4-3 Thêm mt tài liu mi vào tp tin nghch o.........................................................48
ng 5-1 Danh sách các Actor...............................................................................................50
ng 5-2 Danh sách các UseCase..........................................................................................50
DANH SÁCH CÁC HÌNH V
Hình 1-1 Môi trng ca h tìm kim thông tin.....................................................................13
Hình 1-2 Tng quan v chc nng ca mt h tìm kim thông tin..........................................14
Hình 2-1 H tìm kim thông tin tiêu biu...............................................................................18
Hình 3-1 Quá trình hc..........................................................................................................35
Hình 3-2 Giai n xác nh t cho tài liu mi.....................................................................36
Hình 4-1 Các tc sp theo th t ....................................................................................39
Hình 4-2 Quá trình chn t làm ch mc................................................................................45
Hình 5-1 S Use-case ca h thng...................................................................................49
Hình 5-2 S các lp th hin.............................................................................................51
Hình 5-3 S các lp x lý.................................................................................................52
Hình 5-4 S Use-case tách t............................................................................................53
Hình 5-5 S tun t tách t...............................................................................................53
Hình 5-6 S cng tác tách t.............................................................................................54
Hình 5-7 S lp tách t.....................................................................................................54
Hình 5-8 S use-case lp ch mc.....................................................................................55
Hình 5-9 S tun t to mi ch mc ................................................................................56
Hình 5-10 S tun t cp nht ch mc ............................................................................57
Hình 5-11 S cng tác to mi ch mc ............................................................................58
Hình 5-12 S cng tác cp nht ch mc...........................................................................59
Hình 5-13 S lp lp ch mc ...........................................................................................60
Hình 5-14 S use-case tìm kim .......................................................................................61
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 10 Nguyn Trung Hiu - 0112216
U
Trong thi i bùng n thông tin nh hin nay, thông tin c lu tr trên máy
tính ngày càng nhiu do ó vic tìm kim thông tin chính xác là nhu cu thit yu i
i mi ngi trong mi lnh vc. Internet hin nay ã tr thành mt kho t liu khng
mà vic tìm kim thông tin trên kho t liu này cn phi c h tr bi các công c
tìm kim (search engine) tt. Các h thng tìm kim thông tin thông dng nh Google,
Yahoo Search ã áp ng c phn nào nhu cu ó ca mi ngi. Tuy nhiên, các h
thng này c xây dng x lý và tìm kim các vn bn ting Châu Âu, chúng cha
tht s phù hp cho các vn bn ting Vit. Do ó nhu cu phi có mt công c tìm
kim “hiu” và x lý tt các vn bn tíng Vit.
Các h tìm kim thông tin u phi thc hin giai n lp ch mc (indexing)
cho vn bn trích các t ch mc (index term) biu din tt nht ni dung ca vn
n. Giai n này ph thuc vào ngôn ng ca vn bn và phng pháp x lý tng
ngôn ngó. Hin nay cha có nhiu h thng tìm kim thông tin trên kho tài liu
ting Vit có khai thác các c trng ca ting Vit cho vic lp ch mc.
Vì vy mc tiêu ca lun vn này nhm xây dng mt h thng tìm kim thông
tin bng ting Vit có s dng các kt qu ca x lý ngôn ng t nhiên tng xác
nh c các ch mc là các t (word) hay t ghép (compound word) ca ting Vit.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 11 Nguyn Trung Hiu - 0112216
Phn 1 : TÌM HIU LÝ THUYT
Chng 1: NG QUAN V TÌM KIM THÔNG TIN
1. Gii thiu v tìm kim thông tin
1.1 Khái nim v tìm kim thông tin
Tìm kim thông tin là tìm kim trong mt tp tài liu ly ra các thông tin mà
ngi tìm kim quan tâm.
1.2 t s vn trong vic tìm kim thông tin:
Hiu n gin thng tìm kim thông tin là mt h thng h tr cho ngi
dng tìm kim thông tin mt cách nhanh chóng và d dàng. Ngi s dng có
tha vào nhng câu hi, nhng yêu cu (dng ngôn ng t nhiên) và h thng s tìm
kim trong tp các tài liu (dng ngôn ng t nhiên) ã c lu tr tìm ra nhng
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 13 Nguyn Trung Hiu - 0112216
tài liu có liên quan, sau ó s sp xp các tài liu theo mc liên quan gim dn và
tr v cho ngi s dng.
3. Các thành phn ca mt h tìm kim thông tin [1.1]
m: tp các tài liu (DOCS) ã c lu tr trong kho d liu, tp các yêu cu
(REQS) ca ngi dùng, và mt s phng pháp tính tng quan (SIMILAR)
xác nh các tài liu áp ng cho các yêu cu.
Hình 1-1 Môi trng ca h tìm kim thông tin
Theo lý thuyt thì mi liên h gia các câu hi và các tài liu có th so sánh mt
cách trc tip. Nhng trên thc t thì u này không thc vì các câu hi và các tp
tài liu u dng vn bn, ch có con ngi c vào thì thy ngay c mi liên h
gia chúng, nhng ây ch là mt h thng máy móc không th suy lun nh con
ngi c. Chính vì th xác nh c mi liên h gia các câu hi và các tp tài
liu phi qua mt bc trung gian.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 14 Nguyn Trung Hiu - 0112216
Hình 1-2 Tng quan v chc nng ca mt h tìm kim thông tin
Trc ht chuyn i các câu hi thành các t riêng bit biu hin cho ni
dung ca câu hi gi là ngôn ng ch mc (Indexing language - LANG). Tách t trong
các tp tài liu và lp ch mc cho tài liu. Lúc này có th so sánh trc tip gia các t
a câu hi và các t ch mc ca tp tài liu. Và tó ta s d dàng hn xác nh
tng quan gia các câu hi và tp tài liu.
4. So sánh IRS vi các h thng thông tin khác
h tr ra quyt nh s da vào các tp lut c hc, t nhng lut ã hc
rút ra nhng lut mi, sau khi gp mt vn nó s cn c vào vào tp các lut a
ra nhng quyt nh thay cho con ngi.
thng này ang c áp dng nhiu cho công vic nhn dng và chun óan
nh.
4.4 tr li câu hi (QAS)
tr li câu hi cung cp vic truy cp n các thông tin bng ngôn ng t
nhiên. Vic lu tr c s d liu thng bao gm mt s lng ln các vn liên
quan n các lnh vc riêng bit và các kin thc tng quát. Câu hi ca ngi dùng có
th dng ngôn ng t nhiên. Công vic ca h tr li câu hi là phân tích câu truy
n ca ngi dùng, so sánh vi các tri thc c lu tr, và tp hp các vn có liên
quan li a ra câu tr li thích hp.
Tuy nhiên, h tr li câu hi ch còn ang th nghim. Vic xác nh ý ngha
a ngôn ng t nhiên dng nh vn là chng ngi ln có th s dng rng rãi h
thng này.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 17 Nguyn Trung Hiu - 0112216
4.5 So sánh IRS vi các h thng thông tin khác
IRS DBMS QAS MIS
Tìm kim
i dung
trong các tài
liu.
Các phn t
có kiu d
liu ã c
nh ngha.
Các s kin
rõ ràng.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 18 Nguyn Trung Hiu - 0112216
Chng 2: XÂY DNG MT H THNG TÌM KIM
THÔNG TIN
1. Kin trúc ca h tìm kim thông tin. [1.3]
t h thng thông tin tiêu biu nh sau:
Hình 2-1 H tìm kim thông tin tiêu biu
thng tìm kim thông tin gm có 3 b phn chính : b phn phân tích vn
n, b phn lp ch mc, b phn so khp và sp xp các tài liu tr v.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 19 Nguyn Trung Hiu - 0112216
(1) phn phân tích vn bn: b phn này có nhim v phân tích các vn
n thu thp c thành các t riêng bit. Tng t, khi ngi dùng nhp câu truy vn
thì câu truy vn cng c phân tích thành các t riêng bit.
(2) phn lp ch mc : các t trích c t các vn bn thu thp c s
c b phn này la chn làm các t ch mc. Các t ch mc phi là các t th
hin c ni dung ca vn bn.
(3) phn so khp và sp xp các tài liu tr v: Các t trích c t câu
truy vn và các t ch mc ca vn bn sc so khp vi nhau tìm ra các tài liu
liên quan n câu truy vn. Mi tài liu có mt tng quan vi câu hi. Các tài liu
này sc sp xp theo tng quan gim dn và tr v cho ngi s dng.
2. t s mô hình xây dng mt h tìm kim thông tin [1.2]
c tiêu ca các h thng tìm kim thông tin là tr v các tài liu càng liên
quan n câu hi càng tt. Vì th ngi ta ã a ra rt nhiu mô hình tìm kim nhm
tính toán mt cách chính xác tng quan này. Sau ây là mt s mô hình tìm kim
bn:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán tng quan gia câu hi và tài liu bng
cách nh ngha mt vector biu din cho mi tài liu, và mt vector biu din cho câu
n: s t phân bit trong tp tài liu
tf
ij
: s ln xut hin ca t t
j
trong tài liu D
i
(tn s)
df
j
: s tài liu có cha t t
j
idf
j
=
10
log
j
d
df
trong ó d là tng s tài liu
Vector c xây dng cho mi tài liu gm có n thành phn, mi thành phn là
giá tr trng sã c tính toán cho mi t trong tp tài liu. Các t trong tài liu
c gán trng s tng da vào tn s xut hin ca chúng trong tp tài liu và s
xut hin ca mi t trong mt tài liu riêng bit. Trng s ca mt t tng nu tó
xut hin thng xuyên trong mt tài liu và gim nu tó xut hin thng xuyên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 21 Nguyn Trung Hiu - 0112216
trong tt c các tài liu. tính trng s ca t th t
q2
, …, w
qn
)
w
qj
: là trng s ca t t
j
trong câu truy vn Q.
tng quan (SC: similarity coeficient) gia câu truy vn Q và tài liu D
i
c tính nh sau:
SC(Q,D
i
) =
ij
1
w*
n
qj
j
d
=
∑
2.2 Tìm kim Boolean
Mô hình tìm kim Boolean khá n gin. Câu hi a vào phi dng biu thc
Boolean. Ngha là phi tha:
Ø Ng ngha rõ ràng
Ø Hình thc ngn gn
Do các t hoc xut hin hoc là không xut hin, nên trng s w
, d
5
}. Phng pháp này có mt s khuyt m nh sau:
Ø Các tài liu tr v không c sp xp (ranking)
Ø Câu hi tìm kim òi hi phi úng nh dng ca biu thc Boolean gây
khó khn cho ngi dùng
Ø t qu tr v có th là quá ít hoc quá nhiu tài liu
2.3 Tìm kim Boolean m rng
Mô hình tìm kim Boolean không h tr vic sp xp kt qu tr v bi vì các
tài liu hoc tha hoc không tha yêu cu Boolean. Tt c các tài liu tha mãn u
c tr v, nhng không có s c lng nào c tính toán cho s liên quan ca
chúng i vi câu hi.
Mô hình tìm kim Boolean m rng ra i nhm h tr vic sp xp (ranking)
t qu tr v da trên ý tng c bn là ánh trng s cho mi t trong câu hi và
trong tài liu. Gi s mt câu hi yêu cu (t
1
OR t
2
) và mt tài liu D có cha t
1
vi
trng s w
1
và t
2
vi trng s w
2
. Nu w
1
và w
) =
2
= 1.414
a SC vào khong [0,1], SC c tính nh sau:
SC( Q
t1 v t2
, d
i
) =
22
12
(w) (w)
2
+
Công thc này gi s là câu hi ch có toán t OR . i vi toán t AND, thay
vì tính khong cách ti gc, ta s tính khong cách n m (1,1). Câu hi nào càng
n n m (1,1) thì nó càng tho yêu cu ca toán t AND:
SC(Q
t1 ^ t2
, d
i
) = 1-
22
12
(1-w ) (1 w )
2
+−
2.4 rng trong vic thêm vào trng s ca câu hi
u câu hi có trng s là q
1
)
2.4.1 rng cho s t tu ý
tính khong cách Euclide trong không gian a chiu, tham s p c s
ng. Tham s p ch s bin i tm quan trng ca trng s trong vic ánh giá
thích hp.
tng quan SC tng quát nh sau:
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 24 Nguyn Trung Hiu - 0112216
SC(D, Q
( q i v q j )
) =
1
p p pp
p
i i jj
pp
ij
qw
qq
qw
+
+
SC(D, Q
( q i ^ q j )
) = 1 -