TRNG I HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
B MÔN H THNG THÔNG TIN SINH VIÊN THC HIN
NGUYN TRN THIÊN THANH - TRN KHI HOÀNG TÌM HIU CÁC HNG TIP CN
BÀI TOÁN PHÂN LOI VN BN VÀ
XÂY DNG PHN MM
PHÂN LOI TIN TC BÁO IN T
KHÓA LUN C NHÂN TIN HC Tp.HCM, 2005
TRNG I HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
Vit Thành và thy Nguyn Thanh Hùng đã tn ty hng dn, đng viên,
giúp đ chúng em trong sut thi gian thc hin đ tài.
Chúng em xin chân thành cm n quý Thy Cô trong Khoa Công Ngh
Thông Tin truyn đt kin thc quý báu cho chúng em trong nhng nm hc
va qua.
Chúng con xin nói lên lòng bit n đi vi Ông Bà, Cha M luôn là ngun
chm sóc, đng viên trên mi bc
đng hc vn ca chúng con.
Xin chân thành cám n các anh ch và bn bè đã ng h, giúp đ và đng
viên chúng em trong thi gian hc tp và nghiên cu.
Mc dù chúng em đã c gng hoàn thành lun vn trong phm vi và kh
nng cho phép nhng chc chn s không tránh khi nhng thiu sót. Chúng
em kính mong nhn đc s cm thông và tn tình ch bo ca quý Thy Cô
và các bn.
Sinh viên thc hin,
Nguyn Trn Thiên Thanh & Trn Khi Hoàng
07/2005 ii
LI NÓI U
Trong nhng nm gn đây, s phát trin vt bc ca công ngh thông tin đã
làm tng s lng giao dch thông tin trên mng Internet mt cách đáng k đc bit
iii
cách nhanh chóng nh hin nay, phn mm phân loi vn bn t đng ca chúng
em còn có kh nng ng dng cho nhiu loi trang báo đin t ting Vit khác.
Ni dung ca lun vn đc trình bày bao gm 8 chng; trong đó, 3 chng
đu trình bày các hng tip cn cho phân loi vn bn và tách t ting Vit hin
nay; 2 chng tip theo trình bày hng tip cn ca lun v
n đi vi phân loi vn
bn và tách t ting Vit; 3 chng cui trình bày h thng th nghim vn bn,
ng dng vào phân loi tin tc bán t đng, và cui cùng là đánh giá, kt lun quá
trình nghiên cu ca lun vn.
Ü Chng 1. Tng quan: gii thiu s lc v các phng pháp phân loi vn
bn và các hng tip cn cho vic tách t ti
ng Vit; đng thi xác đnh
mc tiêu ca đ tài.
Ü Chng 2. Mt s phng pháp phân loi vn bn: gii thiu tóm tt mt
s phng pháp phân loi vn bn dành cho ting Anh.
Ü Chng 3. Phng pháp tách t ting Vit hin nay: trình bày tóm tt
mt s phng pháp tách t ting Vit hin nay, u đim và hn ch ca các
ph
ng pháp đó.
Ü Chng 4. Phng Tách t Ting Vit không da trên tp ng liu
đánh du (annotated corpus) hay t đin (lexicon) – Mt thách thc:
trình bày phng pháp tách t ting Vit mi ch da vào vic thng kê t
Internet thông qua Google mà không cn bt k t đin hay tp ng liu nào.
Ü Chng 5. Bài toán phân loi tin tc báo đin t: trình bày hng tip c
n
cho bài toán phân loi tin tc báo đin t.
v
MC LC
Chng 1. TNG QUAN 2
1.1. t vn đ 2
1.2. Các phng pháp phân loi vn bn 2
1.3. Tách t Ting Vit – Mt thách thc thú v 3
1.4. Mc tiêu ca lun vn 5
1.4.1. Phn tìm hiu các thut toán phân loi vn bn 5
1.4.2. Phn tách t ting Vit 5
1.4.3. Phn mm phân loi tin tc báo đin t bán t đng 5
1.4.4. óng góp ca lun vn 6
Chng 2. CÁC PHNG PHÁP PHÂN LOI VN BN TING ANH 8
2.1. Bi cnh các phng pháp phân loi vn bn hin nay 8
2.2. Các phng pháp phân loi vn bn ting Anh hin hành 8
2.2.1. Biu din vn bn 8
2.2.2. Support vector Machine(SVM) 10
2.2.3. K–Nearest Neighbor (kNN) 12
4.2. Các nghiên cu v thng kê da trên Internet 40
4.2.1. Gii thiu 40
4.2.2. Mt s công trình nghiên cu v thng kê da trên Internet 41
4.2.3. Nhn xét 43
4.3. Các phng pháp tính đ liên quan gia các t da trên thng kê 43
4.3.1. Thông tin tng h và t-score dùng trong ting Anh 44
4.3.2. Mt s ci tin trong cách tính đ liên quan ng dng trong tách t ting
Hoa và ting Vit 46
4.3.3. Nhn xét v các cách tính đ liên quan khi áp dng cho ting Vit 48
4.4. Tin x lý (Pre-processing) 49
4.4.1. X lý vn bn đu vào 49
4.4.2. Tách ng & tách stopwords 50
4.5. Hng tip cn tách t da trên thng kê t Internet và thut toán di truyn
(Internet and Genetic Algorithm - based ) 51
4.5.1. Công c trích xut thông tin t Google 51
4.5.2. Công c tách t dùng thut toán di truyn (Genetic Algorithm – GA) 53
4.6. Kt lun 61
Chng 5. BÀI TOÁN PHÂN LOI TIN TC IN T 63
5.1. Lý do chn phng pháp Naïve Bayes 63
5.2. Thut toán Naïve Bayes 64
5.2.1. Công thc xác sut đy đ Bayes 64
vii
5.2.2. Tính đc lp có điu kin (Conditional Independence) 65
5.2.3. Ngun gc thut toán Naïve Bayes 65
5.2.4. Phng pháp Naïve Bayes trong phân loi vn bn 66
5.2.5. Hai mô hình s kin trong phân loi vn bn bng phng pháp Naïve
Bayes 68
viii
Chng 7. NG DNG PHÂN LOI TIN TC IN T T NG 99
7.1. Gii thiu tòa son báo đin t 99
7.2. Tính cn thit ca phân loi tin tc t đng 99
7.3. Phân tích hin trng 100
7.3.1. Mô hình DFD quan nim cp 2 hin hành cho ô x lý Nhn bài và Tr bài
100
7.3.2. Phê phán hin trng 103
7.3.3. Mô hình DFD quan nim cp 2 mi cho ô x lý Nhn bài và Tr bài 104
7.4. Trin khai DLL 105
7.5. Chng trình cài đt “Tòa son báo đin t” đã tích hp module phân loi tin
tc 106
7.6. Kt qu 110
Chng 8. TNG KT 112
8.1. Kt qu đt đc 112
8.1.1. V mt lý thuyt 112
8.1.2. V mt thc nghim 113
8.2. Hn ch và hng phát trin 113
8.3. Kt lun 114
ix
DANH SÁCH HÌNH
Hình 2. 1. Biu din vn bn 9
Hình 2. 2. Siêu mt phng h phân chia d liu hun huyn thành 2 lp + và – vi khong
cách biên ln nht. Các đim gn h nht là các vector h tr ,Support Vector (đc
khoanh tròn) 11
Hình 2. 3. Hình Kin trúc mô đun (Modular Architecture) . Các kt qu ca tng mng con
Hình 7. 2. Mô hình DFD ci tin 104
Hình 7. 3. Màn hình ly tin tc cho phép phân loi t đng 106
Hình 7. 4. Màn hình bt đu. Click Next đ bt đu cài đt 107
Hình 7. 5.Màn hình chn ch đ cài đt hoc tháo g chng trình 107
Hình 7. 6.Màn hình chn đng dn đ cài đt chng trình. 108
Hình 7. 7.Màn hình cài đt chng trình 108
Hình 7. 8.Màn hình chn chc nng g chng trình 109
Hình 7. 9.Màn hình g chng trình thành công 109
xi
DANH SÁCH BNG
Bng 3. 1. So sánh gia ting Vit và ting Anh 23
Bng 4. 1. Thng kê đ dài t trong t đin 54
Bng 4. 2. Tham s thc hin GA 56
Bng 6. 1. Mô t mt s control ca màn hình tách t 79
Bng 6.2. Mô t mt s control ca màn hình trích t Google 80
Bng 6.3. Bng mô t mt s control ca màn hình phân loi tin tc đin t 81
Bng 6. 4. Tham s s dng dch v Google 82
Bng 6. 5. Mt s câu truy vn đc bit ca Google 83
Bng 6. 6. Kt qu thc nghim các công thc tính đ tng h MI 87
Bng 6. 7. Bn trng hp ca phân loi vn bn 90
Bng 6. 8. Kt qu phân loi vn bn cho tng ch đ 94
Bng 7. 1. Bng kho d liu nhng bài vit cha đc đng 102
Bng 7. 2. Bng mô t các ô x lý ca mô hình DFD hin hành 103
N
N
G
GQ
Q
U
U
A
A
N
N
t vn đ
Các phng pháp phân loi vn bn
Tách t ting Vit – Mt thách thc thú v
Mc tiêu ca lun vn
Phn tìm hiu các thut toán phân loi vn bn
Phn tách t ting Vit
Phn mm phân loi tin tc báo đin t bán t đng
2
Chng 1. TNG QUAN
based [Shankar and Karypis, 1998]. Các phng pháp trên đu da vào xác sut
3
thng kê hoc thông tin v trng s ca t trong vn bn. Chi tit v ý tng và
công thc tính toán ca mi phng pháp s đc chúng em trình bày chng 3,
mc 3.3.
Mi phng pháp phân loi vn bn đu có cách tính toán khác nhau, tuy nhiên,
nhìn mt cách tng quan thì các phng pháp đó đu phi thc hin mt s bc
chung nh sau: đu tiên, mi phng pháp s da trên các thông tin v s xut hi
n
ca t trong vn bn (ví d tn s, s vn bn cha t…) đ biu din vn bn thành
dng vector; sau đó, tu tng phng pháp mà ta s áp dng công thc và phng
thc tính toán khác nhau đ thc hin vic phân loi.
i vi ting Anh, các kt qu trong lnh vc này rt kh quan, còn đi vi ting
Vit, các công trình nghiên cu v phân lo
i vn bn gn đây đã có mt s kt qu
ban đu nhng vn còn nhiu hn ch. Nguyên nhân là ngay bc đu tiên, chúng
ta đã gp khó khn trong vic x lý vn bn đ rút ra tn s xut hin ca t. Trong
khi đó, đ phân loi vn bn thì có th nói bc đu tiên là quan trng nht bi vì
nu bc tách t đ
ã sai thì vic phân loi hu nh không th thành công đc.
Phn trình bày tip theo s cho chúng ta bit nhng thách thc đt ra trong vic tách
t ting Vit, cng nh nhng ng dng thú v ca nó.
1.3. Tách t Ting Vit – Mt thách thc thú v
i vi ting Anh, “t là mt nhóm các ký t có ngha đc tách bit vi nhau
bi khong trng trong câu” (Webster Dictionary), do vy vic tách t tr nên rt
đn gin. Trong khi đi vi ting Vit, ranh gii t không đc xác đnh mc đnh
là khong trng mà tùy thuc vào ng cnh dùng câu ting Vit. Ví d các t trong
ngày nay, ngôn ng còn tip tc phát trin và thay đi tng ngày. Xét v mt ph
bin, ti
ng Anh là ngôn ng đc dùng rng rãi trong giao dch trên th gii. Do đó
đ to ra mt tp ng liu ting Anh tha các tiêu chí chn mu ng liu là không
quá phc tp. Trong khi đó, Vit Nam ch mi cho phép truy cp Internet trong
vòng chc nm tr li đây, do đó s lng trang web ting Vit là không nhiu. Cho
đn nay, vn cha có mt tp ng liu hun luyn chun nào dành cho vic tách t
và phân loi trang web ting Vit đc công b.
Gn đây, mt phng pháp tách t mi đc gii thiu có u đim là không cn
dùng tp ng liu hay t đin đ ly thông tin thng kê hay trng s ca t, đó là
phng pháp Internet and Genetics Algorithm-based Text Categorization
(IGATEC) ca H. Nguyen et al (2005). im sáng to ca thut toán là kt hp
thut toán di truyn vi vic trích xut thông tin th
ng kê t Internet thông qua mt
công c tìm kim (nh Google chng hn) thay vì ly t tp ng liu nh các
phng pháp trc.
5
Chúng em thc hin bc tách t trong lun vn này da trên ý tng ca thut
toán IGATEC nhng có b sung nhiu ci tin đáng k đ tng đ chính xác đng
thi thc hin các thí nghim chi tit nhm so sánh các cách áp dng thut toán đ
tìm ra cách ti u nht.
1.4. Mc tiêu ca lun vn
1.4.1. Phn tìm hiu các thut toán phân loi vn bn
Trong khuôn kh lun vn này, chúng em tìm hiu mc c bn mt s phng
pháp phân loi vn bn hin có đang áp dng cho ting Anh và đa ra mt s so
sánh nht đnh gia các phng pháp: Support Vector Machine (Joachims, 1998), k-
, khó đáp ng đc hoàn toàn vic cho phép các sinh viên
lên mng Internet đ xem các tin tc mi hng ngày. gii quyt phn nào vn đ
trên, chúng ta có th chn lc mt s tin tc t các ngun khác, đng ti trên trang
web ni b ca trng. Trên c s đó, chúng em tích hp phn mm phân loi tin
tc báo đin t t đng vào toà son báo đin t cho phép ly tin t
đng t các
trang web khác. Nh vy, công vic ly tin và phân loi tin tc gi đây đã tr nên
rt d dàng và nhanh chóng, tit kim nhiu công sc và thi gian cho nhà qun tr.
Không ch ng dng cho các trng đi hc, phn mm phân loi tin tc ca
chúng em còn có th ng dng, h tr cho nhiu công vic khác nh : lu tr
(clipping) báo chí, xây dng b ng liu cho các bài toán cn d
liu đc phân
loi, tin đ cho các bài toán khác nh phân loi website.
1.4.4. óng góp ca lun vn
Lun vn đã thc hin vic đc nhiu ci tin ca hng tip cn tách t ting
Vit dùng trong phân loi vn bn theo phng pháp da trên thng kê Internet.
i vi tách t ting Vit, chúng em đ ngh thêm mt công thc tính toán đ
tng h mi, t đó thc hin th nghim tính hiu qu ca cách tính này so vi
cách công thc nh
ng công trình khác.
Trong quá trình xây dng thut toán di truyn dùng trong tách t, chúng em đã
ci tin hình thc đt bin mi phù hp vi hình thc cu to t trong câu.
i vi vic phân loi vn bn, chúng em ci tin công thc tính trong hng
tip cn Naïve Bayes phù hp vi phng pháp tính da trên thng kê t Google.
H
H
N
N
G
GP
P
H
H
Á
Á
P
PP
P
H
H
Â
Â
N
N
I
I
N
N
G
GA
A
N
N
H
H
Bi cnh các phng pháp phân loi vn bn hin nay
Các phng pháp phân loi vn bn ting Anh hin hành
Biu din vn bn
Support vector Machine (SVM)
K–Nearest Neighbor (kNN)
Naïve Bayes (NB)
Neural Network (NNet)
Linear Least Square Fit (LLSF)
2.2. Các phng pháp phân loi vn bn ting Anh hin hành
2.2.1. Biu din vn bn
Bc đu tiên ca mi phng pháp phân loi là chuyn vic mô t vn bn
dùng chui ký t thành mt dng mô t khác, phù hp vi các thut toán hc theo
mu và phân lp. Hu ht các thut toán đu s dng cách biu din vn bn s
dng vector đc trng, s khác nhau có chng là vic chn không gian đc trng
khác nhau. Vì vy phn này chúng em s trình bày s lc v
vector đc trng.
9
Ý tng chính là xem mi vn bn
i
d tng ng là mt vector đc trng
()
12
( ), ( ), , ( )
in
d TFw TFw TFw
iif
trong không gian các t
n
W (
i
w là mt t, mt đc
trng, tng ng mt chiu ca không gian). Gía tr ca
()
i
TF w chính là s ln xut
(w )TFIDF thay cho ()
i
TF w :
( ) log( )
()
i
i
m
IDF w
DF w
=
() (). ()
iii
TFIDF w TF w IDF w
=
Vi
Ü m chính là s vn bn hun luyn
10
Ü DF(w
i
) là s vn bn có cha t
i
w .
Mt vn đ ny sinh khi biu din vn bn theo hng vector đc trng chính là
vic chn đc trng và s chiu cho không gian. Cn phi chn bao nhiêu t và
11
2.2.2.1. Ý tng
Cho trc mt tp hun luyn đc biu din trong không gian vector trong đó
mi tài liu là mt đim, phng pháp này tìm ra mt siêu mt phng
h quyt đnh
tt nht có th chia các đim trên không gian này thành hai lp riêng bit tng ng
lp + và lp –. Cht lng ca siêu mt phng này đc quyt đnh bi khong
cách (gi là biên) ca đim d liu gn nht ca mi lp đn mt phng này.
Khong cách biên càng ln thì mt phng quyt đnh càng tt đng thi vic phân
lo
i càng chính xác. Mc đích thut toán SVM tìm đc khong cách biên ln nht.
Hình sau minh ha cho thut toán này :
Hình 2. 2. Siêu mt phng h phân chia d liu hun huyn thành 2 lp + và –
vi khong cách biên ln nht. Các đim gn h nht là các vector h tr
,Support Vector (đc khoanh tròn)
2.2.2.2. Công thc chính
SVM thc cht là mt bài toán ti u, mc tiêu ca thut toán này là tìm đc
mt không gian H và siêu mt phng quyt đnh h trên H sao cho sai s phân loi là
thp nht
Phng trình siêu mt phng cha vector
i
d trong không gian nh sau :
0=+⋅ bwd
i
t
1
±
=
i
y ,
i
y = + 1, vn bn
i
d ∈ lp +;
i
y = - 1, vn bn
i
d ∈ lp - Khi này đ có siêu mt
phng h ta s phi gii bài toán sau :
Tìm Min
w vi w và b thõa điu kiên sau :
(
)
1)(:,1 ≥+⋅∈∀ bwdsignyni
ii
Bài toán SVM có th gii bng k thut s dng toán t Lagrange đ bin đi
thành dng đng thc.
im thú v SVM là mt phng quyt đnh ch ph thuc vào các vector h tr
(Support Vector) có khong cách đn mt phng quyt đnh là
w
1
. Khi các đim
khác b xóa đi thì thut toán vn cho kt qu ging nh ban đu. Chính đc đim