Mục lục
Chương 1 : Mở đầu
!"#$%"&'()!
$$)*+,-)./)-,0/
'12$%*3456$78*9$*9#$
)0/0:$$8*97;$<$'
=>$$$"8/$?)$'=*9>$
)03)$@AB3)$C$9),*9*5/)8'
?)$.>$*9)::$:A/;
$DAE*8#3"*9#F3A5$FGHIJJ
>$0:A*94$-DE*8F3A5
A$$$FGKIJJ
=7*ALM23)$$/7$#*N-
&/,:<C./OP$QRST'UALE*5D!:
7$:.@- :8$.P$$!:-$
FV3A)J3)$D*W!:$:-$G3
<X $3A:*9:$8'?-:,):)O
Y7$Z&.-:56E)$YO)
.$8>*-*9*A$53:$M8@
3)$3#$/&/,-[535\B@$E>**9&$
&/
]]]F]A5B]5]J$!#!7*,0
E-7*)0A!#$:.^*9!)&L
7#-A)_)8)!>5Y6$*#<
*9)_)'KWA`aBbP$L;!3N3"*34
56/$:-O<>M8PZ3)$
*#<`.9)'?)$*A3>0:A*+$
_A_A:F>$0:A*+$*9$-DJ
'?)$<:!*3456"*7
$+sv!0*,:$3)$D*"#$
$*'$3)$-$7A0
/E-'H0/-.$60:A30)w$5Y6'=-+3
A)*+):)@$5N5FA35xJ'A-L
"k):,:>0:AF33B)JXLy!:
W3"E$u*-AD&/,>[e&&&z\s{
p7@D)0<k!@3)$::)00@
3'=!$@O"8D!:$4!AZ:5/$$8
3N@A-3)$X7-`,+0,8/0$3)$*9
4!'=*9!-:7$3)$*9*9@X|@A
,0:);*9DE*3456'
2.2 Các phương pháp tiếp cận
2.2.1 Complaining to Spammers' ISPs :
Ý tưởng:
X$:$P).43)$E:3)$$2>)7
)0:!:+/)5Y}6$F?~A5B?~J'vL
!.&:>$3)$N3N*94!O5Y6?~A3•)0
:#5Y6-5Y63•O"/)5Y6A:3)$$5
43)$'
Đặc điểm :
l<^0):)"3)$D'=>)7^-:
56E-'=>+43)$3•Y,--:3)$$)0Py
$A0$##/)5Y6?~ - !)6):::$3)$
E$X'dD5D, +/)5Y63•$:3)$$"7).
L):,3#$X).E:3)$$P7
K:^Z))0>-P- !.&:>
$3)$N3N!O<5A:3)$$_A_A/)D5
E$ wj"'dA-D)0 !75E$ |
$3)$83N!<'
Ý tưởng :
H@3•;568A: $3*9$8*9O$$:E
FA3J6 A:D!"3F:*9@?)$35Ev
3456=!3"*9$8*9#+$*€A-X:$-3•
*9)<A3)$J
Đặc điểm :
H@t,0A,)<AL/0:$9),A7
,#$*€)<AEA'=!@*93456A:<q-A
/,0'K- &$<$* $E@X#$:<X
>i4$0:A)0!8)7!"+ 4$3"*9$
"'l7$A:$0:A-5n5Y):,5N,
)<.3"*9$'
pZ!E@W,/)8)<A3•‚ƒFq3)
JE-`:A'
•‚ƒ„
…?"$3)$$@8AB3)$e
…?"$3)$N3N!@
2.2.4.Genetic Algorithms
Ý tưởng :
H@5N8A:57F†‚A$3J3456:8
5Z*Fq5A3J $A$%$'N!>q
5A3$8):8*9&<5N5N:,$-
F$)3J:)56A$%$ 7$:Y3"
8A:57*9 5n><F3J*9!9)#
$8)/,#$$.9)x33qA'
K+!!-FIAA$3$JE8A:…8A:N,
A:+0)_)A33A!$A'p6.!X
X$*9$:Y3At/5N$x33qA'†:Y3A3-3•
*93456 )<A$3)$AB3)$
p789@5N8MX5nZ'
2.2.6. Machine Learning (Máy học )
Ý tưởng :
‡)56:)*+):)$:@A:A:)<AZ,)<
AP0AA:)<A$:8A:$:@*=H3
‚5HA33?))AUAps*93456AMN)<AP0
85s#,0A'ˆ*X$:&<5N$)<A2$
)<AA$$m$#2:/,>$m-3o
Đặc điểm
~*+):)- :)56$;?K'
1!D)0-$A>,FA)3J/,D A$:@,
/,$/7'p!>,0)<A)6AA
>,5 /,'
Chương 3 : Phương pháp phân loại
Naïve Bayesian và ứng dụng phân loại
email
3.1. Một số khái niệm sác xuất có liên quan
†A$j7$$Z)u…-$)_)4
v!0- &0Aj7…\‰/,$Z3/)\AZ[&<,$Z4\
[‰/,$Z3/)\Cl-$!"
[‰/$Z4\Bl-$!"
3.1.1.Đinh nghĩa xác suất
d …
‰:3/E!"‚$3"<$y,~F‚J Y0P&0
!"‚*9&:Y*3
~F‚J„„?"*9)89A‚Š?"*9)- -)_)4N
,
F=>0PAZ:!"3+/)C!L&0X3‚&0C
@>*9)89A‚J
„‹sŒ'KA$$m/,#:Y:.*+;&Qs&5NA:
$m7#)•K&:3/~FK„ЉQ„&Qމa„&aŽsމ„&J-:Y#/'
?456;&:3/H3-…
~FK„ЉQ„&Qމa„&aŽsމ„&J„~FK„J
‰:3/~FK„J*9.5n5O8)5>,/,'‰:3/~F‰Q„&Qމa„&aŽs
Ž ‰„&J.9) 5A,!Y#)KX:Y*
"#$%#)'=*8P; 5NA:#)EK5NA&:3/
~F‰Q„&Qމa„&aŽsމ„&ŠK„J',.A:&:3//);)'p
)*+):)+0*9*3#$/)*+):))<A=
H3A-0!2$%‰8)#:‰rF•rJ*83•-…
~F‰Q„&Qމa„&aŽsމ„&ŠK„J„
3.3. Phân loại email bằng phương pháp Naive Bayesian
•<$%$m$&_.$%$$8):#)$$"$-
7K„‹3)$AB3)$Œ
v8*9$$!!$X7-5A---
!Y.&:$3)$
=*-$Z $.A-E$X- <
A,08*9$3)$'p$-7Z $*…7
5-.‘$8)s- 5NA: <A
,0)<A$3)$'p.56+0…!!*92RTh$
$$3)$8*9$$$*8- 5NA&:3/
!*#RTh$$$3)$ .*9&:3/$$8*9
3)$!&:3/#+&:3/$-AB3)$- 82$
-3)$8.&:k$'=*!-*97&:
3/!*#*8X!83•:8+'l -*9:&:3/
!*#3456)*+):)=H3/,8)$mF$J
D3-3•3456:&:3/;56A)<A$$mF$J$#'
3.3.1 Phân loại email dựa trên thuật toán Naive
Bayesian
8$$9),@Y@Z'
†034=B“??B“=*+;#%3<'?4568!Y
H35N).0342%=B“?-)./)D%?B“=L)<
A$$3)$5NA<3…
p~FK„3)$’J„QB~FK„AB3)$’J
=-…
~FK„3)$’J“#„
=*8*€)<A*9@A:Y'
Chương 4 : Cài đặt chương trình phân
loại email dựa trên phương pháp
phân loại Naive Bayesian
4.1. Khái niệm Token
l &$&_56$$5:,$A
K:A- &$*:OD&$&_$:O5E$
'U#:.N>.N3".N”•{.N”B{.N5*#”–{.N:
+”{>.N/AA'K`>.N`*A0k.
N—.N…s*9&$.N :)<::O'U#>O:*9$
j$A.N3"X*9&$AF.56…QabfTJ
U.56-:A3…
˜)eefT5$&BeT•STeeb5eSaT)$'
=!-$%3…)…ŠŠVVV'aS$'A$ŠqAAX3•-:A*+;…
)VVVaS$A$qAA
4.2. Vector thuộc tính
$%$$3$A„F&Q&as&J#&Q&as&:Y:
.‰Q‰as‰AAZ*'K:.- $
A-$:AsA*9)+0/$%$.*9
,$A+/0:.-Y<.FAAJ*8‰„Q
!$;A*9)*9‰„e
( )*
" "
"*+,"
*--*."*
/0"1/234565