Giáo viên hư ng d n : PGS.TS Lê Thanh Hươngớ ẫ
Sinh viên :
◦
Bùi Văn Hi uế
◦
Lê Quang Huy
◦
Ma Đình hành
◦
Đ Tùng Linhỗ
◦
Đ ng Hoàng Anhặ
Phân lo i thư rácạ
Khái ni m v spamệ ề
Các hư ng ti p c n x lý v i spamớ ế ậ ử ớ
M t s khái ni m xác su tộ ố ệ ấ
Phương pháp phân lo i Naïve Bayesianạ
Ch n ngư ng phân lo i emailọ ỡ ạ
N i dung báo cáoộ
Spam là nh ng email đư c phát tán m t cách ữ ợ ộ
r ng rãi không theo b t c m t yêu c u nào ộ ấ ứ ộ ầ
c a ngư i nh n v i s lư ng l n (unsolicited ủ ờ ậ ớ ố ợ ớ
bulk email(UBE)), hay nh ng email qu ng cáo ữ ả
đ d đoán m t l p riêng bi t C cho m t t p ể ự ộ ớ ệ ộ ậ
m u , t p các l p mà m u có th thu c v là ẫ ậ ớ ẫ ể ộ ề
C ={c1,c2,…,cm} . Cho m t m u hu n luy n ộ ẫ ấ ệ
v i giá tr các thu c tính tương ng là x1,…, ớ ị ộ ứ
xn , d đoán m u thu c v l p c€ C khi xác ự ẫ ộ ề ớ
su t P(C=c/X1=x1 ^X2=x2 ^ …^Xn=xn) có ấ
giá tr l n nh t ị ớ ấ
Phương pháp phân loai Naïve
Bayesian
V i X1, X2,…,Xn đ c l p v i nhau :ớ ộ ậ ớ
Phương pháp phân lo i Naïve ạ
Bayesian
T p các l p mà m i email có th thu c v là ậ ớ ỗ ể ộ ề
C = {spam, non-spam}
Phân lo i email d a trên thu t ạ ự ậ
toán Naïve Bayesian
Trong phân lo i email , có hai lo i sai l mO: ạ ạ ầ
sai l m nh n m t email là spam m c dù th c ầ ậ ộ ặ ự
t nó là non-spam (false positive) và sai l m ế ầ
th hai là nh n m t email là non-spam m c ứ ậ ộ ặ
dù nó là spam (false negative) . Rõ ràng là sai
l m th nh t là nghiêm tr ng hơn b i vì ầ ứ ấ ọ ở
ngư i s d ng có th ch p nh n m t email ờ ử ụ ể ấ ậ ộ
spam vư t qua b l c nhưng không ch p ợ ộ ọ ấ
nh n m t email h p l quan tr ng l i b b ậ ộ ợ ệ ọ ạ ị ộ
l c ch n l i.ọ ặ ạ
Ch n ngư ng phân lo i emailọ ỡ ạ