Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011 463
PHƢƠNG PHÁP LỌC THƢ RÁC TIẾNG VIỆT DỰA TRÊN
TỪ GHÉP VÀ THEO VẾT NGƢỜI SỬ DỤNG
1
2
, Cao
1
,
1
1
2
nthông tin, i hp.H
Tóm tắt báo cáo.
bài báo này, c
.
Từ khóa: -.
1. Giới thiệu
[1].
khuyến ma
̃
i
khuyến
mi
.
.
Trong bài báo này ,
Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011
… z
m
z
k
= s
i
… s
j
(1≤ k≤ m, 1≤ i, j≤ n)
l
Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011 465
Hình 1 –
M
:
.
Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011 466
thìlà màcácnhững
tuy nhiênmặc dùvì thếkhông những”, mà còn
@#$?&m
nhau
?!.).
Sau
2.3. Phân tích từ đơn
Sau quá trình trênT
i
T
s
S
n
câu
, S
j
(1≤ j≤ n) k W
m
chúng tôi
trên website
1
8933
12.2
2
48995
67.1
3
5727
7.9
4
7040
9.7
>=5
2001
3.1
72994
100
Bảng 1 -
cao.
α α
αα
cách trênSD (Spam Document), D
i
SD
S
n
S
i
S
n
(1≤ i≤ n) W
1
, W
2
, W
3
,… W
n
CW {W
j
, W
Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011 469
.
Naïve Bayes.
3. Quy trình lọc thƣ rác tiếng Việt
3.1.Áp dụng thuật toán Naïve Bayes
id
content
spam
ham
P(spam | content)
Word
1
, Word
2
, Word
3
, Wordm content.
( | )* ( )
( | )
P content spam P spam
P spam content
(7)
>0.7 spam là <0.3
Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011 470
Ham
Spam
Total
All messages
400
600
1000
With “bán”
300
100
400
With “ mua”
Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011 471
D={d
1
, d
2
,…, d
n
)
d
i
(1≤ i≤ n)
d
i
= g
1
g
Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011 472
K
Spam
Ham
Spam
Ham
79/100
90/100
79%
90%
,
.
Tài liệu tham khảo (References)
[1] Tu Tieng VietMLC 2002 Conference, Beijing,
November 2002, pp. 111-116.
Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011 473
[2] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Author, Vietnamese Word