Bài tập lớn môn Xử lý ngôn ngữ tự nhiên
Đề tài 2 : Phân loại thư rác
Nhóm : Đặng Văn Hùng
Nguyễn Bích Ngọc
Trịnh Thị Lan Phượng
Voin Sophat
Mục lục
I. Đặt vấn đề
II. Cách tiếp cận giải quyết vấn đề
III. Cài đặt
IV. Thử nghiệm và đánh giá hệ thống
I. Đặt vấn đề
Là bước xử lý quan trọng đối với các hệ
thống XLNNTN,đặc biệt là đối với việc
nhận thư .
Phần lớn thư rác là những thư không đạt
yêu cầu,không mong muốn và được gửi
hàng loạt tới nhiều người nhận.
Mục đích: Lọc thư để phân loại và loại bỏ
các thư rác cho người nhận.
II. Cách tiếp cận giải quyết vấn đề
Bài toán phân loại thư rác có các biện pháp chính như sau :
· Sử dụng DNS Blacklistb
· Sử dụng SURBL List
· Chặn IP.
. Kiểm tra địa chỉ
. Sử dụng bộ lọc Bayesian
o
Việc loại bỏ stopword bằng cách so khớp hai xâu đầu vào với xâu
mẫu trong bộ từ điển.lấy ra các từ có nghĩa trong nội dung thư.
Giải thuật Naïve Bayes
Định lý bayes và giải thuật Naïve Bayes
P(h/D)=P(D/h).P(h)/P(D)
Trong đó:
P(h) : Xác xuất trước rằng giả thiết h là đúng
P(D) : Xác suất trước rằng tập dữ liệu D được
quan sát.
P(D|h) : Xác suất việc quan sát được tập dữ liệu
D, với điều kiện giả thiết h đúng
Giải thuật Naïve Bayes
Một bài toán phân loại có thể biểu diễn gồm có:
Một tập học D_train trong đó mỗi ví dụ học x
được biểu diễn bằng 1 vector n chiều: (x
1,
. ,x
n
)
Một tập nhãn xác định các lớp : C = {c
Kết quả thu được của chương trình là khá
chính xác.
Độ chính xác của hệ thống phụ thuộc
nhiều vào số lượng thư và giải thuật học.
Đề xuất
Cải tiến bộ dữ liệu mẫu và cách thức thu
thập tốt hơn.
Giải quyết một số nhập nhằng trong việc
loại bỏ stopword.
Tài liệu tham khảo
Slide bài giảng môn xử lý ngôn ngữ tự
nhiên ( cô Lê Thanh Hương ).
http://www.loria.fr/~lehong/softwares.php (
Trang web của Lê Hồng Phương).
Các khái niệm tham khảo :
www.wikipedia.org
Và một số tài liệu khác từ internet.
Thank you