Đồ án Thuật toán bayes và ứng dụng - pdf 24

Chia sẻ cho anh em Ket-noi:

Tóm tắt nội dung
Thống kê (toán học) là bộ môn toán học rất quan trọng và có nhiều ứng dụng to
lớn trong thực tế, giúp con người rút ra thông tin từ dữ liệu quan sát, nhằm giải quyết
các bài toán thực tế trong cuộc sống.
Trong khóa luận này trình bày về một tiếp cận thống kê trong việc đoán sự
kiện dựa vào lý thuyết Bayes. Lý thuyết này nói về việc tính xác suất của sự kiện dựa
vào các kết quả thống kê các sự kiện trong quá khứ. Sau việc tính toán mỗi sự kiện
được gán xác xuất hay điểm (tùy vào mỗi phương pháp đánh giá) ứng YỚi khả năng có
thể xảy ra với sự kiện đó. Và cuối cùng dựa vào ngưỡng để phân loại cho các sự kiện.
Sau phần lý thuyết chúng ta sẽ tìm hiểu về bài toán thực tế trong ngành công
nghệ thông tin. Bài toán về việc lọc thư rác tự động. Giải quyết bài này là sự kết hợp
từ rất nhiều phương án như DNS Blacklist, kiểm tra người nhận, người gửi, dùng bộ
lọc Bayes, chặn địa chỉ IP, Blacklist/Whitelist,.... Dùng bộ lọc Bayes là phương án
thông minh nó gần gũi với người dùng bởi chính người dùng đã huấn luyện nó nhận
biết thư rác. Khóa luận này tập chung vào việc tìm hiểu bộ lọc thư rác Bayesspam -
mã nguồn mở, cài đặt cho hệ thống email có tên là SquirrelMail - mã nguồn mở đang
được dùng cho hệ thống email của trường đại học Công nghệ - Coltech Mail. Kết quả
cho thấy bộ lọc có mức độ hoạt động hiệu quả là khác nhau tùy thuộc việc người dùng
huấn luyện cho bộ lọc thông qua các thư điện tò mà họ cho là thư rác nhưng nói chung
bộ lọc đã đem lại hiệu quả khá tốt.

M ụ c lụ c
Chưong 1 Giói thiệu..........................................................................................1
1.1 Tổng quan.................................................................................................................1
1.2 Cấu trúc.................................................................................................................... 3
Chưong 2 Co’ sỏ’ lý thuyết.................................................................................4
2.1 Phát biểu định lý Bayes..........................................................................................4
2.2 Cực tiểu hóa rủi ro trong bài toán phân lớp Bayes.............................................. 5
2.3 Phân lóp Bayes chuẩn tắ c .................................................................................... 13
2.4 Miền quyết định.....................................................................................................20
Chưong 3 Phân lóp Naive Bayes...................................................................22
3.1 Định nghĩa............................................................................................................. 22
3.2 Các mô hình xác suất Naive Bayes.....................................................................23
3.3 Ước lượng tham s ố ............................................................................................... 24
3.4 Xây dựng một classifier từ mô hình xác suất..................................................... 25
3.5 Thuật toán phân loại văn bản Naive Bayes........................................................ 25
Ví dụ: Phân loại thư điện tử bang Naive Bayes classifier......................................27
Chưong 4 Giải quyết bài toán lọc thư rác..................................................30
4.1 Đặt vấn đ ề ............................................................................................................. 30
4.2 Bài toán..................................................................................................................31
4.3 Tiền xử lý mỗi lá thư điện tô................................................................................31
4.4 Dùng luật Bayes tính xác suất............................................................................. 32
4.5 Huấn luyện cho bộ lọc Bayes.............................................................................. 33
4.6 Lọc thư đến, có là thư rác không?.......................................................................34
4.7 Bộ lọc BayesSpam................................................................................................ 35
4.8 Một số cải tiến cho bộ lọc BayesSpam...............................................................38
Chưong 5 Kết luận..........................................................................................40


vfdxV8qc5wXxC10
s/ls6l8kz36csgz3sjpuus4j0gwpn9ksio

Xem thêm
kỹ thuật thống kê dùng trong ước lượng bayes
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status