Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định - Pdf 24

Số hóa bởi Trung tâm Học liệu

ĐẠI HỌC THÁI NGUN
TRƢỜNG

ĐINH QUANG THÁI

NGHIÊN CỨU PHƢƠNG PHÁP LỌC SPAM VÀ ỨNG
DỤNG TRONG BẢO MẬT HỆ THỐNG THƢ ĐIỆN TỬ TẠI
SỞ THƠNG TIN VÀ TRUYỀN THƠNG TỈNH NAM ĐỊNH

nh
Mã số: 60 48 01 TS. Nguyễn Ngọc Cƣơng

Thái Ngun - 2013
i Số hóa bởi Trung tâm Học liệu

Nhân đây, tơi xin chân thành cảm ơn Ban giám hiệu trƣờng Đại học Cơng
nghệ Thơng tin và Truyền thơng đã tạo rất nhiều điều kiện để tơi học tập và hồn
thành tốt khóa học.
Mặc dù tơi đã có nhiều cố gắng hồn thiện luận văn bằng tất cả sự nhiệt tình
và năng lực của mình, tuy nhiên khơng thể tránh khỏi những thiếu sót, tơi rất mong
nhận đƣợc những đóng góp q báu của q thầy cơ và các bạn.
Lời cảm ơn sau cùng tơi xin dành cho gia đình và những ngƣời bạn đã hết
lòng quan tâm và tạo điều kiện tốt nhất để tơi hồn thành luận văn tốt nghiệp này!
Tơi xin chân thành cảm ơn! Thái Ngun, ngày 15 tháng 7 năm 2013
Học viên thực hiện
Đinh Quang Thái - Lớp CK10A
Trƣờng Đại học CNTT&TT – Đại học Thái Ngun. iii Số hóa bởi Trung tâm Học liệu

MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC HÌNH v
DANH MỤC CÁC BẢNG vii
DANH MỤC TỪ VIẾT TẮT viii
MỞ ĐẦU 1
Chƣơng 1: TỔNG QUAN VỀ THƢ ĐIỆN TỬ VÀ SPAM 3


3.1.3. Các chức năng chính của chƣơng trình 45
3.2. Thử nghiệm hệ thống thƣ điện tử tại Sở Thơng tin và Truyền thơng tỉnh Nam
Định 46
3.2.1. Khảo sát việc sử dụng mail tại Sở Thơng tin và Truyền thơng tỉnh Nam
Định 46
3.2.2. Dữ liệu thử nghiệm 47
3.2.3. Phƣơng pháp thử nghiệm 48
3.2.4. Thử nghiệm chƣơng trình 49
3.2.4. So sánh phƣơng pháp phân loại 55
3.2.5. Lựa chọn độ dài và số lƣợng đặc trƣng 56
3.2.6. Phân biệt theo ngơn ngữ trƣớc khi lọc 58
3.2.7. Nhận xét kết quả thử nghiệm 58
3.3. Đề xuất các giải pháp phòng chống spam 59
3.3.1. Giải pháp phòng chống tại mail server 59
3.3.2. Giải pháp phòng chống tại mail client 65
3.3.3. Giải pháp phía ngƣời sử dụng mail 67
KẾT LUẬN CHUNG 70
TÀI LIỆU THAM KHẢO 71
v Số hóa bởi Trung tâm Học liệu

DANH MỤC CÁC HÌNH

Hình 1.1: Mơ hình lưu chuyển thư điện tử qua Internet 7


Hình 3.14: Giao diện tab giới thiệu chương trình 55
Hình 3.15: Xác nhận việc thốt khỏi chương trình 55
Hình 3.16: Độ chính xác phân loại chung với số lượng đặc trưng khác nhau 57
Hình 3.17: Độ chính xác phân loại với các quy trình lọc khác nhau 59
Hình 3.18: Phương thức hoạt động của SPF 60
Hình 3.19: Phương thức hoạt động của SPF động 62
Hình 3.20: Phân bố số lượng cặp (tên miền, IP) theo thơi gian 64
Hình 3.21: Hiệu quả phương pháp SPF động 64
vii Số hóa bởi Trung tâm Học liệu DANH MỤC CÁC BẢNG

Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống 4
Bảng 1.2: Thống kê các dạng thư rác tại máy chủ 6
Bảng 3.1. Bộ dữ liệu thử nghiệm 48
Bảng 3.2. Độ chính xác phân loại với các phương pháp phân loại khác nhau 56
Bảng 3.3. Kết quả phân loại với độ dài đặc trưng - từ khác nhau 57
Bảng 3.4 : Bảng dữ liệu mẫu sử dụng phương pháp SPF động 63


nhau đã đƣợc nghiên cứu và sử dụng. Giải pháp đấu tranh với thƣ rác rất đa dạng,
bao gồm từ các cố gắng về pháp lý trong việc xây dựng luật ngăn chặn phát tán thƣ
rác cho tới những giải pháp kỹ thuật nhằm phát hiện và ngăn chặn thƣ rác trong
những giai đoạn khác nhau của q trình tạo và phát tán thƣ. Trong số giải pháp
đƣợc sử dụng, lọc thư theo nội dung đang là một trong những giải pháp đƣợc sử
dụng rộng rãi và có triển vọng nhất. Lọc thƣ theo nội dung là phƣơng pháp phân
tích nội dung thƣ để phân biệt thƣ rác với thƣ bình thƣờng, kết quả phân tích sau đó
đƣợc sử dụng để quyết định chuyển tiếp thƣ đến ngƣời nhận hay khơng (trong phạm
vi nghiên cứu này, nội dung thƣ đƣợc giới hạn là những nội dung trình bày dƣới
dạng văn bản).
Do việc lọc theo nội dung đòi hỏi phân tích phần văn bản chứa trong tiêu đề
hay nội dung thƣ, thuật tốn lọc nội dung cần đƣợc xây dựng phù hợp với ngơn ngữ
mà thƣ sử dụng. Hiện nay, nhiều thuật tốn lọc nội dung hiệu quả đã đƣợc nghiên
cứu và sử dụng cho thƣ viết bằng tiếng Anh.
Trong vòng vài năm gần đây, việc sử dụng Internet nói chung và thƣ điện tử
nói riêng ngày càng phổ biến tại Việt nam. Một trong những hệ quả của sự phát
triển này là ngày càng có nhiều thƣ rác gửi tới các tài khoản thƣ điện tử tại Việt nam
(tài khoản có đi .vn). Những thƣ rác này bao gồm cả thƣ viết bằng tiếng Anh và
thƣ viết bằng tiếng Việt. Việc xuất hiện ngày càng nhiều thƣ rác tiếng Việt đặt ra
u cầu cấp thiết phải có những phƣơng pháp lọc thƣ có thể xử lý đƣợc thƣ rác loại
này.
2 Số hóa bởi Trung tâm Học liệu

Do các thuật tốn lọc thƣ thơng dụng mới chỉ đƣợc nghiên cứu và thử
nghiệm cho tiếng Anh, để có thể sử dụng giải pháp lọc nội dung cho thƣ tiếng Việt
cần nghiên cứu làm rõ hiệu quả của thuật tốn khi phân tích nội dung thƣ viết bằng
tiếng Việt. Bên cạnh đó cần thực hiện những cải tiến cho phù hợp khi chuyển từ

Trong chương này trình bày các khái niệm về thư tín truyền thống, thư điện
tử, spam và mơ hình, ngơn ngữ và giao thức sử dụng của thư điện tử, các phần mềm
lọc nội dung thư hiện nay.
1.1 Các khái niệm cơ bản
1.1.1. Thƣ điện tử là gì?
Thƣ điện tử (Email – Electronic Mail) là một hệ thống chuyển nhận thƣ qua
các mạng máy tính. Thƣ điện tử (Email) là một trong những phƣơng thức trao đổi
thơng tin phổ biến trong suốt q trình phát triển Internet. Ban đầu email chỉ là
những văn bản text đơn giản, mức độ bảo mật cũng đƣợc nâng cao dần lên, khi đó
email đƣợc mã hóa dƣới nhiều dạng. Email là phƣơng tiện thơng tin tốc độ cao.
Mẫu thƣ có thể đƣợc gửi đi dƣới nhiều dạng, có thể ở dạng văn bản text thơng
thƣờng, hoặc có thể ở dạng mã hóa, và nó đƣợc chuyển qua các mạng máy tính, đặc
biệt là mạng Internet
1.1.2. Cấu trúc chung của một địa chỉ thƣ điện tử
Một địa chỉ thƣ điện tử bao gồm : tên[email]@tên_miền. Trong đó:
- Tên_email : là định danh của hòm thƣ điện tử, thành phần này do ngƣời sử
dụng tự đặt ra khi khởi tạo hòm thƣ cho mình.
- Tên_miền : là tên miền cung cấp dịch vụ thƣ điện tử, ví dụ nhƣ yahoo.com,
gmail.com,…
1.1.3. Sự khác biệt giữa thƣ điện tử với thƣ bƣu chính
Giữa thƣ điện tử và thƣ bƣu chính (thƣ tín truyền thống) có những điểm
tƣơng đồng, song có những điểm khác biệt đƣợc thể hiện qua bảng so sánh:
Đặc điểm
Thƣ bƣu chính
Thƣ điện tử
Khoảng cách vật lý

Khơng
4




Kết nối Internet
Khơng

Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống
1.1.4. Thƣ rác là gì?
Hiện nay chƣa có một định nghĩa hồn chỉnh và chặt chẽ về thƣ rác. Có quan
điểm chỉ coi thƣ rác là những thƣ quảng cáo khơng đƣợc u cầu (Unsolicited
Commercial Email - UCE), có quan điểm có thƣ rác với nghĩa rộng hơn, bao gồm
cả thƣ quảng cáo, thƣ nhũng lạm (quấy rối), và những thƣ có nội dung khơng lành
mạnh (Unsolicited Bulk Email – UBE). Dƣới đây sẽ đƣa ra một định nghĩa thơng
dụng nhất về thƣ rác và giải thích các đặc điểm của nó để phân biệt thƣ rác với thƣ
thơng thƣờng.
Thư rác (spam) là những bức thư điện tử khơng u cầu, khơng mong muốn
và được gửi hàng loạt tới nhiều người nhận. “Thư khơng u cầu” ở đây nghĩa là
người nhận thư khơng u cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt”
nghĩa là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi
cho nhiều người khác và các bức thư này có nội dung tương tự nhau.
5 Số hóa bởi Trung tâm Học liệu

Một bức thƣ đƣợc gọi là thƣ rác chỉ khi nó là thƣ khơng u cầu và đƣợc gửi
hàng loạt. Nếu thƣ rác chỉ là thƣ khơng mong muốn thì nó có thể là những bức thƣ
làm quen, đƣợc gửi lần đầu tiên, còn nến thƣ rác chỉ là thƣ đƣợc gửi hàng loạt thì nó
có thể là những bức thƣ gửi cho khách hành của các cơng ty, các nhà cung cấp dịch
vụ.
Nhƣ định nghĩa ở trên, thƣ rác là thƣ khơng u cầu và đƣợc gửi hàng loạt.

Năm 2003
Năm 2004
Quảng cáo liên quan đến tình dục (khơng đồ hoạ)
17%
34%
Tranh ảnh khiêu dâm
13%
7%
Bảo hiểm
1%
4%
Quảng cáo thuốc
8%
10%
Tài chính
12%
13%
Du lịch, sòng bạc
2%
3%
Bản tin
9%
6%
Các sản phẩm có xuất sứ đáng ngờ (văn bằng giả.v.v.)
20%
10%
Scam
8%
6%
Các dạng quảng cáo khác

Hình 1.1: Mơ hình lưu chuyển thư điện tử qua Internet
8 Số hóa bởi Trung tâm Học liệu

Hoạt động của hệ thống email hiện nay có thể dƣợc minh họa qua phân tích
một thí dụ nhƣ sau:
1. Nguyễn dùng MUA của mình để soạn một lá thƣ có địa chỉ ngƣời nhận là
Trần với địa chỉ là Nguyễn nhấn nút Send và phần mềm thƣ điện tử
của Nguyễn áp dụng SMTP để gửi mẫu thơng tin (lá thƣ) đến MTA, hay máy chủ
thƣ điện tử, của Nguyễn. Trong thí dụ thì máy chủ này là smtp.a.org đƣợc cung cấp
từ dịch vụ Internet của Nguyễn.
2. MTA này sẽ đọc địa chỉ chỗ nhận () và dựa vào phần tên miền
nó sẽ tìm hỏi địa chỉ của tên miền này, nơi có máy chủ sẽ nhận email gửi đến, qua
Hệ thống Tên miền.
3. Máy chủ DNS của b.org là ns.b.org sẽ trả lời về một bản ghi trao đổi thƣ
từ, đây là bảng ghi chỉ ra cách thức làm thế nào định tuyến cho email này. Trong thí
dụ thì mx.b.org là máy chủ từ dịch vụ cung ứng Internet của Trần.
4. smtp.a.org gửi mẫu thơng tin tới mx.b.org dùng giao thức SMTP, điều này
sẽ phân phối lá thƣ đến hộp thƣ của Trần.
5. Khi đọc Trần ra lệnh nhận thƣ trên máy (MUA) của Trần, điều này tạo ra
việc lấy về mẫu thơng tin bằng cách áp dụng giao thức POP3.
Trong trƣờng hợp Nguyễn khơng có MUA mà chỉ dùng Webmail chẳng hạn
thì bƣớc 1 sẽ khơng xảy ra tức là MTA của Nguyễn sẽ làm việc trực tiếp. Tƣong tự
cho trƣờng hợp Trần khơng có MUA riêng.
Trƣớc đây, nếu một MTA khơng thể gửi tới đích thì nó có thể ít nhất ngừng
lại ở chỗ gần với chỗ nhận. Sự ngừng này sẽ tạo cơ hội để máy đích có thể nhận về
các mẫu thơng tin trong thời gian trễ hơn. Nhiều MTA sẽ chấp nhận tất cả mẫu
thơng tin từ ngƣời gửi bất kì và tìm mọi cách để phân nó về đến máy đích. Những

điện tử.
1.2.2. Giao thức và ngơn ngữ sử dụng
- SMTP (Simple Mail Transfer Protocol): giao thức chuyển thƣ đơn giản.
SMTP là phƣơng thức vận chuyển các thƣ điện tử từ máy chủ này sang máy chủ
khác cho đến địa chỉ ngƣời nhận. Các máy chủ sử dụng giao thức này để chuyển
tiếp thƣ tới máy khách, và máy khách cũng sử dụng giao thức này gửi thƣ trung
10 Số hóa bởi Trung tâm Học liệu

chuyển qua các máy chủ. Các thƣ điện tử đƣợc gửi đến các máy khách qua SMTP,
và các máy này sử dụng giao thức POP, IMAP để nhận thơng điệp này.

Hình 1.2: Mơ hình gửi và nhận thư điện tử sử dụng giao thử SMTP
- IMAP (Internet Message Access Protocol) : giao thức nhận thơng điệp từ
Internet của các máy khách. Ngƣời dùng có thể truy xuất và quản lý thƣ từ máy chủ.
Giao thức cho phép ngƣời sử dụng đọc, xóa, sửa, tìm kiếm thƣ trong hòm thƣ mà
khơng cần phải tải thƣ về. Phiên bản mới nhất là IMAP4.
11 Số hóa bởi Trung tâm Học liệu Hình 1.3: Mơ hình gửi và nhận thư điện tử dùng giao thức IMAP và POP
- POP (Post Office Protocol) : giao thức đƣợc dùng trên các máy trạm
(MUA) tìm kiếm các thƣ điện tử từ một máy MTA (máy chủ mail). Giao thức này
cho phép ngƣời dùng đăng nhập vào máy chủ mail với tài khoản đã đăng kí để tải
thƣ từ máy chủ về máy cục bộ. Phiên bản mới nhất là POP3.

- Cactus Spam Filter - Free Spam Filter
- SpamRIP - Free Spam Filter
- BullGuard Spamfilter - Free Spam Filter
- …
Những tiêu chí để đánh giá một phần mềm lọc thư rác tốt:
Phần mềm lọc thƣ rác tốt nhất là cho phép dễ dàng tùy chỉnh bởi ngƣời dùng
máy tính của tất cả các cấp. Các tính năng quan trọng nhất của bất kỳ phần mềm bộ
13 Số hóa bởi Trung tâm Học liệu

lọc thƣ rác là khả năng đáng tin cậy ngăn chặn và ngăn chặn thƣ rác. Những tiêu chí
sử dụng để đánh giá phần mềm lọc thƣ rác:
Chặn, lọc:
Đây là tiêu chí đầu tiên và quan trọng để đánh giá phần mềm lọc thƣ rác.
Phần mềm lọc thƣ rác nên đƣợc trang bị với nhiều khả năng ngăn chặn thƣ rác lây
nhiễm vào hộp thƣ đến của ngƣời dùng. Tốt nhất phần mềm lọc có cả hai danh sách
đen và trắng, thiết lập nhạy cảm, dựa vào cộng đồng lọc, kỹ thuật thách thức và
phản ứng, và cách ly thiết lập. Các tính năng bổ sung để đánh giá địa chỉ IP đang
chặn, máy chủ, địa chỉ email, và mã quốc gia.
Bảo vệ:
Ứng dụng chặn thƣ rác nên có khả năng bảo vệ nhiều tài khoản ngƣời dùng
với một cài đặt duy nhất. Hơn nữa, chặn thƣ rác phải bảo vệ ngƣời dùng từ email có
chứa sâu, vi-rút, Trojans, phần đính kèm với nhúng keylogger và phần mềm độc hại
khác. Ngồi ra, phần mềm lọc thƣ rác mạnh mẽ có thể xác định email HTML có
chứa cuộc tấn cơng lừa đảo trực tuyến nhằm mục đích thu thập thơng tin cá nhân
nhạy cảm của ngƣời sử dụng.
Quy tắc:
Phần mềm bộ lọc thƣ rác nên cung cấp cho ngƣời dùng khả năng để chỉnh
Chƣơng 2: CÁC PHƢƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM

Trình bày kỹ thuật gửi mail nặc danh, mơ hình và ngun lý hoạt động của
hệ thống lọc nội dung mail, Các kỹ thuật lọc nội dung thơng tin qua mail.
2.1. Các kỹ thuật gửi mail nặc danh và Bomb Mail
Để phát tán thƣ rác, những ngƣời gửi thƣ rác phải có đƣợc những điều kiện
sau: một là có danh sách địa chỉ email nhận thƣ, hai là có các server cho phép gửi
thƣ, ba là phải soạn đƣợc nội dung thƣ theo u cầu quảng cáo và qua mặt đƣợc các
bộ lọc nội dung, cuối cùng cần có những chƣơng trình để gửi thƣ đi.
2.1.1. Thu thập địa chỉ email
Để gửi thƣ rác đi, ngƣời gửi thƣ rác cần phải có một danh sách các địa chỉ
email cần gửi. Danh sách địa chỉ email này có thể thu thập đƣợc từ nhiều nguồn
khác nhau, họ có thể mua từ các trang web thƣơng mại có nhiều thành viên đăng ký
hoặc sử dụng các kỹ thuật dƣới đây để có đƣợc địa chỉ email của đối tƣợng cần gửi
thƣ.
Ngƣời gửi thƣ rác (hoặc đối tác của họ) thƣờng tung ra các trang web giả để
bẫy ngƣời dùng gửi địa chỉ email cho họ. Kỹ thuật này đƣợc gọi là Phishing email.
16 Số hóa bởi Trung tâm Học liệu Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng
Ngƣời gửi thƣ rác còn sử dụng các máy tìm kiếm chỉ để tìm kiếm địa chỉ
email trên các trang web. Các máy tìm kiếm này sẽ tìm kiếm những trang có kí hiệu
“@” và sẽ tách địa chỉ email từ đó ra. Những chƣơng trình tìm kiếm email theo kiểu
nhƣ vậy còn đƣợc gọi là spambots.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status