Tài liệu Cuộc chiến thư rác với FuzzyOCR và SpamAssassin trên Fedora 12 - Pdf 97

Cuộc chiến thư rác với FuzzyOCR và SpamAssassin trên Fedora 12

Trong bài viết sau, Tài Liệu sẽ giới thiệu với các bạn cách thức quét
email để phát hiện ảnh spam với công cụ
FuzzyOCR trên Fedora 12
server.
FuzzyOCR là 1 plugin dành cho SpamAssassin, được trang bị để nhằm vào
số lượng lớn thư rác có chứa ảnh nội dung (không phải hoặc ít nội dung dưới
dạng text). Sử dụng phương pháp phân tích tiên tiến, chương trình tự động
thu thập nội dung, thuộc tính của hình ảnh để phân biệt giữa 2 loại thư bình
thường và thư rác. FuzzyOCR sẽ cố gắng sử dụng ít tài nguyên hệ thống ở
mức có thể bằng cách scan những email không được phân loại bằng
SpamAssassin, qua đó tránh được những việc làm không cần thiết.
1. Lưu ý sơ bộ
Hệ thống sử dụng ở đây là Fedora 12. Giả sử rằng SpamAssassin đã cài đặt
và hoạt động ổn định với
/etc/mail/spamassassin/ là thư mục thiết lập mặc
định. Nếu thư mục của bạn có khác biệt (chẳng hạn có cài đặt
ISPConfig 2
thì thư mục đó sẽ là
/home/admispconfig/ispconfig/tools/spamassassin/etc/mail/spamassassin/),
hoàn toàn không có vấn đề gì cả.
2. Cài đặt thành phần cần thiết của FuzzyOCR
FuzzyOCR có yêu cầu 1 số thành phần như ocrad và gocr, do đó ta phải cài
đặt trước:
yum install netpbm gifsicle giflib giflib-utils
gocr ocrad ImageMagick tesseract perl-String-Approx
perl-MLDBM perl-CPAN
Bên cạnh đó, chúng ta cũng phải cài đặt module MLDBM::Sync của Perl,
nhưng lại không có sẵn như gói RPM thông thường. Mở
Perl shell…:

4. Thiết lập FuzzyOCR
File tùy chỉnh này nằm ở thư mục /etc/mail/spamassassin/FuzzyOcr.cf. Mở
file đó và chỉnh 1 số chi tiết sau:
vi /etc/mail/spamassassin/FuzzyOcr.cf
Đặt dòng sau vào vị trí xác định từ ngữ nhận dạng spam của FuzzyOCR:
[ ]
focr_global_wordlist
/etc/mail/spamassassin/FuzzyOcr.words

[ ]
/etc/mail/spamassassin/FuzzyOcr.words thực chất là danh sách từ đã được
định nghĩa trước đi kèm với FuzzyOCR. Các bạn có thể chỉnh sửa file này
nếu muốn.
Thay đổi tiếp theo:
[ ]
# Include additional scanner/preprocessor commands
here:

#
focr_bin_helper pnmnorm, pnminvert, pamthreshold,
ppmtopgm, pamtopnm

focr_bin_helper tesseract
[ ]
thành:
[ ]
# Include additional scanner/preprocessor commands
here:

#

ảnh tới cơ sở dữ liệu, vì vậy dễ dàng nhận ra khi những bức ảnh này khi nó
đến lần thứ 2 (do vậy không cần phải tiến hành scan lại). Điểm đặc biệt
trong chức năng này là cũng vẫn có thể nhận dạng được những bức ảnh
tương tự, hoặc đã được chỉnh sửa chút ít (được làm bởi những kẻ spam).
Nếu bạn dùng
/home/admispconfig/ispconfig/tools/spamassassin/etc/mail/spamassassin
thay vì /etc/mail/spamassassin, file thiết lập của FuzzyOCR là
/home/admispconfig/ispconfig/tools/spamassassin/etc/mail/spamassassin/Fu
zzyOcr.cf
thay vì /etc/mail/spamassassin/FuzzyOcr.cf, hãy chỉnh lại file này.
Trong file tùy chỉnh, bạn sẽ phải thay thế tất cả
/etc/mail/spamassassin với
/home/admispconfig/ispconfig/tools/spamassassin/etc/mail/spamassassin,
hoặc bỏ lại như dưới đây trước khi tạo 1 symlink từ
/etc/mail/spamassassin
thành
/home/admispconfig/ispconfig/tools/spamassassin/etc/mail/spamassassin
như sau:
mkdir /etc/mail/
ln -s
/home/admispconfig/ispconfig/tools/spamassassin/etc
/mail/spamassassin/ /etc/mail/spamassassin
Vậy là đã kết thúc bước thiết lập và tùy chỉnh FuzzyOCR. Tiếp theo hãy chờ
xem liệu có hoạt động như mong đợi hay không.
5. Kiểm tra FuzzyOCR
Ở phía trên, chúng ta đã đề cập rằng FuzzyOCR đi kèm với mẫu thư ảnh
spam (trong thư mục
samples/):
ls -l /usr/src/FuzzyOcr-3.5.1/samples/
Và kết quả thu được sẽ có dạng như sau:

Nếu bạn không biết spamassassin ở đâu, có thể tìm ra bằng cách chạy lệnh
sau:
updatedb
locate spamassassin
Nếu bạn đang sử dụng ISPConfig 2 thì spamassassin ở đây:
/home/admispconfig/ispconfig/tools/spamassassin/usr/bin/spamassassin.
Bây giờ bạn đã biết spamassassin ở đâu, thì có thể feed ảnh spam mẫu tới
spamassassin như sau:
/path/to/spamassassin debug FuzzyOcr <
/usr/src/FuzzyOcr-3.5.1/samples/ocr-gif.eml >
/dev/null
Ví dụ:
/home/admispconfig/ispconfig/tools/spamassassin/usr
/bin/spamassassin debug FuzzyOcr <
/usr/src/FuzzyOcr-3.5.1/samples/ocr-gif.eml >
/dev/null
Hoặc nếu spamassassin có ở trong PATH của bạn:
spamassassin debug FuzzyOcr < /usr/src/FuzzyOcr-
3.5.1/samples/ocr-gif.eml > /dev/null
Và sẽ thấy rất nhiều kết quả hiển thị, đoạn cuối sẽ trông như thế này:
[ ]
[10025] dbg: FuzzyOcr:
[10025] dbg: FuzzyOcr: Friday Augurt 4, 4:01 pm ET
[10025] dbg: FuzzyOcr: LAS VEGAS, NEVADA (MARKET
WIRE) Aug 4, 2006 auantum Energy, lnc. (OTC

[10025] dbg: FuzzyOcr: BB:aEGY.oB-_-
[10025] dbg: FuzzyOcr: auantum Energy, lnc. is
pleased to announce that it has applied to have its
shares listed for

"stock" with fuzz of 0.0000

[10025] info: FuzzyOcr: line: "trading on the
frankfurt stock exchange the company has retained
the services ofbaltic"

[10025] info: FuzzyOcr: Scanset "ocrad" found word
"price" with fuzz of 0.0000

[10025] info: FuzzyOcr: line: "current price o"
[10025] info: FuzzyOcr: Scanset "ocrad" found word
"price" with fuzz of 0.0000

[10025] info: FuzzyOcr: line: "short term price
target oo"

[10025] info: FuzzyOcr: Scanset "ocrad" found word
"company" with fuzz of 0.0000

[10025] info: FuzzyOcr: line: "trading on the
frankfurt stock exchange the company has retained
the services ofbaltic"

[10025] info: FuzzyOcr: Scanset "ocrad" found word
"recommendation" with fuzz of 0.0000

[10025] info: FuzzyOcr: line: "sboog bup
recommendation"

[10025] dbg: FuzzyOcr: Enough OCR Hits without


[10025] dbg: FuzzyOcr: Processed in 2.191381 sec.
Bạn có thể thấy /usr/src/FuzzyOcr-3.5.1/samples/ocr-gif.eml đã được phân
loại spam với số điểm 15, có nghĩa là FuzzyOCR đã hoạt động.

Chúc các bạn thành công!

Các đường dẫn tham khảo:
FuzzyOCR, SpamAssassin và Fedora.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status