Xây dựng plugin cho internet explorer để chặn các trang web xấu - Pdf 10



TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN MẠNG MÁY TÍNH & VIỄN THÔNG
LÊ NGUYỄN MINH TUẤN – ĐẶNG THANH VI

XÂY DỰNG PLUGIN CHO INTERNET EXPLORER
ĐỂ CHẶN CÁC TRANG WEB XẤUKHÓA LUẬN CỬ NHÂN TIN HỌC
NIÊN KHÓA 2001 - 2005

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng CườngTRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN MẠNG MÁY TÍNH & VIỄN THÔNG


Nhóm chúng tôi xin được gởi lời cảm ơn đến các các thầy cô giảng viên trường
Đại học Khoa học Tự nhiên TP.HCM cũng như các bạn đã giúp đỡ chúng tôi nhiều
trong quá trình thực hiện luận văn:
• Các thầy cô giảng viên trong bộ Mạng máy tính và Viễn thông khoa
Công Nghệ Thông Tin đã tạo điều kiện cho chúng tôi thực hiện tốt luận
văn.
• Ban giám hiệu trường Đại học Khoa học Tự nhiên TP.HCM.
• Bạn Phan Trung Hiếu – sinh viên khoa Công Nghệ Thông Tin khóa 2001
đã giúp đỡ hỗ trợ tài liệu cho nhóm chúng tôi trong một số kỹ thuật lập
trình.
• Bạn Vũ Minh Trọng - sinh viên khoa Công Nghệ Thông Tin khóa 2001
đã giúp đỡ nhóm chúng tôi trong việc tìm hiểu các ý tưởng mới cũng như
cung cấp cho chúng tôi các ví dụ thực tế.
• Roberto Antollini , lập trình viên cung cấp các class C++ miễn phí dùng
để truy cập các cơ sở dữ liệu hỗ trợ ADO trên nền desktop chạy Hệ điều
hành Windows(98/2000/XP) ở website
www.codeproject.com .

João Paulo Figueira , lập trình viên chuyển đổi các class ADO miễn phí
của Roberto Antollini sang phiên bản tương thích với nền tảng Microsoft
Windows CE 3.0 ở website
www.codeproject.com.
• Thầy Lê Thụy Anh – giảng viên khoa Công Nghệ Thông Tin đã giải đáp
cho chúng tôi một số thắc mắc về trình duyệt Internet Explorer.
Lê Nguyễn Minh Tuấn Page
3 of 93
Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính

3.2.2.2 Đánh giá dựa trên trọng số của văn bản........................................................ 33
3.2.2.2.1 Nội dung thuật toán................................................................................. 34
3.2.2.2.2 Đánh giá thuật toán................................................................................. 37
3.2.2.3 Cải tiến phương pháp đánh giá dựa trên trọng số của văn bản:.................... 38
3.3 Các kỹ thuật lập trình và cài đặt thực tế..................................................38
3.4 Ý tưởng chung của chương trình. ...........................................................40
3.4.1 Encoding của trang web..................................................................42
3.4.2 Thiết kế cơ sở dữ liệu: ....................................................................47
3.4.2.1 Thiết kế logic: ............................................................................................... 47
3.4.2.2 Cài đặt thực tế CSDL.................................................................................... 52
3.4.3 Viết Plug-in bằng ATL COM..............................................................57
3.4.3.1 Một số thông tin:........................................................................................... 57
3.4.3.2 Viết Plug-in cho Internet Explorer bằng ALT COM.................................... 58
3.4.3.2.1 Tạo project bằng ATL COM .................................................................. 58
3.4.3.2.2 Tạo plug-in cho Internet Explorer .......................................................... 60
3.4.3.2.3 Cài đặt code để bắt sự kiện của IE......................................................... 61
3.4.4 Áp dụng các thuật toán vào plug-in..................................................66
3.4.4.1 Class chứa các thuật toán cài đặt .................................................................. 66
3.4.4.2 Kỹ thuật lập trình lấy thông tin của IE phục vụ cho việc đánh giá............... 71
3.4.4.2.1 Lấy URL ................................................................................................. 72
3.4.4.2.2 Lấy nội dung trang web. ......................................................................... 72
3.4.5 Các chính sách ...............................................................................77
3.4.5.1 Sử dụng trong gia đình.................................................................................. 77
3.4.5.2 Sử dụng ở công sở: ....................................................................................... 78
Lê Nguyễn Minh Tuấn Page
5 of 93
Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính

Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng Cường

DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN
Hình 1 Các phương pháp đánh giá website...........................................................20
Hình 2 Sơ đồThuật toán đánh giá dựa trên URL đầy đủ.........................................23
Hình 3 Sơ đồ thuật toán đánh giá trên URL keyword. ............................................27
Hình 4 Sơ đồ thuật toán đánh giá trên số lần xuất hiện keyword............................31
Hình 5 Đánh giá dựa trên trọng số của văn bản....................................................36
Hình 6 Các kỹ thuật lập trình và cài đặt thực tế. ...................................................39
Hình 7 Hook toàn cục ........................................................................................40
Hình 8 Chương trình lọc......................................................................................41
Hình 9 . Encoding Unicode ..................................................................................43
Hình 10.Mô hình Encoding ..................................................................................47
Hình 11.Tham chiếu khóa ...................................................................................49
Hình 12. Các table trong cơ sở dữ liệu .................................................................51
Hình 13 Ví dụ dữ liệu trong bảng.........................................................................53
Hình 14. Các ký tự tiếng Việt...............................................................................56
Hình 15. Sơ đồ tham chiếu khóa ngoại.................................................................57
Hình 16. Chọn project ATL COM ..........................................................................59
Hình 17. Các option trong wizard.........................................................................60
Hình 18. Chọn đối tượng COM.............................................................................61
Hình 19. Sử dụng trong gia đình..........................................................................78
Hình 20. Sử dụng trong văn phòng......................................................................80
Hình 21.Giao diện chính của plug-in.....................................................................82
Hình 22. Chọn danh sách....................................................................................82
Hình 23. Ví dụ nội dung trong danh sách english keyword. ....................................83
Hình 24.Insert phần tử .......................................................................................84
Một số từ khóa chính liên quan đến nội dung đề tài:

Lĩnh vực áp dụng:

Lê Nguyễn Minh Tuấn Page
9 of 93
Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng Cường

Các thuật toán, phương pháp, quy trình chính được nghiên cứu, ứng dụng trong

Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng Cường

Chương 1: MỞ ĐẦU
Ngày nay, máy vi tính cá nhân (Personal Computer - PC) đã trở nên phổ biến
trong cuộc sống hiện đại : từ công sở đến gia đình, từ trường học đến viện nghiên cứu,
từ phân xưởng đến bệnh viện … tất cả hoạt động đều cần đến sự có mặt của máy tính.
Máy tính , với khả năng của mình , giúp cho quá trình xử lý dữ liệu được nhanh chóng
để cho ra kết quả tốt nhất trong thời gian ngắn nhất.
Và cùng với xu thế phổ biến của máy tính , Internet đã ra đời để đáp ứng cho
nhu cầu tìm kiếm , chia sẻ thông tin ở mọi nơi trên thế giới cho tất cả các lĩnh vực. Mặc
dù Internet cung cấp cho chúng ta rất nhiều giao thức khác nhau để phục vụ cho nhu
cầu trao đổi dữ liệu , hơn 90% giao thức dùng trên Internet là giao thức
HTTP(Hypertext Transfer Protocol). Nói cách khác, chúng ta truy cập Internet phần
lớn dựa trên giao diện Web. Vì thế , các tập đoàn , các công ty lớn trên thế giới trong
lĩnh vực software như Microsoft , Nestcape , Mozilla ,…đua nhau đưa ra các trình
duyệt Internet dựa trên giao thức HTTP nhằm tăng khả năng hỗ trợ người dùng và trên
hết , tiếp thị hình ảnh về công ty của mình. Người dùng Internet cũng được hưởng lợi
từ sự cạnh tranh này : hầu hết các trình duyệt hiện nay như Internet Explorer, Nestcape
Navigator, Mozilla Firefox … đều miễn phí và được hoàn thiện,cập nhật liên tục.Trong
đó trình duyệt Internet Explorer của Microsoft là phổ biến nhất. Nguyên nhân:
+ Internet Explorer được miễn phí kèm theo trên tất cả các phiên bản của
Hệ điều hành Windows.
+ Ít chiếm tài nguyên hệ thống , hoạt động ổn định.
+ Các plug-in từ nhà cung cấp thứ ba (third-party) rất phong phú.
+ Ra đời sớm , chiếm nhiều tình cảm của người dùng...v.v..
Lê Nguyễn Minh Tuấn Page
12 of 93


Lê Nguyễn Minh Tuấn Page
13 of 93
Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng Cường

Chương 2: TỔNG QUAN

Trước đây , người dùng sử dụng Internet chỉ để tham khảo , tra cứu thông tin.
Tìm thấy thông tin mà mình cần là đã đạt yêu cầu. Nhưng đi kèm với sự phát triển vượt
bậc mạng Internet, các thông tin xấu hoặc không cần thiết xuất hiện càng nhiều. Do đó
dẫn đến nhu cầu lọc thông tin trên Internet để chỉ lấy ra những thông tin mà người
dùng cần xem hoặc được phép xem. Tuy các phần mềm đọc và phân loại các tin, báo
điện tử hiệu quả đã xuất hiện vài năm nay , việc lọc trang web xấu trên trình duyệt
Internet là một hướng tiếp cận còn mới.
Trên thế giới đã có các phần mềm để ngăn chặn các trang web xấu như Child
Control (download bản dùng thử miễn phí – free trial version - ở www.download.com)
…..Ở Việt Nam hiện nay cũng có một số phần mềm tương tự như
Depraved Web
Killer
của tác giả Vũ Lương Bằng (chung kết cuộc thi Trí Tuệ Việt Nam 2004).
Depraved Web Killer được tác giả thực hiện trong 18 tháng , viết trên nền Visual
Basic 6.0. Nhìn chung , các phần mềm này hoạt động khá tốt, tuy nhiên xét trên góc độ
nhu cầu quản lý thông tin không chỉ có ở gia đình , mà còn có ở văn phòng , thì các
phần mềm này còn một số chức năng chưa hỗ trợ:
+ administrator(quản trị) muốn các máy tính trong phạm vi quản lý phải sử dụng
chương trình chặn web xấu, và danh sách các trang web xấu cũng như các từ khóa bị
Lê Nguyễn Minh Tuấn Page
15 of 93
Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng Cường

Chương 3: NGHIÊN CỨU LÝ THUYẾT VÀ CÀI
ĐẶT THỰC TẾ

Phần này sẽ đề cập đến các thuật toán cũng như kỹ thuật lập trình đã sử dụng để
thực hiện luận văn , gồm có:
• Phân tích yêu cầu luận văn.
• Phương pháp, thuật toán chính
• Các kỹ thuật lập trình và cài đặt thực tế.
Ghi chú: Có một số kỹ thuật lập trình không nêu ra trong báo cáo này vì mục tiêu
của báo cáo là giúp người đọc nắm được các ý tưởng chính, các kỹ thuật chính để
thực hiện đề tài.
3.1 Phân tích yêu cầu:
Từ yêu cầu của luận văn , có thể chia công việc làm 2 nội dung chính:

• Nhận dạng thế nào là trang web xấu(Phương pháp, thuật toán chính).
• Viết plug-in cho Internet Explorer (Các kỹ thuật lập trình và cài đặt
thực tế).
và sẽ được đề cập tương ứng với phần Phương pháp, thuật toán chính và Các kỹ
thuật lập trình và cài đặt thực tế .
Ở đây chúng ta phải làm rõ khái niệm thế nào là một “trang web xấu”

sex, video sex… để thu hút người sử dụng Internet đến với mình.
Dưới con mắt của người châu Á nói chung và người Việt Nam nói riêng , các
website này làm băng hoại xã hội , khiến cho các thành phần thanh thiếu niên và một
số người trưởng thành sao nhãng học tập , làm việc , nảy sinh tư tưởng bệnh hoạn , gia
tăng các tệ nạn ….đi ngược lại với truyền thống văn hóa dân tộc.
Lê Nguyễn Minh Tuấn Page
17 of 93
Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng Cường

Tuy nhiên , ta phải biết rằng ở một số quốc gia có nền văn hóa rất thoáng như ở
Mỹ hay châu Âu, thì vẫn có một số website khiêu dâm được cấp phép hoạt động và chỉ
dành cho người trưởng thành(thậm chí ở Hy Lạp, người ta vẫn có thể quay phim sex
một cách công khai miễn là nộp thuế đủ cho chính phủ).Các site này hoạt động có tổ
chức rõ ràng và dưới sự kiểm soát của chính quyền nước sở tại. Như vậy , các website
này chưa hẳn đã là “xấu” theo khía cạnh pháp lý.
Vậy căn cứ vào đâu để chúng ta phân biệt đâu là một trang web “xấu”, đâu là
một trang web “không xấu”? Căn cứ vào truyền thống văn hóa của người Việt Nam,
căn cứ vào sự nhận xét đánh giá của xã hội nước Việt Nam, căn cứ vào luật pháp hiện
tại của chính phủ Việt Nam chưa có sự thừa nhận với nghành công nghiệp sex, tất cả
các website sử dụng các công cụ khiêu dâm (như đã liệt kê ở trên) đều bị xem là “trang
web xấu”.
Cũng trong khuôn khổ đề tài, do tính chất đặc thù của mỗi một dạng trang web như
trên, nên ngôn ngữ mà chúng tôi quan tâm như sau:
+ Trang web có nội dung phản động chính trị - ngôn ngữ quan tâm là tiếng Việt
Nam.
+ Trang web có nội dung khiêu dâm hoặc đồi trụy – ngôn ngữ quan tâm là tiếng

Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng Cường

3.2.1 Phương pháp đánh giá website dựa trên địa chỉ URL
Địa chỉ URL(Universal Resource Location) của một website là một chuỗi kí tự mà
người dùng Internet sử dụng để truy cập website đó.
Ví dụ:
Website của khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên
TP.HCM có địa chỉ URL là:
www.fit.hcmuns.edu.vn
Khi muốn truy cập website này , người dùng sẽ đánh vào ô địa chỉ trong trình
duyệt như sau:

( Các thông tin thêm về địa chỉ URL có thể xem phần phụ lục)
Dựa vào tính chất cơ bản của địa chỉ URL là : một địa chỉ URL tương ứng với một và
chỉ một website, chúng ta có thể chặn website xấu dựa trên địa chỉ URL của nó.
Trong phần này có 2 thuật toán được áp dụng:

Thuật toán 1:
Đánh giá dựa trên địa chỉ URL đầy đủ.

Thuật toán 1:
Đánh giá dựa trên URL keyword.
Lê Nguyễn Minh Tuấn Page
21 of 93
Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng CườngHình 2 Sơ đồThuật toán đánh giá dựa trên URL đầy đủ
Lê Nguyễn Minh Tuấn Page
23 of 93
Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455

Luận văn tốt nghiệp Mạng máy tính
GVHD: ThS Đỗ Hoàng CườngVí dụ:
www.truyenviet.com là một website bị cấm, khi người sử dụng truy cập
trang web này thì trình tự sẽ diễn ra như sau
Độ chính xác: độ chính xác của thuật toán này phụ thuộc vào database.
Ưu điểm của thuật toán:
+ Nếu đúng là website xấu có trong database, độ chính xác tuyệt đối 100%.
+ Không cần filter qua nội dung trang web, có kết quả ngay khi trình duyệt truy
cập URL mới.
+ Thuật toán đơn giản, dễ cài đặt.
+ Quá trình thực hiện không đòi hỏi nhiều tài nguyên.
+ Tốc độ thực hiện nhanh.
Nhược điểm của thuật toán:
+ Kết quả phụ thuộc vào tính chất đầy đủ của database, đòi hỏi phải liên tục cập
nhật database.
+ Sẽ để lọt các website mới chưa có trong database.
3.2.1.2 Đánh giá dựa trên URL keyword :

25 of 93
Đặng Thanh Vi
Mssv: 0112468 Mssv:0112455


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status