Luận văn thạc sĩ công nghệ thông tin Ứng dụng bản đồ tự tổ chức SOM (self organizing map) phát hiện phát tán virus máy tính qua hành vi - Pdf 24

NGUYỄN QUỐC DOANH
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
* * *

NGUYỄN QUỐC DOANH

NGÀNH CÔNG NGHỆ THÔNG TIN ỨNG DỤNG BẢN ĐỒ TỰ TỔ CHỨC
SOM (Self Organizing Map) PHÁT HIỆN
PHÁT TÁN VIRUS MÁY TÍNH QUA HÀNH VI

NGUYỄN QUỐC DOANH ỨNG DỤNG BẢN ĐỒ TỰ TỔ CHỨC
SOM (Self Organizing Map) PHÁT HIỆN
PHÁT TÁN VIRUS MÁY TÍNH QUA HÀNH VI

Chuyên ngành: Công nghệ thông tin
Mã số: 60.48.02.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRỊNH NGỌC MINH

Hình 4.9 Tài nguyên mạng 46
Hình 5.1 Mô hình tổng quát thực nghiệm phát hiện phát tán mã độc 51
Hình 5.2 Mô hình tổng quát các bước xây dựng bản đồ đặc trưng 51
Hình 5.3 Véc-tơ tham số đặc trưng được chuẩn hóa thành Nơron huấn luyện 51

Trang
Hình 5.4 Nội dung thuật toán bản đồ tự tổ chức 55
Hình 5.5 Mô hình xác định nơron chiến thắng và nơron lân cận 56
Hình 5.6 Cơ chế học của nơron chiến thắng và nơron lân cận 57
Hình 5.7 Nơ ron huấn luyện đặc trưng được chiếu vào bản đồ SOM 57
Hình 5.8 Mô hình tổng quát thực nghiệm Lab 60
Hình 5.9 Thông điệp phát tán worm Iloveyou 67
Hình 5.10 Các mẫu worm thực nghiệm 1 73
Hình 5.11 Các mẫu worm thực nghiệm 2 73
Hình 5.12 Giao diện chương trình phát hiện xâm nhập mã độc 74
Hình 5.13 Giao diện tải tập tin véc-tơ học 75
Hình 5.14 Các véc-tơ đặc trưng trước khi đưa vào huấn luyện 76
Hình 5.15 Khởi tạo bản đồ 76
Hình 5.16 Huấn luyện bản đồ 77
Hình 5.17 Cảnh báo phát hiện xâm nhập trong thời gian thực 77
Hình 5.18 Thực nghiệm 1 78
Hình 5.19 Kết quả thực nghiệm 1 79
Hình 5.20 Thực nghiệm 2 80
Hình 5.21 Kết quả thực nghiệm 2 81
Hình 5.22 Thực nghiệm 3 82
Hình 5.23 Kết quả thực nghiệm 3 82
Hình 5.24 Thực nghiệm 4 83
Hình 5.25 Kết quả thực nghiệm 4 84
Hình 5.26: Bản đồ mô tả các véc-tơ dữ liệu 85
Hình 5.27 Bản đồ mô tả các nơron ngẫu nhiên 86

DoS
Denial of Service

7
FN
False Negative

8
FP
False Positive

9
HIDS
Host based IDS

10
IDS
Intrusion Detection System
Hệ thống phát hiện sự xâm
nhập
11
LAN
Local Area Network

12
MIDS
Misuse-based IDS
Hệ thống phát hiện xâm
nhập theo dấu hiệu cho
trước

Một lần nữa, tôi xin khẳng định về sự trung thực của lời cam kết trên.

Biên Hòa, ngày 20 tháng 12 năm 2012
Tác giả luận văn Nguyễn Quốc Doanh
LỜI CẢM
Ơ
N
Xin chân thành cảm ơn Thầy Tiến sĩ Trịnh Ngọc Minh đã tận
tình hướng dẫn và quý Thầy Cô Phòng ISeLAB khu Công nghệ phần
mềm Đại học Quốc Gia Thành Phố Hồ Chí Minh đã cung cấp thông
tin, tư liệu để việc nghiên cứu luận văn của em được thuận lợi.

Cảm ơn quý Thầy, Cô phòng Sau đại học, khoa Công nghệ thông
tin Trường Đại Học Lạc Hồng. Đồng thời cảm ơn quý thầy cô đã trực
tiếp giảng dạy, truyền đạt những kiến thức quý báu trong chương trình
Cao học, cùng các bạn đồng nghiệp đã nhiệt tình trao đổi, góp ý để tôi
có thêm kinh nghiệm hoàn thành luận văn của mình.

Biên Hòa, ngày 20 tháng 12 năm 2012
Học viên

Nguyễn Quốc Doanh

MỤC LỤC

hệ thống phát hiện xâm nhập bất thƣờng (Anomaly-based IDS) 14
2.4.1 Misuse – based system 14
2.4.2 Anomaly – based system 15
2.5 Phân loại các dấu hiệu 16
2.5.1 Phát hiện dấu hiệu bất thƣờng 16
2.5.2 Các mẫu hành vi thông thƣờng- phát hiện bất thƣờng 16
2.5.3 Các dấu hiệu có hành vi bất thƣờng – phát hiện dấu hiệu 17
CHƢƠNG 3 - BẢN ĐỒ TỰ TỔ CHỨC 20
3.1. Giới thiệu 20
3.2. Cấu trúc mạng Kohonen 21
3.3 Thuật giải Bản đồ tự tổ chức (SOM) 22
3.3.1 Khởi tạo: 22
3.3.2 Chọn phần tử đại diện: 22
3.3.3 Tìm mẫu khớp tốt nhất (BMU) : 22
3.3.4 Xây dựng các phần tử lân cận: 23
3.3.5 Hiệu chỉnh trọng số của các phần tử lân cận 24
3.3.6 Vòng lặp 26
3.7. Chất lƣợng “Bản đồ tự tổ chức” 26
3.8. Các phƣơng pháp trực quan minh họa “Bản đồ tự tổ chức” 27
3.9. Phƣơng pháp tìm ngƣỡng cảnh báo 29
3.10. Phát hiện tấn công ứng dụng “Bản đồ tự tổ chức” 30
3.4 Ƣu và nhƣợc điểm của SOM 31
3.4.1 Ƣu điểm 31
3.4.2 Nhƣợc điểm 31
CHƢƠNG 4: CÁCH THỨC PHÁT TÁN CỦA VIRUS, WORM VÀ MỘT SỐ
VẤN ĐỀ LIÊN QUAN 32
4.1. Các cơ chế phát hiện phát tán virus máy tính 32
4.1.1. Phát hiện virus dựa vào chuỗi nhận dạng 32
4.1.2. Phát hiện virus dựa vào hành vi 33
4.1.3. Phát hiện virus dựa vào ý định 33

5.6.2 Môi trƣờng thực nghiệm: 58
5.6.2.1 Phần mềm tạo máy ảo VMware Workstation 58
5.6.2.2 Phần mềm đóng băng ổ cứng Deep Freeze: 59
5.7 Mô hình đề xuất 60
5.7.1 Xây dựng mô hình thực nghiệm 60
5.7.2 Cấu hình máy phát hiện xâm nhập IDS: 60
5.7.3 Cấu hình máy Mail Sever: 60
5.7.4 Cấu hình máy trạm: 61
5.8. Phân tích cách thức hoạt động của một số sâu 61
5.8.1 Worm Mydoom.s 61
5.8.2 Worm W32.NetSky.P 62
5.8.3 Worm Sasser 63
5.8.4 Loveletter 64
5.8.5. Phân tích sâu Blaster 69
5.9 Phƣơng pháp phát hiện mã độc phát tán ứng dụng Bản đồ tự tổ chức 72
5.10 Chƣơng trình thực nghiệm phát hiện xâm nhập mã độc 74
5.10.1 Tải tập tin dữ liệu học 74
5.10.2 Hiển thị nội dung véc-tơ học 75
5.10.3 Khởi tạo bản đồ: 76
5.10.4 Huấn luyện bản đồ 77
5.10.5 Dò tìm xâm nhập bất thƣờng 77
5.10.5.1 Thực nghiệm 1 78
5.10.5.2 Thực nghiệm 2 79
5.10.5.3 Thực nghiệm 3 81
5.10.5.4 Thực nghiệm 4 83
5.10.6 Huấn luyện và tính chất lƣợng “Bản đồ tự tổ chức” 85
5.11 Ứng dụng ngƣỡng cảnh báo vào thực nghiệm 87
5.12 Đánh giá kết quả thực nghiệm 87
5.13 Kết luận 88
CHƢƠNG 6: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 89

các mục tiêu máy tính được nối mạng và lấy cắp những thông tin từ mục tiêu này
mà người sử dụng không hay biết gì, mã độc thực sự trở thành mối đe dọa thường
xuyên và cấp bách của các hệ thống Công nghệ thông tin hiện nay.
Trong bối cảnh đó đề tài “Ứng dụng Bản đồ tự tổ chức (SOM - Self
Organizing Map) phát hiện phát tán virus qua hành vi” được tiến hành
nhằm góp phần giải quyết vấn đề bảo vệ an toàn dữ liệu cho các hệ thống Công
nghệ thông tin hiện nay.
-2-

1.1.2 Mục tiêu của đề tài
- Nghiên cứu hệ thống phát hiện xâm nhập (IDS – Intrusion Detection
System).
- Nghiên cứu các cách lây lan của virus, worm phổ biến hiện nay.
- Nghiên cứu và cài đặt cách thức lấy các tham số đặc trưng của mã độc
trong hệ thống mạng.
- Khảo sát, phân tích thuật toán Bản đồ tự tổ chức (SOM).
- Ứng dụng bản đồ tự tổ chức SOM để trích chọn các tham số đặc trưng
của một hệ thống mạng trong trạng thái “bất thường” rồi triển khai, phân tích, so
sánh thông tin về hoạt động mạng trong thời gian thực. Sau đó so sánh với
những trạng thái thu nhận khi “bất thường” để phát hiện ra các tấn công của sâu
máy tính thông qua hành vi bất thường.
- Trên cơ sở nhận dạng, phát hiện dấu hiệu “bất thường” các trường hợp
lây nhiễm, tiềm ẩn đã biết trên hệ thống đích “Ứng dụng Bản đồ tự tổ chức
(SOM - Self Organizing Map) phát hiện phát tán virus qua hành vi.”
1.1.3 Các giai đoạn thực hiện đề tài
Quá trình nghiên cứu đề tài được tiến hành qua các giai đoạn như sau
Giai đoạn 1: Xây dựng hệ thống mạng
- Xây dựng hệ thống mạng để làm thực nghiệm (Lab), giả lập phát tán mã
độc trên hệ thống mạng máy tính.
Giai đoạn 2: Thu thập dữ liệu

sử dụng các mô hình có liên quan đến các kỹ thuật tối ưu các tham số. Các hệ
học có ưu điểm:
 Xử lý dữ liệu với khối lượng lớn.
 Hỗ trợ các kỹ thuật phân tích, xử lý, trích chọn và chi tiết hóa dữ
liệu
 Phát sinh luật từ dữ liệu, thích hợp cho các trường hợp cần tham
khảo ý kiến chuyên gia tư vấn cho các lĩnh vực cụ thể, có tính chuyên
sâu.
 Hỗ trợ quyết định xử lý liên quan đến kinh nghiệm của con
người…
-4-

Các hệ học có hai giai đoạn cơ bản: Học dữ liệu và xử lý dữ liệu.
- Học dữ liệu là quá trình phân tích và tìm ra những điểm tương đồng
trong dữ liệu để sản sinh luật.
- Giai đoạn xử lý ước lượng đặc tính dữ liệu mới dựa trên luật đã được
phát sinh ở giai đoạn học. Có thể chia các quá trình học thành hai dạng
chính:[4] học có giám sát (suppervised learning) và học không giám sát
(unsuppervised learning).
1.2.2 Học giám sát
Quá trình học giám sát được tiến hành trên một tập dữ liệu mẫu với giá trị
được phân loại (gán nhãn) sẵn. Tập dữ liệu luyện gồm:
S = {x
i
, c
j
| i = 1,…, M; j = 1,…, C}
Trong đó x
i
là véc-tơ n chiều (gọi là đặc trưng của dữ liệu)

1.2.4 Bản đồ tự tổ chức (SOM)
Con người có khả năng sử dụng kinh nghiệm quá khứ để thích nghi với
những thay đổi của môi trường. Sự thích nghi đó không cần hướng dẫn hay chỉ
đạo từ bên ngoài. Mạng nơron thực hiện theo nguyên lý đó gọi là mạng tự tổ
chức hay Bản đồ tự tổ chức. SOM được Kohonen phát triển vào đầu thập những
năm 80, nên cũng thường được gọi là mạng Kohonen. SOM được dùng để gom
cụm dữ liệu (data clustering), nghĩa là học không có hướng dẫn (unsupervised
learning) hay học không giám sát.
1.2.3 Sâu máy tính và các hệ thống đích
Con người đã tốn rất nhiều công sức để giải quyết bài toán nhận dạng sâu
máy tính (worm). Tuy nhiên, các anti-virus vẫn chưa làm chủ được tình hình.
Sâu máy tính vẫn liên tục quấy nhiễu, thâm nhập mạng, đánh cắp thông tin, làm
sai lệch dữ liệu nhiều hệ thống Công nghệ thông tin trên thế giới cũng như ở
Việt Nam.
Sâu máy tính là sản phẩm của con người. Cuộc chiến giữa Anti Virus và
sâu máy tính là cuộc đấu trí giữa chuyên gia hệ thống và tin tặc. Xuất phát từ
nhận định này, đề tài chọn cách phối hợp tiếp cận học (machine learning) để tìm
lời giải cho bài toán phát hiện sâu máy tính qua hành vi.
-6-

Sâu máy tính là một chương trình có khả năng tự nhân bản và tự lây nhiễm
trong hệ thống tuy nhiên nó có khả năng “tự đóng gói”, điều đó có nghĩa là sâu
máy tính không cần phải có “file chủ” để mang nó khi nhiễm vào hệ thống. Như
vậy, có thể thấy rằng chỉ dùng các chương trình quét tập tin sẽ không diệt được
sâu máy tính trong hệ thống vì sâu máy tính không “bám” vào tập tin hoặc một
vùng nào đó trên đĩa cứng. Mục tiêu của sâu máy tính bao gồm cả làm lãng phí
nguồn lực băng thông của mạng và phá hoại hệ thống như xoá file, tạo
backdoor, thả keylogger, Tấn công của sâu máy tính có đặc trưng là lan rộng
cực kỳ nhanh chóng do không cần tác động của con người (như khởi động máy,
copy file hay đóng/mở file). Sâu máy tính có thể chia làm 2 loại:

mô hình tổng quát thuật toán Bản đồ tự tổ chức SOM trong việc phát hiện phát
tán mã độc lây lan trong hệ thống mạng. Áp dụng tiếp cận máy học và Bản đồ tự
tổ chức SOM, sẽ được triển khai qua ba giai đoạn. Giai đoạn Học dữ liệu để thu
được tập véc-tơ học, giai đoạn Xử lý dữ liệu - thành phần cốt lõi (kernel) và giai
đoạn Tổng kết - đưa ra cảnh báo virus, worm lây lan trên hệ thống mạng. Triển
khai trên hệ thống mạng theo mô hình server - client, chương trình được thiết kế
cài đặt chạy trên máy sử dụng điều hành Linux CentOS 6.2. Mỗi gói trong
chương trình có chức năng cấu trúc dữ liệu, sử dụng các thuật giải học phân
cụm, phân lớp dữ liệu khác nhau. Phần cuối Chương 5 trình bày các kết quả thực
nghiệm của đề tài.
Chương 6: Tổng kết các đóng góp về mặt lý thuyết, đánh giá ý nghĩa thực
tiễn, phân tích hạn chế, đề xuất các biện pháp khắc phục và dự kiến hướng phát
triển tương lai của đề tài.
1.4 Ý nghĩa thực tiễn của đề tài
Ở nước ta mặc dù đã có nhiều đề tài nghiên cứu về virus máy tính, nhưng
chưa có công trình nào đề cập và giải quyết bài toán nhận dạng mã độc một cách
toàn diện. Không chỉ dừng lại ở việc nghiên cứu lý thuyết, đề tài cũng đặt ra
mục tiêu thực tiễn là:
- Xây dựng hệ thống mạng để làm thực nghiệm, phát hiện phát tán mã độc
trên hệ thống đích.
- Xây dựng bộ tham số đặc trưng của hệ thống máy IDS
-8-

- Xây dựng thuật toán gán trọng số các đặc trưng để giảm tỉ lệ cảnh báo
sai.
- Xây dựng thuật toán tìm ngưỡng cảnh báo phù hợp cho từng nơron chiến
thắng khác nhau và ứng dụng ngưỡng này vào quá trình dò tìm dấu hiệu „bất
thường”.
- Cài đặt thuật toán SOM đã nêu trong đề tài: như tạo véc-tơ đặc trưng,
chuẩn hóa dữ liệu, huấn luyện “bản đồ tự tổ chức”, mô hình hóa bản đồ, chạy

xâm nhập được kiểm tra một cách cẩn thận, đây là nhiệm vụ chính cho mỗi IDS
để phát hiện các dấu hiệu tấn công.
Khi một sự xâm nhập được phát hiện, IDS đưa ra các cảnh báo đến các
quản trị viên hệ thống về sự việc này. Bước tiếp theo được thực hiện bởi các
quản trị viên hoặc có thể là bản thân IDS bằng cách lợi dụng các tham số đo bổ
sung (các chức năng khóa để giới hạn các session, backup hệ thống, định tuyến
các kết nối đến bẫy hệ thống, cơ sở hạ tầng hợp lệ,…) theo các chính sách bảo
mật của các tổ chức.[5] IDS là một thành phần nằm trong hệ thống bảo vệ của
hệ thống thông tin.
Giữa các nhiệm vụ IDS khác nhau, việc nhận ra kẻ xâm nhập là một trong
những nhiệm vụ cơ bản. Nó cũng hữu dụng trong việc nghiên cứu mang tính
pháp lý các tình tiết và việc cài đặt các bản vá thích hợp để cho phép phát hiện
các tấn công trong tương lai nhằm vào các cá nhân cụ thể hoặc tài nguyên hệ
thống.
Phát hiện xâm nhập đôi khi có thể đưa ra các báo cảnh sai, ví dụ những vấn
đề xảy ra do trục trặc về giao diện mạng hoặc việc gửi phần mô tả các tấn công.

Hình 2.2 : Cấu trúc hệ thống phát hiện xâm nhập dạng tập trung
-11-

2.2.1 Thành phần thu thập gói tin
Thành phần này có nhiệm vụ lấy tất các gói tin đi đến mạng. Thông thường
các gói tin có địa chỉ không phải của một card mạng thì sẽ bị card mạng đó huỷ
bỏ nhưng card mạng của IDS được đặt ở chế độ thu nhận tất cả. Tất cả các gói
tin qua chúng đều được sao chụp, xử lý, phân tích đến từng trường thông tin. Bộ
phận thu thập gói tin sẽ đọc thông tin từng trường trong gói tin, xác định chúng
thuộc kiểu gói tin nào, dịch vụ gì Các thông tin này được chuyển đến thành
phần phát hiện tấn công.
2.2.2 Thành phần phát hiện gói tin
Ở thành phần này, đóng vai trò lọc thông tin và loại bỏ những thông tin dữ

 Phát hiện sự bất thường: Thiết lập một hiện trạng các hoạt động bình
thường và sau đó duy trì một hiện trạng hiện hành cho một hệ thống. Khi
hai yếu tố này xuất hiện sự khác biệt, nghĩa là đã có sự xâm nhập.
 Các hệ thống IDS khác nhau đều dựa vào phát hiện các xâm nhập trái
phép và những hành động bất thường.
Quá trình phát hiện có thể được mô tả bởi 3 yếu tố cơ bản nền tảng sau:
+ Thu thập thông tin (information source): Kiểm tra tất cả các gói
tin trên mạng.
+ Sự phân tích (Analysis): Phân tích tất cả các gói tin đã thu thập để
cho biết hành động nào là tấn công.
+ Cảnh báo (response): hành động cảnh báo cho sự tấn công được
phân tích ở trên
2.3.1 Network Base IDS (NIDS)
Được đặt giữa kết nối hệ thống mạng bên trong và mạng bên ngoài để giám
sát toàn bộ lưu lượng vào ra. Có thể là một thiết bị phần cứng riêng biệt được
thiết lập sẵn hay phần mềm cài đặt trên máy tính. Chủ yếu dùng để đo lưu lượng
mạng được sử dụng. Tuy nhiên có thể xảy ra hiện tượng nghẽn cổ chai khi lưu
lượng mạng hoạt động ở mức cao.
 Ƣu điểm:
-13-

- Quản lý được cả một network segment (gồm nhiều host)
- "Trong suốt" với người sử dụng lẫn kẻ tấn công
 Nhƣợc điểm:
- Có thể xảy ra trường hợp báo động giả (false positive), tức không có
intrusion mà NIDS báo là có intrusion.
- Không thể phân tích các traffic đã được encrypt (vd: SSL, SSH,
IPSec…)
- NIDS đòi hỏi phải được cập nhật các signature mới nhất để thực sự an
toàn

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Luận văn thạc sĩ công nghệ thông tin Ứng dụng bản đồ tự tổ chức SOM (self organizing map) phát hiện phát tán virus máy tính qua hành vi - Pdf 24

Tài liệu, ebook tham khảo khác

Học thêm