Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
NGUYỄN VĂN DIỄN
NGHIÊN CỨU GIẢI PHÁP PHÁT HIỆN XÂM NHẬP MẠNG MÁY
TÍNH BẤT THƯỜNG DỰA TRÊN KHAI PHÁ DỮ LIỆU
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - 2014
i
tin & Truyền thông Thái Nguyên, Viện Công nghệ Thông Tin, những ngƣời đã
nhiệt tình giảng dạy và truyền đạt những kiến thức quí báu trong suốt thời gian em
học tập và nghiên cứu tại trƣờng. Với vốn kiến thức tiếp thu đƣợc trong quá trình
học tập và nghiên cứu không chỉ là nền tảng cho quá trình nghiên cứu luận văn mà
còn là hành trang quí báu trong quá trình hoạt động chuyên môn của em.
Cuối cùng, em xin kính chúc Quý thầy cô, đồng nghiệp, gia đình dồi dào sức
khỏe và thành công.
Trân trọng cảm ơn!
iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC TỪ VIẾT TẮT vi
DANH MỤC BẢNG vii
DANH MỤC HÌNH viii
MỞ ĐẦU ix
TỔNG QUAN VỀ NHIỆM VỤ CỦA LUẬN VĂN xi
CHƢƠNG 1: HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG VÀ PHƢƠNG PHÁP
PHÁT HIỆN XÂM NHẬP MẠNG 1
1. 1 Hệ thống phát hiện xâm nhập mạng IDS (Intrusion Detection System) 1
1.1.1. Định nghĩa 1
1.1.2. Vai trò, chức năng của IDS 1
1.1.3. Mô hình IDS mức vật lý 2
1.1.4. Kiến trúc và hoạt động bên trong mô hình hệ thống IDS 3
1.1.5. Phân loại IDS 6
1.1.6. Một số kiểu tấn công cơ bản vào hệ thống mạng 8
1. 2 Một số phƣơng pháp phát hiện bất thƣờng trong hệ thống IDS 11
1.2.1 Phƣơng pháp tiếp cận dựa trên xác suất thống kê 11
1.2.2 Phƣơng pháp tiếp cận dựa trên trạng thái 12
v
3.6. Nhận xét bài toán KPDL 59
KẾT LUẬN VÀ HƢỚNG PHÁP TRIỂN 61
TÀI LIỆU THAM KHẢO 62
vi DANH MỤC TỪ VIẾT TẮT
ADAM Audit Data Analysis Mining
CSDL Cơ sở dữ liệu
DdoS Distributed Daniel of Servies
DOS Daniel of Services
HIDS Host Instrucsion Detection System
HTTP Hypertext Markup Languge
ICMP Internet Control Message Protocol
IDS Intrucsion Detection System
IDDM Intrucsion Detection Data Mining
IPS Intrucsion Prevention System
IP Internet Protocol
KPDL Khai phá dữ liệu
LOF Local Outlier Partor
LSC Local Sparsity Ratio
NIDS Networks Instrusion Detection System
MAC Media Accsess Controllers
SQL Structured Query Language
VPN Virtual Private Network
TCP Transmission Control Protocol
UDP User Datagram Protocol
Hình 1.1: Mô hình IDS vật lý
Hình 1.2: Kiến trúc Modul trong IDS
Hình 1.3: Mô hình thu thập dữ liệu ngoài luồng
Hình 1.4: Mô hình thu thập dữ liệu trong luồng
Hình 1.5: Modul phân tích, phát hiện tấn công
Hình 1.6: Quá trình khám phá tri thức
Hình 2.1: Gán giá trị để lƣợng hóa các cuộc tấn công trên sơ đồ
Hình 2.2: Minh họa bài toán phát hiện phần tử dị biệt
Hình 2.3: Khoảng cách Reach – dist
Hình 2.4: Phƣơng pháp LOF
Hình 2.5: Thuật toán LSC – Mine
Hình 2.6: Mô hình phát hiện bất thƣờng sử dụng kỹ thuật KPDL
Hình 2.7: Mô hình Modul tổng hợp
Hình 3.1: Lƣu đồ thuật toán K-Medoids
Hình 3.2: Tiến trình phát hiện xâm nhập mạng sử dụng kỹ thuật phân cụm
Hình 3.3: Biểu diễn CSDL mạng
Hình 3.4: Biến đổi dữ liệu trong CSDL
Hình 3.5: Gom cụm dữ liệu trong CSDL
Hình 3.6: Biểu diễn kết quả mẫu bất thƣờng
Hình 3.7: Giao diện Menu chính
Hình 3.8: Giao diện khai phá trên giao thức HTTP
Hình 3.9: Giao diện khai phá dữ liệu tự động
Hình 3.10: Giao diện tiền xử lý
Hình 3.11: Giao diện khai phá dựa trên ngƣỡng kết nối
ix
MỞ ĐẦU
sử dụng trong các hệ thống thời gian thực.
Đây là lý do để chúng tôi chọn đề tài “ Nghiên cứu giải pháp phát hiện xâm
nhập mạng máy tính bất thƣờng dự trên khai phá dữ liệu”. Đề tài sẽ tập trung
nghiên cứu phƣơng pháp phát hiện xâm nhập mạng máy tính bất thƣờng bằng kỹ
thuật khai phá dữ liệu để phát hiện các hành vi xâm nhập một cách tự động dựa trên
dấu hiệu bất thƣờng so với dữ liệu quá khứ.
xi
TỔNG QUAN VỀ NHIỆM VỤ CỦA LUẬN VĂN
Với mục tiêu xây dựng đƣợc một giải pháp an toàn mạng cho các nhà quản trị
mạng, luận văn tập trung vào nghiên cứu một số phƣơng pháp phát hiện xâm nhập
mạng dựa trên cơ chế phát hiện bất thƣờng của các hệ thống phát hiện xâm nhập
mạng hiện nay. Từ đó, đề xuất đƣợc ý kiến triển khai một hệ thống hoạt động dựa
theo một trong các phƣơng pháp đó. Với mong muốn đƣa ra đƣợc một giải pháp tốt
mật, tính toàn vẹn và tính sẵn sàng của hệ thống.
Nhƣ vậy, hệ thống phát hiện xâm nhập là một thành phần quan trọng trong hệ
thống bảo mật mạng, hệ thống này liên tục theo dõi các hoạt động diễn ra trong
mạng hay trên một máy nhất định, nó thu thập thông tin từ nhiều nguồn khác nhau,
phân tích, tổng hợp để tìm ra những hiểm họa hay những dấu hiệu có khả năng đe
dọa tính toàn vẹn, tính sẵn sàng hay tính xác thực của hệ thống, đồng thời hệ thống
cũng có thể đƣa ra các phản ứng đối với mỗi hành vi hiểm họa phát hiện đƣợc. Tất
cả những thông tin thu thập đƣợc và các cơ chế phát hiện cũng nhƣ cơ chế ngăn
chặn hay cơ chế phản ứng đều phải tuân theo các chính sách bảo mật.
1.1.2. Vai trò, chức năng của IDS
- Phát hiện các nguy cơ tấn công và truy nhập trái phép
Đây là vai trò chính của một hệ thống phát hiện xâm nhập IDS, nó có nhiệm
vụ xác định những tấn công và truy nhập trái phép vào hệ thống mạng bên trong. Hệ
thống IDS có khả năng hỗ trợ phát hiện các nguy cơ an ninh đe dọa mạng mà các hệ
thống khác không có, kết hợp với hệ thống ngăn chặn xâm nhập IPS (Intrusion
2 Prevention System) giúp cho hệ thống chặn đứng, hạn chế các cuộc tấn công, xâm
nhập từ bên ngoài.
- Tăng khả năng hiểu biết về những gì đang hoạt động trên mạng
IDS cung cấp khả năng giám sát xâm nhập và khả năng mô tả an ninh để cung
cấp kiến thức tổng hợp về những gì đang chạy trên mạng từ góc độ ứng dụng cũng
nhƣ góc độ mạng cùng với khả năng liên kết với phân tích, điều tra an ninh nhằm
đƣa ra các thông tin về hệ thống nhờ đó giúp ngƣời quản trị nắm bắt và hiểu rõ
những gì đang diễn ra trên mạng.
- Khả năng cảnh báo và hỗ trợ ngăn chặn tấn công
IDS có thể hoạt động trong các chế độ làm việc của một thiết bị giám sát thụ
động hỗ trợ cho các thiết bị giám sát chủ động hay nhƣ là một thiết bị ngăn chặn
chủ động. Hỗ trợ cho các hệ thống an ninh đƣa ra các quyết định về lƣu lƣợng dựa
Hình 1.2: Kiến trúc Modul trong IDS
4 Có hai mô hình chính để thu thập dữ liệu đó là : Mô hình ngoài luồng và Mô
hình trong luồng.
+ Mô hình thu thập dữ liệu ngoài luồng: Trong mô hình ngoài luồng không
can thiệp trực tiếp vào luồng dữ liệu. Luồng dữ liệu vào ra hệ thống mạng sẽ đƣợc
sao một bản và đƣợc chuyển tới modul thu thập dữ liệu .
Theo cách tiếp cận này hệ thống phát hiện xâm nhập IDS không làm ảnh
hƣởng tới tốc độ lƣu thông của mạng. + Mô hình thu thập dữ liệu trong luồng: Trong mô hình này, hệ thống phát
hiện xâm nhập IDS đƣợc đặt trực tiếp vào luồng dữ liệu vào ra trong hệ thống
mạng, luồng dữ liệu phải đi qua hệ thống phát hiện xâm nhập IDS trƣớc khi đi vào
trong mạng.
Ƣu điểm của mô hình này là: hệ thống phát hiện xâm nhập IDS trực tiếp kiểm
soát luồng dữ liệu và phản ứng tức thời với các sự kiện an toàn.
Nhƣợc điểm của mô hình này là: ảnh hƣởng đáng kể đến tốc độ lƣu thông của
mạng.
Hình 1.3: Mô hình thu thập dữ liệu ngoài luồng
5
+ Module phân tích, phát hiện tấn công: Đây là modul quan trọng nhất nó có
nhiệm vụ phát hiện các tấn công. Modul này đƣợc chia thành các giai đoạn: Tiền xử
lý, phân tích, cảnh báo.
khác nhau.
1.1.5. Phân loại IDS
- Dựa trên phương thức phát hiện tấn công: bao gồm phát hiện lạm dụng và
phát hiện bất thƣờng.
+ Phát hiện lạm dụng: thông thƣờng còn có tên là phát hiện dựa trên dấu hiệu.
Phát hiện lạm dụng đòi hỏi những file mẫu của dấu hiệu để nhận dạng những hành
động xâm nhập. Những file mẫu của dấu hiệu sử dụng trong phƣơng pháp phát hiện
lạm dụng phải đƣợc cập nhật thƣờng xuyên.
Ưu điểm: có thể phát hiện và đƣa ra cảnh báo chính xác cuộc tấn công dựa
trên sự so sánh tƣơng xứng đối với bất kỳ dấu hiệu nào đã đƣợc định dạng trong
File mẫu của dấu hiệu.
7 Nhược điểm: Không có khả năng phát hiện các cuộc tấn công mới hoặc sự
thay đổi của các cuộc tấn công khi File mẫu các dấu hiệu tấn công chƣa đƣợc cập
nhật.
+ Phát hiện dựa trên sự bất thƣờng: là mô tả sơ lƣợc phân tích những hoạt
động của mạng máy tính và lƣu lƣợng mạng nhằm tìm kiếm sự bất thƣờng. Khi tìm
thấy sự bất thƣờng, một tín hiệu cảnh báo sẽ đƣợc khởi phát. Sự bất thường là bất
cứ sự chệch hướng hay đi khỏi những thứ tự, định dạng, nguyên tắc thông
thường. Chính vì dạng phát hiện này tìm kiếm những bất thƣờng nên nhà quản trị
bảo mật phải định nghĩa đâu là những hoạt động, lƣu lƣợng bình thƣờng.
Nhà quản trị bảo mật có thể định nghĩa những hoạt động bình thƣờng bằng
cách tạo ra những bản mô tả sơ lƣợc nhóm ngƣời dùng (user group profiles). Bản
mô tả sơ lƣợc nhóm ngƣời dùng thể hiện ranh giới giữa những hoạt động cũng nhƣ
những lƣu lƣợng mạng trên một nhóm ngƣời dùng cho trƣớc. Những nhóm ngƣời
dùng đƣợc định nghĩa và đƣợc dùng để thể hiện những chức năng công việc chung.
Một cách điển hình, những nhóm sử dụng nên đƣợc chia theo những hoạt động
cũng nhƣ những nguồn tài nguyên mà nhóm đó sử dụng. Nếu một ngƣời sử dụng
của hệ thống mạng, để phát hiện xâm nhập cho khu vực đó
Ƣu điểm: Phát hiện tốt các cuộc tấn công xâm nhập từ bên ngoài, phát hiện
dựa trên thông tin, dữ liệu trên toàn bộ mạng. Tiết kiệm chi phí và dễ dàng trong
quá trình cài đặt và triển khai.
Nhƣợc điểm: Khó tƣơng thích với các Swich, router, hạn chế về hiệu năng vì
phải liên tục sử lý một lƣợng lớn thông tin, làm tăng lƣu lƣợng mạng do các bộ
phận của IDS luôn phải thƣờng xuyên trao đổi thông tin với nhau và thay đổi với
trong tâm phân tích.
1.1.6. Một số kiểu tấn công cơ bản vào hệ thống mạng
1.1.6.1. Tấn công từ chối dịch vụ (Denial of Service attack): là kiểu tấn
công làm cho hệ thống máy tính hay hệ thống mạng quá tải, không thể cung cấp
dịch vụ hoặc phải ngừng hoạt động. Trong các cuộc tấn công từ chối dịch vụ, máy
9 chủ dịch vụ sẽ bị “ngập” bởi hàng loạt các lệnh truy cập từ lƣợng kết nối khổng lồ.
Khi số lệnh truy cập quá lớn, máy chủ sẽ quá tải và không còn khả năng xử lý các
yêu cầu. Hậu quả là ngƣời dùng không thể truy cập vào các dịch vụ trên các trang
Web bị tấn công từ chối dịch vụ. Hiện nay xuất hiện một số dạng tấn công từ chối
dịch vụ:
- Tấn công từ chối dịch vụ cổ điển DoS(Denial of Service): là một phƣơng
thức tấn công từ chối dịch vụ xuất hiện đầu tiên với các kiểu tấn công nhƣ Smurl
Attack, Tear Drop, … các kiểu tấn công này thƣờng áp dụng đối với đối tƣợng tấn
công là hệ thống máy chủ bảo mật kém, băng thông yếu, thậm chí trong nhiều
trƣờng hợp đối tƣợng tin tặc có thể sử dụng đƣờng truyền có tốc độ vừa phải cũng
có thể thực hiện thành công kiểu tấn công này.
- Tấn công từ chối dịch vụ phân tán DDoS(Distributed Denial of Service): là
kiểu tấn công chủ yếu nhằm vào việc chiếm dụng băng thông (Bandwidth) gây
nghẽn mạch hệ thống, dẫn đến ngƣng hoạt động hệ thống.
- Tấn công từ chối dịch vụ phản xạ nhiều vùng DRDoS(Distributed
truy nhập và khai thác console đặc quyền, thăm dò file và các lỗi của hệ điều hành.
Ta có thể sử dụng giải pháp của IDS nhƣ: Network-based IDS để phát hiện các
hành động thay đổi đặc quyền trái phép này. Do Host-based IDS có thể tìm kiếm,
đƣa ra hoặc có thể ngừng ngay mọi hành động của ngƣời dùng không có đặc quyền
có sự thay đổi không thông qua hệ thống phân quyền đƣợc quản lý.
1.1.6.5. Tấn công cài đặt mã độc nguy hiểm (Hostile code insertion): Kẻ
tấn công có thể sử dụng hoặc cài đặt một số chƣơng trình nguy hiểm nhƣ: Virus,
Trojan Horse, Backdoor, malicious Apple, … vào hệ thống thông qua lỗ hổng bảo
mật hoặc sự bất cẩn của ngƣời sử dụng nhằm lấy trộm dữ liệu, gây từ chối dịch vụ,
xóa file, hay tạo backdoor cho lần truy nhập trái phép tiếp theo vào hệ thống.
1.1.6.6. Tấn công khai thác lỗ hổng (Application – Level Attacks): Hầu hết
các chƣơng trình đang sử dụng thƣờng chƣa đƣợc tối ƣu lỗi, đây là nguồn để kẻ tấn
công có thể truy nhập bất hợp pháp vào hệ thống thông qua các lỗi chúng có thể tìm
kiếm đƣợc từ hệ thống của ngƣời sử dụng. Kẻ tấn công thƣờng sử dụng các chƣơng
trình quét tìm kiếm các lỗi trên hệ thống, sau đó sử dụng hoặc phát triển các công cụ
11 khai thác lỗ hổng để tấn công xâm nhập trái phép vào hệ thống thông qua các lỗ
hổng tìm thấy tùy vào mức độ lỗi của hệ thống.
1.1.6.7. Tấn công vào nội dung CSDL (Proprietary data theft): Kẻ tấn
công thƣờng lợi dụng các lỗ hổng bảo mật hoặc lợi dụng sự bất cẩn của ngƣời dùng
để cài đặt các câu lệnh truy vấn SQL bất hợp pháp vào cơ sở dữ liệu từ các ứng
dụng trên Web. Kẻ tấn công thƣờng có thể tấn công vào các ứng dụng web có dữ
liệu đƣợc quản lí bằng các hệ quạn trị cơ sở dữ liệu nhƣ SQL Server, Oracle, DB2,
Sysbase.
Một số kiểu tấn công vào nội dung CSDL: Chèn mã lệnh thực thi các trình
duyệt, chèn câu lệnh trên hệ thống, chèn câu truy vấn SQL, chèn ngôn ngữ hoặc các
ký tự mở rộng trên máy chủ, …
1. 2 Một số phƣơng pháp phát hiện bất thƣờng trong hệ thống IDS
các tấn công đã biết và chƣa biết. Tại cùng một thời điểm, nó có một tỷ lệ cảnh báo
nhầm có thể so sánh đƣợc với các phƣơng pháp phát hiện xâm nhập dựa trên dấu
hiệu. Tuy nhiên nó có giá thành khá cao do phải xây dựng các mô hình chuyển
trạng thái của các giao thức mạng. Bên cạnh đó, các hệ thống dựa trên trạng thái
đều gặp phải vấn đề lớn về kích thƣớc của mô hình hệ thống.
Một trong các bộ phân loại phát hiện bất thƣờng áp dụng cách tiếp cận này là
các mô hình chuỗi Markov ẩn. Đây là một máy trạng thái hữu hạn mạnh, mỗi trạng
thái đại diện một chuỗi các lời gọi hệ thống hoặc các hành vi của ngƣời dùng. Trong
mỗi trạng thái, có một giá trị xác suất của việc sinh ra các trạng thái đầu ra và một
xác suất chỉ ra các trạng thái kế tiếp. Trong quá trình huấn luyện, máy trạng thái
hữu hạn này sẽ đƣợc cập nhật các trạng thái mà nó đƣợc học. Sau đó trong pha phát
hiện, các sự kiện chuyển trạng thái bất thƣờng sẽ bị hệ thống phát hiện và phát ra
cảnh báo.
1.2.3 Phƣơng pháp tiếp cận dựa trên hệ chuyên gia
Để phát hiện bất thƣờng, các hệ chuyên gia mô tả các hành vi bình thƣờng của
ngƣời sử dụng bằng một tập các luật. Các hệ thống phát hiện bất thƣờng sử dụng hệ
13 chuyên gia đã triển khai là ComputerWatch ( Dowell và Ramstedt, 1990) và
Wisdom & Sense (Liepins và Vaccaro,1992).
ComputerWatch ( phát triển tại AT&T) sử dụng hệ chuyên gia để tổng kết các
sự kiện an ninh nhạy cảm và xây dựng các luật để phát hiện các hành vi bất thƣờng.
Nó sẽ kiểm tra các hành vi của ngƣời dùng theo một tập các luật mô tả chính sách
sử dụng bình thƣờng của hệ thống, và sẽ kết luận các hành động không phù hợp với
các mẫu có thể chấp nhận đƣợc là bất thƣờng.
Wisdom & Sense ( đƣợc phát triển tại phòng thí nghiệm Los Alamos National)
phát hiện các bất thƣờng có tính thống kê trong hành vi của ngƣời dùng. Đầu tiên,
nó xây dựng một tập các luật mô tả một cách thống kê hành vi dựa trên việc ghi lại
các hành vi của ngƣời dùng theo một khoảng thời gian cho trƣớc. Các chuỗi hành vi