Xây dựng mô hình phát hiện đột nhập bất thường dựa trên học máy - Pdf 10

BỘ GIÁO DỤC VÀ ĐÀO TẠO TẬP ĐOÀN BƯU CHÍNH VIỄN THÔNG VIỆT NAM
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN ĐỨC THIỆN XÂY DỰNG MÔ HÌNH PHÁT HIỆN ĐỘT NHẬP BẤT
THƯỜNG DỰA TRÊN HỌC MÁY CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH

MÃ SỐ: 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
HÀ NỘI - 2010 Luận văn được hoàn thành tại:

sức quan trọng cần được quan tâm nghiên cứu thường xuyên.
Chương này sẽ trình bày tổng quan về an toàn mạng, một số
hình thức tấn công, đột nhập phổ biến và các biện pháp phòng
chống.
1.1 AN TOÀN MẠNG VÀ CÁC YÊU CẦU CƠ BẢN
Sự bùng nổ của công nghệ thông tin đã và đang ảnh hưởng
sâu rộng tới mọi lĩnh vực của cuộc sống. Đặc biệt cùng với sự
phát triển của Internet, nhiều dịch vụ trực tuyến cũng phát triển
mạnh mẽ như các dịch vụ thương mại điện tử, thanh toán trực
tuyến… Internet mang lại như cho phép mọi người truy cập,
khai thác và chia sẻ thông tin, vấn đề an toàn mạng và bảo mật
thông tin cũng là một thách thức lớn. Thông tin trao đổi qua
mạng máy tính nếu không được bảo vệ, thì những kẻ đột nhập,
truy nhập trái phép sẽ đánh cắp, thay đổi thông tin làm ảnh
hưởng không chỉ tới lợi ích cá nhân mà còn có thể xâm hại đến
lợi ích quốc gia.
Một hệ thống an ninh mạng phải đảm bảo được các thuộc
tính sau của thông tin và hệ thống:
2
 Tính xác thực (Authentication)
 Phân quyền (Authorization)
 Tính bí mật (Confidentiality)
 Tính toàn vẹn dữ liệu (Data Integrity)
 Tính không thể phủ nhận (Non-repudiation)
 Tính sẵn dùng (Availability )
 Kiểm soát truy nhập (Access Control)
1.2 CÁC DẠNG TẤN CÔNG VÀ ĐỘT NHẬP TRÊN
MẠNG
Tấn công (attack), hay đột nhập (intrusion) lên một hệ
thống là sự vi phạm chính sách an toàn bảo mật của hệ thống

1.3.1 Các biện pháp ngăn chặn đột nhập
Tường lửa (Firewall)
Bảo vệ vật lý (Physical)
Mã hóa dữ liệu (Data Encryption)
Xác thực (Authentication)
Quyền truy cập (Access Rights)
1.3.2 Các biện pháp phát hiện đột nhập
Có 2 phương pháp phân loại các biện pháp phát hiện đột
nhập: (i) Phương pháp dựa trên kĩ thuật phân tích dữ liệu ; (ii)
Phương pháp dựa trên nguồn dữ liệu cho phát hiện đột nhập.
Phương pháp dựa trên kĩ thuật phân tích dữ liệu: Có 2 kĩ
thuật phát hiện đột nhập:
Phát hiện đột nhập dựa trên chữ kí:
Phát hiện đột nhập dựa trên bất thường:
Phương pháp dựa trên nguồn dữ liệu: Có 2 loại hệ thống
phát hiện đột nhập:
4
Hệ thống phát hiện đột nhập mạng (Network-based
instrusion detection systems-NIDS):
Hệ thống phát hiện đột nhập cho host (Host-based
instrusion detection systems-HIDS):
1.4 KẾT CHƯƠNG
Internet càng phát triển mạnh thì các kẻ tấn công mạng
cũng tìm ra những công cụ và phương pháp tấn công ngày càng
tinh vi hơn. Để tăng tính bảo mật cho hệ thống, các biện pháp
ngăn chặn và phát hiện đột nhập được sử dụng đồng thời với
nhau như hai lớp song song bảo vệ cho hệ thống. Ta sẽ đi sâu
hơn vào các phương pháp phát hiện đột nhập trong chương II
của tài liệu này.

tượng với các hành vi được xác định là bình thường được lưu
trong CSDL để xác định các hành vi tấn công, đột nhập.
2.2 PHƯƠNG PHÁP PHÁT HIỆN ĐỘT NHẬP BẤT
THƯỜNG
2.2.1 Các kĩ thuật giám sát trong phát hiện đột nhập
Một trong những nghiên cứu sớm nhất về phát hiện đột
nhập được thực hiện bởi Jim Anderson. Anderson định nghĩa
một đột nhập là bất kì sự cố gắng truy nhập trái phép, thao tác,
thay đổi hay xóa thông tin, hoặc đưa ra một hệ thống không tin
cậy hay không thể sử dụng. Anderson đưa ra ý tưởng là kẻ đột
nhập có thể bị phát hiện bằng cách giám sát sự thay đổi bất
thường trong hành vi của người sử dụng, hay rộng hơn ý tưởng
có thể được áp dụng để phát hiện đột nhập bằng cách giám sát
6
hành vi của một đối tượng có thể là chương trình, lưu lượng
mạng.
2.2.1.1 Kiểm soát hành vi người sử dụng
Phương pháp này thường áp dụng cho các hệ thống HIDS,
dữ liệu được thu thập từ các bản ghi hoạt động hệ thống của bản
thân các máy trạm. Một số hành vi người sử dụng như: thay đổi
registry, thao tác file, truy nhập hệ thống, đổi mật khẩu, có thêm
quyền sử dụng, và một số các hành vi khác ảnh hưởng trực tiếp
tới máy trạm … có thể dùng để lập hồ sơ hành vi cho hệ thống
phát hiện đột nhập.
2.2.1.2 Kiểm soát hoạt động của mạng
Trong các hệ thống NIDS, các hệ thống giám sát sẽ thu thập
thông tin từ nhiều điểm trong mạng, bao gồm cả các giao dịch ở
biên và nội bộ mạng. Các thông tin có được từ việc giám sát
hoạt động mạng như: địa chỉ IP nguồn – đích, cổng nguồn –
đích của các giao dịch TCP/UDP, các gói tin ICMP với thông

của các sự kiện khác nhau. Các sự kiện này chính là các sự kiện
của các mẫu của các lời gọi hệ thống trong chuỗi.
Phương pháp mô hình hóa này tính toán tần số xuất hiện
của các mẫu. Phương pháp này được giới thiệu bởi Bhangoo và
Helman. Trong phương pháp này, tần số của mỗi chuỗi lời gọi
được xếp hạng bởi số lần xuất hiện cả trong các trace bình
thường và trace có dấu hiệu xâm nhập. Vì thế, những chuỗi
thường xuất hiện trong các trace xâm nhập, hay ít xuất hiện
trong các thao tác bình thường được cho phân loại vào nhóm
chuỗi không đáng tin.
2.2.2.2 Phương pháp dựa trên khai khoáng dữ liệu
8
Phương pháp khai khoáng dữ liệu được thiết kế để xác định
các đặc điểm quan trọng nhất từ một tập dữ liệu lớn.Ý tưởng
của phương pháp này là phát hiện được nhiều định nghĩa ngắn
gọn của chương trình bình thường hơn là đạt được đơn giản
bằng cách lấy danh sách tất cả các mẫu trong chương trình bình
thường. Phương pháp này thực hiện như sau: Đầu tiên chương
trình khai khoáng dữ liệu được sử dụng để phát hiện các mẫu
tổng quát (tập các qui tắc) từ cơ sở dữ liệu lớn. Tiếp theo các
mẫu được sử dụng để mô tả hành vi người dùng. Hồ sơ người
dùng được thống kê trên hành vi của người dùng trong các mẫu.
Từ đó xác định hành vi của người sử dụng là đột nhập hay
không. Cuối cùng, mô hình (đã học) kết hợp với bằng chứng từ
các hồ sơ đưa ra cảnh báo nếu có đột nhập.
2.3 ỨNG DỤNG HỌC MÁY TRONG PHÁT HIỆN ĐỘT
NHẬP BẤT THƯỜNG
FSA là một cách tự nhiên để mô tả các hành vi bình thường
của chương trình bằng cách biểu diễn cấu trúc chương trình như
các vòng lặp, phân nhánh. Khác với các kĩ thuật trước, các trạng

Chương III PHÁT HIỆN ĐỘT NHẬP BẤT THƯỜNG
ĐA LỚP DỰA TRÊN THÔNG KÊ VÀ MÁY TRẠNG
THÁI HỮU HẠN
Chương II đã phân tích chi tiết các phương pháp phát hiện
đột nhập được nghiên cứu hiện nay. Trong đó các phương pháp
phát hiện đột nhập dựa trên thống kê và học máy cho kết rất
khả quan. Tuy nhiên, do các dạng tấn công và đột nhập phát
triển rất nhanh và thường xuyên thay đổi hình thức, nên các
phương pháp phát hiện đơn lớp thường gặp nhiều khó khăn.
10
Trong chương này, một mô hình phát hiện đa lớp được phát
triển nhằm giảm tỷ lệ cảnh báo sai và nâng cáo tỷ lệ phát hiện
đúng.
3.1 PHƯƠNG PHÁP PHÁT HIỆN ĐỘT NHẬP BẤT
THƯỜNG DỰA TRÊN THỐNG KÊ
3.1.1 Xây dựng CSDL bình thường.
Để xây dựng CSDL, ta trượt cửa sổ kích thước k qua các
trace của các lời gọi hàm hệ thống và ghi lại những chuỗi lời
gọi khác nhau xuất hiện bên trong cửa sổ trượt( loại bỏ những
chuỗi trùng nhau ). Bởi vì mỗi chương trình chạy trên mỗi hệ
điều hành khác nhau sẽ tạo ra các chuỗi lời gọi hàm hệ thống
khác nhau, do đó mỗi cặp chương trình – hệ điều hành phân biệt
được xây dựng một CSDL riêng. Sau đó CSDL này được sử
dụng để giám sát các hành vi tiến trình được thực hiện bởi cặp
chương trình – hệ điều hành tương ứng.
3.1.2 Phát hiện đột nhập bất thường
Chúng ta đã xây dựng xong CSDL biểu diễn hành vi bình
thường, bước tiếp theo là tiến hành kiểm tra những trace hành
vi mới sử dụng CSDL đã xây dựng. Mọi chuỗi lời gọi hàm hệ
thống chiều dài k trong trace mới được kiểm tra xem có xuất

thái dừng).
Khái niệm và từ vựng
Trạng thái hiện tại được xác định bởi các trạng thái quá khứ
của hệ thống. Như vậy có thể nói rằng FSM ghi thông tin về
quá khứ, nghĩa là nó phản ánh những thay đổi từ trạng thái bắt
đầu đến thời điểm hiện tại. Số lượng và tên các trạng thái
thường phụ thuộc vào các trạng thái khác nhau của bộ nhớ, ví
12
dụ bộ nhớ có 3 bit sẽ có 8 trạng thái có thể sử dụng. Một chuyển
dịch biểu thị một sự thay đổi trạng thái và được diễn đạt bằng
một điều kiện cần được thỏa mãn để chuyển dịch có thể xảy ra.
Một hành động là một mô tả hoạt động được thực hiện ở một
thời điểm nhất định. Có nhiều loại hành động:
Hành động đi vào (entry action): Được thực hiện khi vào
một trạng thái.
Hành động đi ra ( exit action): Được thực hiện khi ra một
trạng thái.
Hành động đầu vào ( input action): Được thực hiện phụ
thuộc vào trạng thái hiện tại và các điều kiện vào.
Hành động chuyển dịch (transition action): Được thực hiện
khi thực hiện chuyển dịch.
c)Mô hình toán học
Tương ứng với phân lớp tổng quát ở trên, các định nghĩa về
FSM như sau:
Một FSM đơn định là một bộ 5 (Σ,S,s
0
,δ,F), trong đó:
Σ là bảng chữ cái đầu vào (một tập hữu hạn, không rỗng các
ký hiệu).
S là tập hữu hạn, không rỗng các trạng thái.

gram và ít hơn kn n-gram xuất hiện trong dữ liệu huấn luyện).
Mỗi trạng thái có nhiều nhất kl chuyển trạng thái đi ra, do vậy
tổng số chuyển trạng thái tối đa là kn+l. Cũng như vậy, số cạnh
cũng nhỏ hơn bởi vì có hữu hạn các l-gram khác nhau xuất hiện
trong dữ liệu luyện.
3.2.4 Phát hiện đột nhập dựa trên FSA
Ý tưởng ban đầu của phát hiện bất thường dựa trên trạng
thái đó là máy phát hiện sẽ trả lại một giá trị lớn bất thường khi
14
nó gặp phải sự chuyển dịch trạng thái sai, và trả lại giá trị 0 nếu
sự chuyển trạng thái đúng. Nhưng điều này không phải là cách
tốt nhất để mô tả kết quả phát hiện đột nhập, bởi vì người sử
dụng có thể thay đổi độ nhạy của máy phát hiện. Máy phát hiện
có thể trả lại một giá trị từ 0 đến 1 thể hiện sự chắc chắn rằng có
một xâm nhập xảy ra.
3.3 MÔ HÌNH KẾT HỢP THỐNG KÊ N-GRAM VÀ FSA
ĐỂ PHÁT HIỆN BẤT THƯỜNG
Sử dụng CSDL bình thường và mô hình FSA kiểm tra các
chuỗi thử để phát hiện bất thường.
Các bước thực hiện:
Bước 1: Chuỗi các lời gọi hệ thống được so sánh với chuỗi
các lời gọi trong CSDL bình thường để tìm ra mismatch.
Bước 2: Nếu chuỗi được phát hiện là mismatch, nó được
dùng làm đầu vào cho mô hình FSA để kiểm tra xem có thực sự
là mismatch không. Bằng cách sử dụng phương pháp FSA để
phân tích kĩ hơn chuỗi mismatch ta có thể làm giảm số cảnh báo
sai.
3.4 KẾT LUẬN
Phương pháp phát hiện đa lớp dựa trên thống kê và máy
trạng thái hữu hạn có khả năng giúp giảm tỷ lệ cảnh báo sai và

số các lời gọi hệ thống và tên của lời gọi hệ thống thực sự được
đặt trong các file riêng biệt. Mỗi file ánh xạ là một danh sách
tên các lời gọi hệ thống
4.2 THỬ NGHIỆM VÀ KẾT QUẢ
4.2.1 Cài đặt thử nghiệm
16
Mục đích của các thử nghiệm là để xác định mức cảnh báo
sai (false positive) và hệ số phát hiện đúng (true positive) của
mô hình phát hiện kết hợp đề nghị. Để xác định mức cảnh báo
sai, một phần dữ liệu bình thường chưa được sử dụng trong tập
huấn luyện được sử dụng để test mô hình. Nếu hệ thống xác
định một chuỗi bình thường là bất thường thì đó được xem là
một cảnh báo sai.
Để xác định hệ số phát hiện đúng, tập dữ liệu bất thường
được sử dụng để test mô hình đề nghị. Tập dữ liệu bất thường là
các traces được sinh ra trong quá trình sendmail chạy dưới dự
tấn công của các công cụ sinh một số đột nhập đã biết, như
sm5x, sm565a và syslog-remote và syslog-local. Nếu hệ thống
nhận ra các chuỗi bất thường thì đó được xem là một phát hiện
đúng. Để khái quát hoá kết quả, việc tính toán tỷ lệ phát hiện
đúng được thực hiện thông qua mức tín hiệu bất thường. Để đo
các tín hiệu bất thường, các miền cục bộ theo thời gian với
chiều dài gồm r chuỗi liên tiếp được sử dụng. Cũng giống như
cửa sổ trượt của chuỗi ngắn, các miền cục bộ cũng di chuyển
qua các trace kiểm tra. Hệ thống đếm số chuỗi bất thường m
trong mỗi vùng và xem xét tỷ lệ (m/r) là giá trị của tín hiệu bất
thường. Một ngưỡng được sử dụng để xác định xem miền cục
bộ này là bình thường hay bất thường.
4.2.2 Một số kết quả
Sau khi xây dựng mô hình kết hợp phát hiện đột nhập bất

4.3 ĐỀ XUẤT ỨNG DỤNG MÔ HÌNH PHÁT HIỆN ĐỘT
NHẬP VÀO HỆ THỐNG MÁY CHỦ ĐHQGHN
4.3.1 Giới thiệu hệ thống mạng ĐHQGHN
Đại học quốc gia Hà Nội có tổng cộng 28 đơn vị với 2.503
cán bộ và 23.628 sinh viên, học viên các hệ tập trung ( tổng
cộng 26.131 cán bộ và học viên, sinh viên các hệ tập trung), và
khoảng 26.000 sinh viên các hệ không tập trung.
Gần như 100% cán bộ đã có máy tính làm việc. Số lượng
máy tính trong các phòng thí nghiệm và phòng thực hành phục
vụ công tác giảng dạy và trong các ký túc xá có khoảng 1.500
chiếc, tổng cộng hiện có khoảng 4.000 máy tính kết nối vào
mạng VNunet.
18
4.3.2 Đề xuất ứng dụng mô hình phát hiện đột nhập vào hệ
thống máy chủ
Vùng mạng bên trong VNUnet, bao gồm máy của giảng
viên, máy của cán bộ trường, máy thực hành của sinh viên được
bảo vệ bằng cơ chế NAT và tường lửa CheckPoint nên ít có
khả năng bị tấn công. Vì vậy, hướng ứng dụng phù hợp là triển
khai mô hình kết hợp FSA phát hiện tấn công, đột nhập vào các
máy chủ cung cấp dịch vụ. Hình 4.4 là một ví dụ về hướng
dựng mô hình phát hiện kết hợp đề nghị cho máy chủ web. Mô
hình phát hiện liên tục giám sát máy chủ web nhằm phát hiện
các bất thường khi máy chủ web cung cấp dịch vụ.

KẾT LUẬN
Tựu trung, luận văn đã trình bày tổng quan về an toàn
mạng, các giải pháp phát hiện đột nhập, và các biện pháp phát
hiện bất thường dựa trên thống kê và mô hình FSA.
Cụ thể, các vấn đề đã được nghiên cứu trong phạm vi luận

thử nghiệm cần được thử nghiệm với nhiều chương trình để có
đánh giá chính xác hơn.
Thực hiện cải tiến mô hình để có thể thực hiện phát hiện đột
nhập đồng thời cho nhiều chương trình theo chế độ online.
Từng bước triển khai các thử nghiệm trên hệ thống máy chủ
của ĐHQGHN nếu được các cấp quản lý cho phép.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Xây dựng mô hình phát hiện đột nhập bất thường dựa trên học máy - Pdf 10

Tài liệu, ebook tham khảo khác

Học thêm