Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security - Pdf 26

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
—&–

BÀI THU HOẠCH MÔN HỌC
CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG
Đề tài:
Khai mỏ dữ liệu trong bảo mật hệ thống
Data mining in system security
GVHD: GS.TSKH. Hoàng Văn Kiếm
HVTH: Hà Minh Ái – CH1101001
Lớp: Cao học CNTT khóa 6

TP.HCM, 06-2012
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 1
MỤC LỤC

Danh sách hình vẽ 2

DANH SÁCH HÌNH VẼ

Hình 1 – Quá trình khám phá tri thức 8
Hình 2 – Mô hình hệ thống mạng bảo mật 11
Hình 3 – Chu kỳ bảo mật 12
Hình 4 – Mô hình khai mỏ dữ liệu trong hệ thống mạng 13
Hình 5 – Phân cấp bộ tạo 18

Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 4
THUẬT NGỮ VIẾT TẮT

Viết tắt Tiếng Anh Tiếng Việt
CLARA

Clustering Alarms for Root cause
Analysis
Gom nhóm cảnh báo cho việc
phân tích nguyên nhân ban đầu
CRM Customer Relationship Management

Quản lý quan hệ khách hàng
CSDL Cơ sở dữ liệu
DNS Domain Name System Hệ thống phân giải tên miền
DoS Denial of Service Từ chối dịch vụ
FTP File Transfer Protocol Giao thức truyền tập tin
HR Human Resources Nguồn nhân lực
HTTP HyperText Transfer Protocol Giao thức truyền siêu văn bản
IDS Intrusion Detection System Hệ thống phát hiện xâm nhập
LAN Local Area Network Mạng cục bộ
MIB Management Information Base Phần chứa thông tin quản lý
NAT Network Address Translation Biên dịch địa chỉ mạng
NFR Network Flight Recorder Bộ ghi sự đào tẩu khỏi mạng
OLAP On-Line Analytical Processing Quá trình phân tích trực tuyến

thích ứng với các biện pháp bảo vệ và đưa ra chiến thuật mới để phá vỡ các quy
định về quyền riêng tư và an ninh mạng. Nhu cầu bảo mật hệ thống được đặt ra.
Dựa vào việc phân tích hành vi, số giao dịch bất thường để nhận diện, dự đoán,
phòng thủ hữu hiệu.
Bài thu hoạch này ngoài việc tìm hiểu chung về Khai mỏ dữ liệu, Bảo mật hệ
thống, còn đi sâu vào tìm hiểu, khám phá và Phân tích ứng dụng của khai mỏ dữ
liệu trong bảo mật hệ thống. Qua đó thấy được tầm quan trọng, hiệu quả của
công nghệ khai mỏ dữ liệu và ứng dụng chúng trong việc phát hiện xâm nhập,
bất thường, lạm dụng, khai thác tính năng trong lĩnh vực bảo mật hệ thống.
Xin gửi lời cảm ơn chân thành đến GS.TSKH. Hoàng Kiếm đã hướng dẫn tận
tình các phương pháp nghiên cứu, tiếp cận công nghệ tri thức nói chung và khai
mỏ dữ liệu nói riêng. Đồng thời, Thầy cũng chia sẻ những kinh nghiệm, gợi mở,
tiếp cận vấn đề đang được quan tâm trong lĩnh vực công nghệ tri thức và ứng
dụng của nó trong thực tế.
Do bài thu hoạch làm với tư cách cá nhân nên chỉ dừng ở mức nghiên cứu
công nghệ và ứng dụng. Nghiên cứu chuyên sâu, làm rõ vấn đề, sản phẩm ứng
dụng sẽ được thực hiện tiếp trong chuyên đề “Khai mỏ dữ liệu”. Trong quá trình
nghiên cứu đề tài này không tránh khỏi thiếu sót, mong Thầy và các bạn góp ý
để bài thu hoạch hoàn thiện hơn. Chân thành cảm ơn Thầy và các bạn !
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 6
B.

NỘI DUNG
I.

Khai mỏ dữ liệu (Data mining)
1.

Giới thiệu

), xử lý song song (
parallel programming
).
Khai mỏ dữ liệu bắt đầu từ các tập hợp dữ liệu để xây dựng một giả thuyết.
Khai mỏ dữ liệu thực hiện phân tích dữ liệu từ nhiều kích thước, góc độ, phân
loại, thăm dò (
exploratory
), quan điểm khác nhau; định vị lại việc truyền tải; rồi
đưa ra những thông tin hữu ích hỗ trợ người tìm kiếm, truy xuất dữ liệu theo thời
gian thực, đưa ra quyết định đầu tư, dự báo xu hướng phát triển, hành vi tương
lai, phân tích thử nghiệm. Khai mỏ dữ liệu được ứng dụng nhiều trong tài chính,
bán hàng, công nghiệp sản xuất, marketing, y học, viễn thông, thông tin khoa
học (thời tiết, bão lụt, động đất), …. Các vấn đề quan tâm nổi bật như giá thành,
mẫu, cách thức quảng cáo, kỹ năng nhân viên, chính sách kinh tế, nhu cầu thị
trường, khuyến mãi, giảm giá, độ hài lòng của khách hàng, lợi nhuận, ….
Ngành công nghiệp / Lĩnh vực ứng dụng Phân tích / Khai mỏ dữ liệu năm 2011
(Nguồn
[228 người bình bầu] (%) 2011 (trên) (%) 2010 (dưới)
CRM/ Phân tích người tiêu dùng (57)
25.0%
26.8%

Ngân hàng (43)
18.9%
19.2%

Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 7
Chăm sóc sức khỏe/ HR (38)
16.7%

Bán lẻ (24)
10.5%
8.0%

Y tế/ Thuốc (22)
9.6%
8.0%
Công nghệ sinh học/ Nghiên cứu cấu trúc gen (21)
9.2%
5.6%
Chính phủ/ Quân đội (17)
7.5%
6.1%
Du lịch/ Bệnh viện (17)
7.5%
1.4%
Quảng cáo (16)
7.0%
9.9%
Khai phá sử dụng web (16)
7.0%
8.9%

Phần mềm (16)
7.0%
0.0%
Thương mại điện tử (12)
5.3%
7.0%
Sản xuất (12)

). Quá trình khám phá tri thức được cụ thể bằng mô hình
sau:

Hình 1 – Quá trình khám phá tri thức

ü

(1): Trích chọn dữ liệu cần khai mỏ từ tập dữ liệu lớn theo quy tắc định trước
do người dùng chỉ ra hoặc truy vấn nhận được
ü

(2): Bước đầu xử lý dữ liệu: Nhất quán, lọc nhiễu, rút gọn, rời rạc hóa dữ liệu
ü

(3): Biến đổi dữ liệu bằng cách chuẩn hóa, làm mịn dữ liệu
ü

(4): Khai mỏ dữ liệu bằng kỹ thuật phân tích nhằm tìm kiếm, phát hiện, trích
chọn các mẫu thông tin, mối quan hệ tìm ẩn trong tập dữ liệu
ü

(5): Biến đổi, biển diễn dữ liệu trên dạng đồ thị, cây, bảng, … và đánh giá tri
thức vừa khai mỏ được theo quan điểm người dùng
2.

Các bài toán điển hình
Khai mỏ dữ liệu được ứng dụng rộng rãi vì có thể làm việc với nhiều kiểu dữ
liệu khác nhau như dữ liệu quan hệ, dữ liệu đa chiều, dữ liệu chuỗi thời gian, dữ
liệu văn bản, …. OLAP (
On-Line Analytical Processing

niệm dùng để xây dựng các mô hình. Ví dụ, khi phát hiện sự kiện hoặc quan sát
bất thường khi khai mỏ dữ liệu trong bảo mật hệ thống thì phân chúng vào một
trong các lớp của mô hình; trong dữ liệu loại tin tặc tấn công, các lớp bị tấn công
bao gồm lớp vật lý (physical), lớp liên kết dữ liệu (data link), lớp mạng
(network), lớp vận chuyển (transport), lớp phiên (session), lớp trình bày
(presentation), và lớp ứng dụng (application); hoặc trong siêu thị có nhiều mặt
hàng hóa như thực phẩm thức ăn, đồ uống, mỹ phẩm, quần áo, thiết bị, …
Mô hình dựa trên sự phân tích một tập các dữ liệu như nguyên tắc suy diễn
(if-then) từ các tập dữ liệu thống kê; cây quyết định: một tập các quyết định biểu
diễn dưới dạng cây; phương pháp hàng xóm gần nhất (nearest neighbor): phân
loại từng bản ghi, thông tin trong tập dữ liệu dựa trên sự kết hợp của k records có
độ giống nhau nhất trong tập dữ liệu quá khứ, Phương pháp trung bình thông
tin lẫn nhau:
Tính hữu ích của thông tin (j) =

!("
#
, $)
%&{'
(
})
*
&{+,,}
/
0(1
2
,3)
4(5
6
)7(8)

qua đào tạo với tập dữ liệu ban đầu, từ đó suy đoán ra các tập kết quả từ tập dữ
liệu mà nó khai khác. Đó là mục tiêu chính trong mạng nơron, ứng dụng máy
học, nhận dạng mẫu. Khi dự đoán các giá trị dữ liệu kiểu số, người ta thường dự
đoán các giá trị khuyết.
- Phân cụm: Khám phá cấu trúc của mẫu dữ liệu, phân tích các đối tượng dữ liệu
khi chưa biết nhãn của lớp, nhóm các đối tượng dữ liệu sao cho các đối tượng
trong cùng một nhóm thì giống nhau hơn các đối tượng khác nhóm. Cụm có cấu
trúc phân cấp của các lớp, mỗi lớp là một nhóm các sự kiện tương tự nhau. Độ
tương tự được xác định dựa vào giá trị thuộc tính mô tả đối tượng hay khoảng
cách. Số cụm dữ liệu có thể xác định theo kinh nghiệm hoặc tự động theo
phương pháp phân cụm.
II. Bảo mật hệ thống
Nỗ lực bảo vệ kết nối máy tính, người dùng, đối tác, máy chủ web, mail, …
với hệ thống mạng ngày càng trở nên quan trọng hơn. Bảo mật hệ thống là một
lĩnh vực rộng bao gồm nhiều khía cạnh cả về lý thuyết và thực tiễn. Nó đóng vai
trò quan trọng trong lĩnh vực tài chính, ngân hàng, tình báo, …. Phạm vi bảo vệ
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 11
gồm mạng, hệ điều hành, ứng dụng, điểm nhạy cảm. Bảo mật hệ thống thường
kết các yếu tố như bảo mật, tính toàn vẹn và xác thực.

Hình 2 – Mô hình hệ thống mạng bảo mật

Kẻ xâm nhập, thăm dò thường hướng đến hệ thống kết nối Internet. Các tổ
chức đang triển khai hàng loạt các biện pháp để ngăn chăn các cuộc tấn công này.
Các vấn đề quan tâm của bảo mật hệ thống bao gồm việc phát hiện, đáp ứng,
ngăn chặn truy cập trái phép hoặc các cuộc tấn công vào hệ thống mạng của tổ
chức, doanh nghiệp từ mạng nội hoặc bên ngoài. Hệ thống không bao giờ hoàn
hảo, hướng đến sự tự tin cao đối với hệ thống đã xây dựng. Thiết kế hệ thống
không chỉ sử dụng cơ chế bảo vệ nội dung, di chuyển người dùng (bằng khóa)

Nhiều vấn đề khai mỏ dữ liệu cổ điển áp dụng trong lĩnh vực bảo mật hệ thống
ở giai đoạn phát hiện của chu kỳ bảo mật hệ thống như lựa chọn, xây dựng, học
tập gia tăng hoặc học qua mạng, nhiễu trong tập dữ liệu, phân phối dữ liệu sai
lệch, khai thác phân phối. Kỹ thuật khai mỏ dữ liệu hữu ích trong việc xác định
mô hình hoạt động, hành vi đề nghị bạn hay thù. Phiên phát hiện sử dụng sai
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 13
mục đích, thống kê các mã độc hại, mẫu thử nghiệm để tương tác nhận thức an
ninh mạng của toàn bộ lưu lượng mạng. Việc xem xét mối tương quan giữa tập
hợp các thuộc tính để đạt được những hiểu biết nhất định vào dữ liệu nguồn.

Hình 4 – Mô hình khai mỏ dữ liệu trong hệ thống mạng

Khi áp dụng các thuật toán, cần thu thập đủ dữ liệu, xử lý trực tuyến (cùng lúc
theo thời gian). Đối với tập dữ liệu lớn và thường xuyên thay đổi, cần sử dụng
thuật toán gia tăng dùng cho các mẫu mới để sửa đổi mô hình hiện tại. Thuật
toán dựa vào khoảng cách (hàng xóm, gần nhất) tính toán khoảng cách giữa vị trí
quan sát và mẫu lưu trữ. Các thuộc tính có giá trị lớn sẽ mất ưu thế trong tính
toán khoảng cách nên nó chỉ áp dụng cho việc lựa chọn tính năng. Cách tiếp cận
phân loại (cây quyết định, nguyên tắc quyết định) và gom nhóm (thuật toán k-
means) trong khối dữ liệu lớn để cải thiện hệ thống phòng thủ (lọc với Heuristic,
giảm cảnh báo sai, phát hiện hoạt động bất thường, tổng hợp, xếp hạng theo mức
độ nghiêm trọng).
Các vấn đề cần giải quyết như mô tả lựa chọn tính năng ban đầu, tổng hợp,
phát hiện cả bất thường và loại tấn công đã biết, ghi nhãn dữ liệu phân loại giám
sát, nhiều cảnh báo chìm trong lớp nhỏ, xác định hành vi đối với mức độ cảnh
báo, tiếp cận cây quyết định, gom nhóm, ….
1.

Phát hiện đối tượng ẩn danh

điện thoại đi và đến của tổ chức. Dữ liệu này chắc chắn sẽ có trong hồ sơ điện
thoại của tổ chức. Ví dụ, máy chủ dựa trên hệ thống phát hiện xâm nhập IDS
(Intrusion Detection System) giám sát truy cập vào Windows Registry của
Microsoft sử dụng thuật toán phát hiện bất thường dựa vào xác suất. Hệ thống
phát hiện hành vi đăng ký bất thường bằng cách đào tạo trên một tập dữ liệu truy
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 15
cập đăng ký bình thường. Sau đó sử dụng mô hình này để phát hiện các giá trị
ngoại lai được tạo ra từ cùng hệ thống trong dữ liệu mới (không được phân loại).
Sự gia đột ngột trong hệ thống mạng hiện tại được xem như loại tấn công DoS,
hay liên kết web đột nhiên bất thường. Loại tác động xấu đến hệ thống này khó
có thể phân loại là vô tình hay cố ý. Tính chất phức tạp của chúng diễn ra từ từ
hay nhanh chóng tùy thuộc vào thời gian, quy mô tác động trực tiếp. Có thể phân
biệt chúng bằng cách kiểm tra lưu lượng mạng hiện tại.
Các tác nhân trung gian như virus, worm, trojan thực hiện thăm dò, thực thi
những hành động ẩn nguy hiểm gây tác hại không nhỏ đến hệ thống tổ chức. Có
thể phát hiện dựa trên các mẫu (đã dán nhãn, gắn thẻ) của lưu lượng mạng bên
ngoài, học có giám sát. Loại virus, kiểu tấn công mới liên tục phát triển, nên cần
cập nhật dữ liệu mẫu, chữ ký (IDS) hàng ngày hàng giờ.
Trong lĩnh vực an ninh mạng, mô tả sự cố từ các mẫu cảnh báo trở nên phức
tạp. Tất cả những dữ liệu mẫu của cảm biến này được đẩy về máy chủ trung tâm
liên tục để xử lý, nạp vào CSDL quan hệ. Chuyên gia, người sử dụng xem lại các
dữ liệu sự cố, cảnh báo riêng thông qua giao diện phân tích (truy vấn SQL).
Trong bảng (table) dữ liệu này, một bản ghi (record) chứa một cảnh báo duy
nhất chứa các thuộc tính như địa chỉ nguồn (source IP address), địa chỉ đích
(destination IP address), thời gian. Mỗi cảnh báo trong tập ánh xạ (nghi vấn) sẽ
hướng đến tập địa chỉ đích. Nếu một sự kiện hướng trực tiếp đến tập con của địa
chỉ đích thì những lỗ hổng được phát hiện và sắp có một cuộc tấn công ồ ạt đến
một máy chủ nào đó trong mạng. Vùng phủ được tính như sau:
9 =99:(1:;:

_
(`
a
)
¬b
c

D: Tập hợp các địa chỉ riêng biệt trong tình huống
max
D
(n
r
): Số bản ghi liên quan với vài địa chỉ đích trong tình huống
¬n
d
: Số bản ghi trung bình mỗi địa chỉ đích trong tình huống
Dữ liệu mẫu này có thể chưa chắc chắn, có khi sai ở mức độ nhỏ. Để đảm bảo
hơn cần học mức độ tấn công xảy ra bất ngờ, bất thường (bộ sưu tập cảnh báo),
phân loại tấn công trước khi đưa vào bộ sưu tập cảnh báo, bổ sung thêm thuộc
tính (số bản ghi cùng địa chỉ nguồn và đích trong ngày cuối cùng, số bản ghi
cùng địa chỉ nguồn và cổng đích ngày cuối cùng, …), ngữ cảnh xuất hiện.
Như hình 4, phát hiện xâm nhập dựa vào việc phân tích lưu lượng truy cập
mạng của hàng loạt cảm biến dựa trên chữ ký có sẵn. Phân loại được áp dụng
nhiều lần trong phát hiện xâm nhập nhằm phân các sự kiện thành loại tấn công
riêng biệt, dịch vụ mạng bình thường. Phân loại cảnh báo giả hơn hẳn bộ phân
loại kiểu tấn công và sử dụng dữ liệu kết nối mạng hiệu quả hơn so với dữ liệu
kết nối thô. Thuật toán phân loại Ripper cập nhật các quy tắc được sử dụng bằng
NFR (Network Flight Recorder), công cụ giám sát thời gian thực thương mại.
Các máy chủ bên ngoài gửi hàng loạt yêu cầu đến những máy (IP address) trong
mạng. Mục đích của hành động này nhằm xác định loại dịch vụ đang chạy, làm

+ Nếu tất cả các mẫu thuộc cùng lớp thì xây dựng nhánh và dừng
+ Nếu khác thì quay lai tìm thuộc tính a với những mẫu trong E
i

2. Gom nhóm cảnh báo phát hiện xâm nhập
Trong thực tế, hệ thống IDS thường kích hoạt để cảnh báo hàng ngàn cuộc tấn
công biết trước. Các vấn đề gốc rễ nguyên nhân của các cuộc tấn công cũ vẫn
còn đó. Ví dụ, các nguyên nhân có thể gây ra đối với hệ thống:
- Có vấn đề đối với ngăn xếp TCP/IP gây phân mảnh lưu lượng đầu ra thì
kích hoạt cảnh báo “IP bị phân mảnh” (fragmented IP)
- Một virus lây lan trong hệ thống các máy chủ chuyên dụng
- Không cấu hình máy chủ DNS phụ (secondary DNS)
- Tấn công chiếm quyền điều khiển TCP,
- Gói SYN của các dịch vụ trên đường cấu hình NAT (Network Address
Translation)
- Cân bằng tải trên hệ thống ủy quyền Proxy
- Các phần mềm giám sát truy vấn thông tin quản lý MIB (Management
Information Base)
- Tấn công từ chối dịch vụ DoS gây “SYN flooding”
Vấn đề thống nhất thuật ngữ gây khó khăn trong việc định nghĩa nguồn gốc
tấn công. Do vậy, cần có những bước tích cực hơn như gom nhóm, phân tích
nguồn gốc các cuộc tấn công, và cuối cùng sẽ hành động. Người ta phân ra loại
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 18
kích thước báo động (lớn, nhỏ), không gian báo động có thể tìm kiếm. G
i
là phân
cấp tạo riêng biệt đối với mỗi thuộc tính A
i
.

i
với i = 1, 2, …, n
5: for all_alarms_in_T do // tạo thuộc tính A
i

6: a[A
i
]:= cha của a[A
i
] trong G
i
;
7: while những cảnh báo a giống nhau, a’exist do
// gộp cảnh báo giống nhau

8: Set a[count] := a[count] + a’[count] và xóa a’ trong T ;
9: }
10: Đầu ra là những cảnh báo được tạo a

T với a[count] ≥ min size;
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 19
Thuật toán CLARA hỗ trợ phân tích nguyên nhân gốc rễ trong thực tế, thể
hiện sự tồn tại của cụm. Tất cả các kết quả gom nhóm phải được ưu tiên, xác
nhận. Cần phân tích nhân rộng để xác nhận cụm báo động đươc xác định bởi
CLARA


quyết định, nguyên tắc quyết định) và gom nhóm (thuật toán k-means) trong
khối dữ liệu lớn để cải thiện an ninh mạng, hệ thống phòng thủ.
Các ý tưởng tương tác với một số khía cạnh bảo mật đang gặp khó khăn vì dữ
liệu thích hợp có sẵn không được kiểm tra chặt chẽ, liên kết. Việc cải thiện hiệu
suất phòng thủ hiện có góp phần giảm tải cách tiếp cận khai mỏ dữ liệu.
Ứng dụng khai mỏ dữ liệu trong các lĩnh vực như tài chính, bảo hiểm, viễn
thông, khoa học công nghệ, y học, … để phân tích, hỗ trợ ra quyết định và thúc
đẩy sự phát triển xã hội.
Trong chuyên đề “Khai mỏ dữ liệu” được học sắp tới, đề tài này sẽ được
nghiên cứu chuyên sâu, làm rõ các vấn đề hơn và thực hiện demo thử nghiệm
cho ứng dụng thực tế.
o0o


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status