Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt) - Pdf 44

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

Lê Thị Hằng

NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT TẬP THÔ
TRONG PHÂN LỚP DỮ LIỆU

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2017

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS.Vũ Văn Thỏa

Phản biện 1: …………………………………………………
Phản biện 2: …………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ

tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc:

....... giờ ....... ngày ....... tháng ....... .. năm ...........

Xuất phát từ những vấn đề trên, học viên lựa chọn đề tài: “Nghiên cứu ứng
dụng kỹ thuật tập thô trong phân lớp dữ liệu” làm luận văn tốt nghiệp cao học.
Ý tưởng chính của lý thuyết tập thô lần đầu tiên được nhà toán học Ba Lan
Z.Pawlak đề xuất. Tiếp theo sau đó, các nhà khoa học khắp nơi trên thế giới đóng
góp nhiều thành tựu quan trọng nhằm phát triển lý thuyết tập thô và ứng dụng. Một
số bài toán trong lĩnh vực như ngân hàng, tài chính, y học,… đã được giải quyết
thành công nhờ công cụ tập thô.
Theo [6], cách tiếp cận tập thô để phân tích dữ liệu có rất nhiều điểm lợi quan
trọng như sau:
- Cho phép xử lý hiệu quả bảng dữ liệu lớn, loại bỏ dữ liệu dư thừa, dữ liệu
không hoàn hảo, dữ liệu liên tục.
- Hiệu quả trong việc tìm kiếm những mẫu tiềm ẩn trong cơ sở dữ liệu.
- Sử dụng được tri thức kinh nghiệm.
- Nhận ra được những mối quan hệ mà khi sử dụng các phương pháp thống kê
khác không phát hiện được.
- Sử dụng quan hệ thứ lỗi trong quá trình phát hiện mẫu.
- Làm việc hiệu quả trên tập rút gọn.
- Cách giải thích rõ ràng và dễ hiểu.
Kiến thức cơ sở của lý thuyết tập thô cổ điển là các phép toán xấp xỉ trên, xấp
xỉ dưới dựa trên phân hoạch được tạo bởi một quan hệ tương đương. Trên cơ sở đó,
các kỹ thuật tập thô tập trung vào hai hướng chính:

2
(1) Nghiên cứu các thuật toán để rút gọn tập các thuộc tính nhằm hạn chế số
chiều của không gian dữ liệu.
(2) Nghiên cứu các thuật toán sinh luật quyết định nhằm phân lớp dữ liệu để
làm giảm độ phức tạp của không gian dữ liệu.
Mục tiêu của luận văn là nghiên cứu các thuật toán sinh luật quyết định dựa
trên tập thuộc tính rút gọn theo hướng tiếp cận tập thô và ứng dụng cho bài toán

Định nghĩa 1.1: Hệ thông tin là một cặp IS = (U, A). Trong đó:
U là một tập hữu hạn khác rỗng các đối tượng (tập vũ trụ hay tập phổ dụng).
A là một tập hữu hạn khác rỗng các thuộc tính.
1.1.2 Quan hệ không phân biệt được
Cho tập con các thuộc tính B A trong hệ thông tin IS = (U, A). Quan hệ B
không phân biệt được ký hiệu là INDA(B) được định nghĩa như sau:
INDA(B) = {(x,x’) U2 | a B, a(x) = a(x’)}.
Khi đó INDA(B) là một quan hệ tương đương trên U.
1.2 Tập thô
1.2.1 Xấp xỉ trên và xấp xỉ dưới
Cho một hệ thông tin IS = (U, A), với mỗi tập con X U và B A, ký hiệu
R = IND(B) ta có hai tập con sau:
(X) = {u U | [u]B X};
(X) = {u U | [u]B X
}
(X), (X) lần lượt gọi là R-xấp xỉ dưới và R-xấp xỉ trên của tập X
Từ hai tập xấp xỉ người ta định nghĩa các tập:
BNB(X) = (X) - (X): B- miền biên của X.
Ký hiệu tập thương của IND(B) trên U là U/B, các xấp xỉ trên và dưới của X
có thể viết lại:
(X) = {W U/B | W X
}
(X) = {W U/B | W X }
Trong trường hợp BNB(X)
, X được gọi là tập thô, ngược lại X được gọi là
tập rõ.
1.2.2 Các tính chất của xấp xỉ
Sự chính xác của tập xấp xỉ X đối với phân hoạch trên B là giá trị sau:
αR(X) =

Một trường hợp đặc biệt của hệ thông tin gọi là bảng quyết định nếu tập thuộc tính
A được phân thành hai tập khác rỗng rời nhau C và D, trong đó C là tập các thuộc tính
điều kiện, D là tập các thuộc tính quyết định sao cho C ∩ D = , C D = A. Bảng
quyết định được ký hiệu là: DT = (U, C D) [3].
1.4.2 Luật quyết định
Cho bảng quyết định DT = (U, C D), giả sử U/C = {X1, X2, …, Xm} và U/D
= {Y1, Y2, …, Yn} là các phân hoạch được sinh bởi C, D. Với Xi U/C, Yj U/D và
Xi ∩ Yj = , ký hiệu des (Xi) và des(YJ) lần lượt là các mô tả của các lớp tương
đương Xi và YJ trong bảng quyết định DT.
Một luật quyết định đơn có dạng Zij: des(Xi) → des(Yj).
Tổng quát, luật quyết định là một luật kết hợp Φ Ψ, hay "nếu Φ thì Ψ" (“if
Φ then Ψ”), trong đó Φ và Ψ là các biểu thức logic. Khi đó Φ được gọi là điều kiện
và Ψ gọi quyết định của luật quyết định tương ứng [6].
Để đánh giá hiệu năng của các các luật quyết định, người ta thường sử dụng ba
độ đo: độ hỗ trợ, độ chính xác và độ bao phủ.
1.4.3 Các độ đo đánh giá luật quyết định
Độ hỗ trợ của luật quyết định
Độ hỗ trợ (còn gọi là độ mạnh) của luật quyết định Φ Ψ, ký hiệu là supp(Φ,
Ψ), được định nghĩa là tỷ số giữa |Φ ^ Ψ| và |U|:
supp(Φ, Ψ) =
(1.1)
Độ chắc chắn của luật quyết định
Độ chắc chắn của luật quyết định Φ Ψ, ký hiệu là cer(Φ,Ψ), được định nghĩa
là tỷ số giữa |Φ ^ Ψ| và |Φ|:
cer(Φ,Ψ) =
(1.2)
Thông thường, nếu cer(Φ,Ψ) = 1 thì luật quyết định Φ
Ψ được gọi là chắc
chắn, ngược lại, gọi là không chắc chắn.
Độ bao phủ của luật quyết định

Hình 1.1: Bài toán phân lớp dữ liệu [5]
Trong thực tế, bài toán phân lớp dữ liệu có thể biểu diễn dưới dạng bảng quyết
định DT = (U, C D), trong đó U là tập các đối tượng, C là tập các thuộc tính và D
là tập các nhãn lớp. Yêu cầu phân lớp dữ liệu có thể được xem xét như là sinh các
luật quyết định để gán nhãn lớp cho các dữ liệu.
Trong phạm vi luận văn, bài toán phân lớp dữ liệu được đặt ra như sau.
Input: Bảng quyết định DT = (U, C D);
Output: Các luật quyết định nhãn dữ liệu.
1.5.2 Phân lớp dữ liệu dựa trên tập thô
Quá trình phân lớp dữ liệu dựa trên tập thô bao gồm hai giai đoạn:
Giai đoạn 1: Tìm tập rút gọn thuộc tính, tức là thực hiện trích chọn đặc trưng
dựa trên tập thô.
Giai đoạn 2: Sinh luật quyết định dựa trên tập rút gọn.
1.5.2.1 Trích chọn đặc trưng dựa trên lý thuyết tập thô
Trong thực tế, việc ứng dụng tập thô trong trích chọn đặc trưng có hiệu quả
cao. Chẳng hạn, kết quả ứng dụng thuật rút gọn thuộc tính dựa trên tập thô đối với
bộ dữ liệu KDD Cup 99, các thuộc tính đặc trưng của nhãn lớp DOS có thể giảm từ
41 thuộc tính xuống còn 07 thuộc tính, nhãn lớp U2R có thể giảm từ 41 thuộc tính
xuống còn 13 thuộc tính đặc trưng [9].
1.5.2.2 Sinh luật quyết định nhãn lớp dữ liệu dựa trên tập rút gọn
Trong giai đoạn này, tiến trình phân lớp dữ liệu được thực hiện thông qua quá
trình sinh toàn thể các luật quyết định gán nhãn. Sau đó, dựa trên ngưỡng các độ đo
luật quyết định do người dùng đưa ra, sẽ lựa chọn các luật quyết định tốt nhất để tao
nên mô hình phân lớp.

6

Lớp 1

CHƯƠNG 2: NGHIÊN CỨU KỸ THUẬT SINH LUẬT QUYẾT ĐỊNH
DỰA TRÊN TẬP THÔ
Trong chương này, luận văn sẽ khảo sát một số thuật toán sinh luật quyết định
dựa trên tập rút gọn thuộc tính tìm được theo hướng tiếp cận tập thô
2.1 Thuật toán sinh luật quyết định với tập rút gọn thuộc tính
Cho bảng quyết định DT=(U, CD), trong đó U là tập các đối tượng, C là tập
các thuộc tính điều kiện và D là tập các nhãn lớp (các thuộc tính quyết định). Như
trình bày trong mục 1.4.2, mỗi luật quyết định đơn có dạng Zij: des(Xi) → des(Yj),
với Xi  C và Yj  D. Thông thường, quá trình sinh luật quyết định được thực hiện
bằng phương pháp duyệt toàn thể.
Do đó, để giảm độ phức tạp tính toán, trước khi sinh luật quyết định, cần phải
tìm tập rút gọn thuộc tính C’  C. Hiệu quả của thuật toán sinh luật quyết định phụ
thuộc rất nhiều vào chất lượng của C’.
Trong mục này, luận văn trình bày thuật toán chung sinh luật quyết định bằng
phương pháp duyệt toàn thể với tập rút gọn thuộc tính (Thuật toán Sinh luật 01)
[12].
Thuật toán 2.1: Thuật toán Sinh luật quyết định 01
Input: Bảng quyết định DT = (U, CD), các giá trị supp, cer và cov;
Output: Danh sách các luật quyết định với độ hỗ trợ  supp, độ chắc chắn 
cer và độ bao phủ  cov;
1. Tìm tập rút gọn C’  C dựa trên tập thô;
2. For each (X  C’, Y  D)
3. Begin
4. Xét luật quyết định Z: X  Y
5. Tính độ hỗ trợ supp(Z) theo công thức (1.1);
6. Tính độ chắc chắn cer(Z) theo công thức (1.2);
7. Tính độ bao phủ cov(Z) theo công thức (1.3);
8. Chấp nhận luật Z nếu (supp(Z)  supp, cer(Z)  cer, cov(Z)  cov) ;
9. End;
10. End;

Thuật toán 2.3: Tìm một rút gọn R(A) của A
Input: Cho bảng quyết định DT = (U, CD) // A = CD = {a1, a2 ,..., am}
Output: R(A).
Sử dụng thuật toán 2.2, ta sẽ tìm được Core(A)
Đặt B = Core(A); T = , // if ak B then k Index
Nếu B
thì chuyển sang bước 2, ngược lại thì chuyển sang bước 3.
Nếu D(B) = 0 thì chuyển sang bước 4, ngược lại chuyển
sang bước 3.
For (k,1,m){
If k Index {
For (i, 2, n ) {
For (j, 1, i-1 ) {
If Sign(i,j) = -1 {
If (ak cij and cij B= ) { B =B [ak]; Sign((i, j) = 1;
< quay lại bước 2 >;}
}}}}}
R(A) =B
2.2.2 Thuật toán sinh luật quyết định 02
Thuật toán 2.4: Thuật toán Sinh luật quyết định 02
Input: Bảng quyết định DT = (U, CD), các giá trị supp, cer và cov;
Output: Danh sách các luật quyết định với độ hỗ trợ  supp, độ chắc chắn 
cer và độ bao phủ  cov;
1. Đặt A = CD = {a1, a2 ,..., am};
2. Tính Core(A) theo thuật toán 2.2;
3. Tính R(A) theo thuật toán 2.3;
4. Đặt C’ = A C;
5. For each (X  C’, Y  D)
6. Begin
7. Xét luật quyết định Z: X  Y

do{
< Xét a là thuộc tính được cung cấp bởi người dùng>;
if (a R) {
<Cập nhật xấp xỉ và miền biên của Xitheo R - {a}>;
<Cập nhật xấp xỉ và miền biên của Xi theo R {a}>;}
else {
<Cập nhật xấp xỉ và miền biên của Xi theo R {a}>;}
<Sinh luật quyết định> // Sử dụng thuật toán 2.1;
while (Dừng theo yêu cầu của người dùng);
}}
2.4 Kết luận chương 2
Chương 2 luận văn đã khảo sát một số kỹ thuật sinh luật quyết định dựa trên
tập thô. Các thuật toán trình bày trong chương này có thể được ứng dụng để giải
quyết các vấn đề xử lý dữ liệu trong các bài toán thực tế nói chung và phân lớp dữ
liệu nói riêng.
Trong chương 3 sẽ nghiên cứu ứng dụng cách tiếp cận tập thô cho bài toán
phân loại tấn công trong bộ dữ liệu KDD Cup 99.

10

T
T

CHƯƠNG 3: PHÂN LOẠI KIỂU TẤN CÔNG TRONG BỘ DỮ
LIỆU KDD CUP 99 DỰA TRÊN TẬP THÔ
Trong chương 3 luận văn sẽ giải quyết bài toán phân loại kiểu tấn
công trong bộ dữ liêu KDD Cup 99 sử dung kỹ thuật tập thô. Các kết quả
thử nghiệm cũng được đề cập đến trong chương này của luận văn.
3.1 Bộ dữ liệu KDD Cup 99 và bài toán phân loại kiểu tấn công

tcp
Dịch vụ mạng trên các điểm
http
Service
Rời rạc
đến ví dụ http,telnet, vv..
Src_bytes
Số byte dữ liệu từ nguồn đến đích
Liên tục
SF
DTt_bytes
Số byte dữ liệu từ đích đến nguồn
Liên tục
181
Trạng thái bình thường hoặc lỗi
5450
Flag
Rời rạc
của kết nối
1 nếu kết nối là from/to cùng máy
0
Land
Rời rạc
chủ/cổng; 0 nếu ngược lại
Wrong_fragme
0
Số lượng đoạn “sai”
Liên tục
nt
Urgent

d_cmDT
Is_host_login
Is_guest_login
Count

Mô tả
Số lần đăng nhập không thành
công
1 nếu đăng nhập thành công; 0 nếu
ngược lại
Số lượng điều kiện thỏa hiệp
Bằng 1 nếu thu được root shell; 0
nếu ngược lại
Bằng 1nếu cố gắng thực hiện lệnh
''su root''; 0 nếu ngược lại
Số lần truy cập quyền “root”

Diff_srv_rate
Srv_count
Srv_serror_rate
Srv_rerror_rate

0
0

Rời rạc
Liên tục

Kiểm soát số lần truy cập file

Rời rạc

Liên tục

Số lượng lệnh outbound trong 1
phiên ftp
Bằng 1nếu đăng nhập thuộc về
danh sách “máy chủ” đã biết, 0
nếu ngược lại
Bằng 1 nếu đăng nhập là một tài
khoản khách, 0 nếu ngược lại
Số lượng kết nối đến các máy chủ
tương tự giống như các kết nối
hiện hành trong 2 giây đã qua.

Ví dụ

Liên tục

Số hoạt động tạo tập tin

Serror_rate

Same_srv_rate

Tính chất

0
0

Liên tục

1.00

Liên tục

0.00

0.00
0.00

12

T
T

Tên
thuộc tính
Srv_diff_host_
rate
DTt_host_coun
t
DTt_host_srv_
count
DTt_host_sam
e_srv_rate
DTt_host_diff_
srv_rate
DTt_host_sam

Liên tục

9

Liên tục

9

Liên tục

1.00

Liên tục

0.00

Liên tục

0.11

% các kết nối đến các dịch vụ
Liên tục
0.00
tương tự đến từ các host khác nhau
% các kết nối đến các host hiện
Liên tục
0.00
thời có một lỗi SO
% các kết nối đến các host hiện

13

3.2 Ứng dụng tập thô giải quyết bài toán phân loại kiểu tấn công trong
bộ dữ liệu KDD Cup 99
Để giải quyết bài toán phân loại kiểu tấn công trong bộ dữ liệu KDD
Cup 99, luận văn thực hiện hai giai đoạn sau:
(1) Tìm tập rút gọn thuộc tính dựa trên tập thô đối với mỗi kiểu tấn
công;
(2) Sinh luật quyết định gán nhãn kiểu tấn công với tập rút gọn tìm
được.
3.2.1 Tìm tập rút gọn thuộc tính cho mỗi kiểu tấn công trong bộ dữ liệu
KDD Cup 99
3.2.1.1 Thuật toán đề xuất
Thuật toán đề xuất cách tiếp cận dựa trên tập thô để trích chọn đặc trưng
trên bộ dữ liệu của KDD Cup 99 được mô tả như sau [9]:
Đầu vào: Tập giá trị của bộ dữ liệu KDD Cup 99 (ND);
Đầu ra: Tập rút gọn các thuộc tính cho mỗi nhãn lớp kiểu tấn công;
Bước 1: Nạp các giá trị tập dữ liệu ND
Bước 2: Lặp lại bước 3 với tất cả các giá trị tập dữ liệu
Bước 3: Áp dụng với các giá trị của dữ liệu nạp vào

trong đó,
MD = Giá trị thuộc tính được sử dụng
FV = Giá trị thuộc tính ban đầu
MF = Trung bình của giá trị thuộc tính theo hàng
F = Độ lệch chuẩn của véc tơ thuộc tính
Bước 4: Đặt các giá trị dữ liệu thao tác được vào biến mới AT
Bước 5: Làm tròn tất cả các biến của AT
AT1 = Round (AT)
Bước 6: Khởi tạo biến mới (ATnew) bằng cách thay thế giá trị AT1 với cột

Probe

22

R2L

19

3, 23, 29, 30, 32, 34, 35
1, 3, 5, 6, 10, 12, 16, 19, 23, 24, 26, 28, 30, 31, 32,
33, 34, 35, 36, 37, 38, 40, 41
1, 3, 4, 10, 12, 23, 24, 25, 27, 29, 30, 31, 32, 33, 34,
35, 36, 37, 38, 39, 40, 41
1, 6, 10, 12, 19, 22, 23, 28, 30, 31, 32, 33, 34, 35, 36,
37, 38, 39, 40

U2R

13

6, 11, 12, 14, 17, 24, 32, 33, 35, 36, 37, 40, 41

3.2.2 Sinh luật quyết định phân loại kiểu tấn công trong bộ dữ liệu KDD
Cup 99
Mục này sẽ trình bày quá trình sử dụng thuật toán 2.1 để sinh luật
quyết định phân loại kiểu tấn công trong bộ dữ liệu KDD Cup 99.
Do hạn chế về mặt thời gian, luận văn sẽ thực hiện phân loại hai
kiểu tấn công là DOS và U2R. Các kiểu tấn công khác có thể được phân
loại tương tự như hai kiểu tấn công trên.
3.2.2.1 Tiền xử lý dữ liệu cho bài toán áp dụng với nhãn lớp DoS

15

3.2.2.2 Tiền xử lý dữ liệu cho bài toán áp dụng với nhãn lớp U2R
Bước 1: Lớp của các kết nối trong bộ dữ liệu KDD CUP 99 là các thuộc tính
phi số. Lớp của các kết nối sẽ được thay thế bằng các thuộc tính số như ở như bảng
3.6.
Bảng 3.4: Thay thế lớp của kết nối bằng các thuộc tính số

STT
1
2
3
4
5

Nhãn lớp
Normal
DOS
PROBE
R2L
U2R

Giải thích
Bình thường
Tấn công từ chối dịch vụ
Tấn công thăm dò
Tấn công từ xa
Tấn công chiếm quyền Root

Hình 3.1: Giao diện chính của hệ thống

Hình 3.2: Tiền xử lý dữ liệu với nhãn lớp DOS

18

Hình 3.3: Sinh luật quyết định với nhãn lớp DOS

Hình 3.4: Kết quả phân lớp với các luật thuộc lớp DOS
3.3.2 Cài đặt và thử nghiệm với nhãn lớp U2R
Học viên đã xây dựng một số giao diện của hệ thống với nhãn lớp U2R như sau:

19

Hình 3.5: Tiền xử lý dữ liệu với nhãn lớp U2R

Hình 3.6: Sinh luật quyết định với nhãn lớp U2R

20

Hình 3.7: Kết quả phân lớp với các luật thuộc các lớp khác nhau
3.4 Kết quả và đánh giá
3.4.1. Kết quả thực hiện với nhãn lớp DOS
- Trong tổng số 494.021 bản ghi dữ liệu, có 391.458 bản ghi có nhãn là DOS.
- Kết quả thực hiện chương trình với 494.021 bản ghi sinh ra 1.509 luật khác nhau
(có nhãn lớp DOS và không có nhãn lớp DOS), với 391.458 bản ghi có nhãn lớp
DOS thì có 1.347 luật quyết định sinh ra nhãn lớp DOS.

Độ chắc
chắn
(cer)
1

2

11 1 0 0 0 0 0

0.091026

3

11 0 0 0 0 4 0

4

Độ bao phủ
(cov)

Attack

0.135984

1

1

0.114876

1

6

9 000000

0.460138

0.999248

0.580696

1

7

0 000040

0.004012

0.998992

0.019325

0

8

0 000200

0

Thứ
tự

Nội dung luật

1

Đánh giá
Một số luật quyết định trong bảng 3.5 có thể mô tả cụ thể như sau:
Luật 1: If (Service = 9, Count = 4, Srv_serror_rate=0, Srv_rerror_rate=0,
DTt_host_count = 0, DTt_host_same_srv_rate = 0, DTt_host_diff_srv_rate = 0) then
(Attack = 1) với độ chắc chắn cer = 1.00, độ bao phủ cov = 0.135984 và độ hỗ trợ
(độ mạnh) supp = 0.107753.
Luật 5: If (Service = 11, Count = 2, Srv_serror_rate=0, Srv_rerror_rate=0,
DTt_host_count = 0, DTt_host_same_srv_rate = 0, DTt_host_diff_srv_rate = 0) then
(Attack = 1) với độ chắc chắn cer = 0.999781, độ bao phủ cov = 0.128039 và độ hỗ
trợ (độ mạnh) supp = 0.101457.
Luật 6: If (Service = 9, Count = 0, Srv_serror_rate=0, Srv_rerror_rate=0,
DTt_host_count = 0, DTt_host_same_srv_rate = 0, DTt_host_diff_srv_rate = 0) then
(Attack = 1) với độ chắc chắn cer = 0.999248, độ bao phủ cov = 0.580696 và độ hỗ
trợ (độ mạnh) supp = 0.460138.
3.4.2. Kết quả thực hiện với nhãn lớp U2R
- Trong tổng số 494.021 bản ghi dữ liệu, có 52 bản ghi có nhãn là U2R.
- Kết quả thực hiện chương trình với 494.021 bản ghi sinh ra 51 luật (có nhãn U2R
và không có nhãn U2R), với 52 bản ghi dữ liệu có nhãn U2R thì có 3 luật quyết định
sinh ra nhãn lớp là U2R.
Bảng 3.10 dưới đây mô tả chung về các luật quyết định.
Bảng 3.7: Bảng mô tả giới hạn giá trị các độ đo của các luật quyết định

Nội dung luật
hỗ trợ
chắn
phủ
tự
(supp)
(cer)
(cov)
1
0 0 0 0 0 0 0 0 0 0 0 0 0.000101
0.000122
0.961538
1
2

010000000000

0.000002

0.018519

0.019231

1

3

000000110000

0.000002

6

000020110000

0.000006

1

0.000006

0

Như vây, có thể đi đến nhận xét sau:
- Khi xét các luật quyết định dựa trên càng nhiều thuộc tính điều kiện thì độ chắc
chắn tăng lên. Tuy nhiên, độ hỗ trợ và độ bao phủ có thể suy giảm.
- Để có thể áp dụng các luật quyết định trong thực tế, cần có các ý kiến chuyên gia
để lựa chọn các luật phù hợp theo nghĩa hài hòa giữa các độ đo.
Trong luận văn, học viên chưa có điều kiện kiểm nghiệm các luật đề xuất theo ý
kiến chuyên gia. Để lựa chọn các luật phù hợp cho giai đoạn cảnh báo phát hiện sớm
xâm nhập mạng, thường sẽ chọn ngưỡng cho các độ đo. Sau đó, dựa trên ý kiến của
chuyên gia sẽ chọn ra các luật phù hợp để sử dụng.
3.5 Kết luận chương 3
Chương này luận văn đã ứng dụng lý thuyết tập thô được nghiên cứu trong hai
chương trước để giải quyết bài toán phân loại kiểu tấn công trong bộ dữ liệu KDD
Cup 99. Luận văn đã xây dựng chương trình cài đặt thử nghiệm phân loại hai kiểu
tấn công DoS và U2R. Các kết quả thử nghiệm chứng tỏ tính hiệu quả của hướng
tiếp cận tập thô trong việc giải quyết các bài toán phân lớp dữ liệu.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu ứng dụng kỹ thuật tập thô trong phân lớp dữ liệu (tt) - Pdf 44

Tài liệu, ebook tham khảo khác

Học thêm