Một số thuật toán khai phá luật quyết định trên cơ sở dữ liệu di động - Pdf 30

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU HƢƠNG
MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT QUYẾT ĐỊNH
TRÊN CƠ SỞ DỮ LIỆU ĐỘNG
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Ngành: Công Nghệ Thông Tin
Chuyên ngành: Kỹ Thuật Phần Mềm
Mã số: 60480103
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: GS. TS. VŨ ĐỨC THI
Hà Nội - 2014

3

MỤC LỤC

LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
MỤC LỤC 3
DANH MỤC CÁC KÝ HIỆU 5
DANH MỤC CÁC BẢNG 6
DANH MỤC CÁC HÌNH 7
MỞ ĐẦU 8
CHƢƠNG 1. CÁC KHÁI NIỆM CƠ BẢN 10
1.1. Khai phá dữ liệu là gì 10
1.2. Các khái niệm cơ bản của tập thô 12
1.2.1. Tập hợp 12
1.2.2. Hệ thống thông tin 13
1.2.3. Quan hệ bất khả phân 14
1.2.4. Tập xấp xỉ trên và xấp xỉ dƣới 15
1.2.5. Bảng quyết định 17
1.2.6. Luật quyết định 18
1.3. Khai phá luật quyết định dựa trên tập thô 20
1.4. Kết luận chƣơng 1 20
CHƢƠNG 2. THUẬT TOÁN TIẾP CẬN GIA TĂNG ĐỂ KHAI PHÁ LUẬT
QUYẾT ĐỊNH TRÊN CƠ SỞ DỮ LIỆU CÓ GIÁ TRỊ THUỘC TÍNH THAY ĐỔI
21
2.1. Định nghĩa về việc thay đổi giá trị thuộc tính 21
2.2. Mô hình tiếp cận gia tăng và thuật toán 22
2.2.1. Mô hình bài toán và kiến thức cơ sở tiếp cận thuật toán khi giá trị thuộc
tính thay đổi 22

Ý nghĩa
U
Tập các đối tƣợng

Tập các thuộc tính

Tập thuộc tính điều kiện

Tập thuộc tính quyết định

B là tập thuộc tính con của A
IND(B)
Quan hệ bất khả phân trên U theo B
[]
()

Các lớp tƣơng của  trong mối quan hệ
IND(B)

Tập xấp xỉ dƣới của X theo B

Tập xấp xỉ dƣới của X theo B

Tập biên của X trên U theo B



Phân lớp điều kiện thứ i





(, );  
+1
(, )
Ma trận độ hỗ trợ thời điểm t và t+1 của các
luật C
i
→ D
j



(, ); 
+1
(, )
Ma trận độ chính xác thời điểm t và t+1 của
các luật C
i
→ D
j



(, ); 
+1
(, )
Ma trận độ độ phủ thời điểm t và t+1 của các
luật C

Hình 3.1: Tiến trình thêm/ bớt đối tƣợng khỏi hệ thống 38
Hình 3.2: Màn hình nhập dữ liệu 65
Hình 3.3: Màn hình chọn cơ sở dữ liệu 65
Hình 3.4: Màn hình hiển thị dữ liệu của cơ sở dữ liệu 66
Hình 3.5: Màn hình bổ sung/loại bỏ đối tƣợng 66
Hình 3.6: Màn hình hiển thị kết quả 67

8 MỞ ĐẦU
Trong những năm gần đây, công nghệ thông tin phát triển mạnh mẽ và đi sâu vào
nhiều lĩnh vực trong cuộc sống. Công nghệ thông tin phát triển đi kèm với sự gia tăng
không ngừng của cơ sở dữ liệu và nhu cầu sử dụng dữ liệu hiệu quả cũng trở nên ngày
càng thiết yếu. Do đó, khai phá dữ liệu đã trở thành lĩnh vực phát triển mạnh với nhiều
phƣơng pháp tiếp cận khác nhau. Thời gian đầu, phƣơng pháp tiếp cận quy nạp các
luật dựa trên trên tập thô đƣợc sử dụng phổ biến với nhiều ứng dụng toàn diện để khai
phá dữ liệu nhƣ dự báo tài chính, chuẩn đoán y tế Các ứng dụng này đã chứng tỏ rằng
rằng hƣớng tiếp cận này là rất hữu ích cho việc khai phá kiến thức bằng các luật quyết
định từ cơ sở dữ liệu ban đầu. Tuy nhiên, hƣớng nghiên cứu và các ứng dụng của khai
phá tri thức chủ yếu tập trung trong các hệ thống thông tin tĩnh. Nghĩa là các đối tƣợng
và các thuộc tính trong một hệ thống thông tin nhất định không đổi. Trong thực tế, các
nguồn dữ liệu thực có đặc điểm động, phát triển lớn mạnh lên về cả thuộc tính và số
lƣợng đối tƣợng với tốc độ nhanh chóng. Để duy trì hiệu quả kiến thức từ dữ liệu
động, các nhà nghiên cứu đã đi theo hƣớng nghiên cứu tiếp cận gia tăng cho việc cập
nhật tri thức. Hiện nay, phƣơng pháp cận gia tăng dựa trên tập thô đã và đang đƣợc
nhận rất nhiều quan tâm. Theo [6], dữ liệu động chủ yếu tập trung vào hai trƣờng hợp:
(1) Tập các đối tƣợng trong hệ thống thông tin thay đổi theo thời gian trong khi các tập
thuộc tính vẫn không đổi. (2) Tập các thuộc tính trong hệ thống thông tin thay đổi theo
thời gian trong khi tập đối tƣợng vẫn không đổi. Do dữ liệu luôn thay đổi, các phân lớp

và trong xã hội nói chung trong những năm gần đây. Do sự sẵn và rộng của lƣợng lớn
dữ liệu và sự cần thiết để chuyển đổi dữ liệu đó thành thông tin hữu ích. Nên khai thác
dữ liệu ra đời và đƣợc xem nhƣ là một kết quả của sự tiến hóa tự nhiên của công nghệ
thông tin. Hình 1.1: Quá trình khái phá tri thức trong cơ sở dữ liệu
[3] Khai phá dữ liệu đƣợc liên tƣởng tới quá trình chiết lọc hoặc khai phá tri thức
từ số lƣợng lớn dữ liệu. Khai phá dữ liệu là một bƣớc quan trọng của khám phá tri
thức. Khám phá tri thức là một quá trình bao gồm một chuỗi lặp đi lặp lại các bƣớc
sau:
1. Lọc dữ liệu (loại bỏ tiếng ồn và dữ liệu không phù hợp)
2. Tích hợp dữ liệu (nơi nhiều nguồn dữ liệu có thể kết hợp đƣợc với nhau)
3. Lựa chọn dữ liệu (dữ liệu liên quan tới nhiệm vụ phân tích đƣợc lấy từ cơ sở
dữ liệu)
4. Chuyển đổi dữ liệu (dữ liệu đƣợc chuyển hoặc hợp nhất thành các hình thức
thích hợp cho khai thác bằng cách thực hiện tóm tắt hoặc tập hợp)
5. Khai thác dữ liệu (một quá trình cần thiết mà các phƣơng pháp thông minh
đƣợc áp dụng để trích xuất các mẫu dữ liệu)
6. Đánh giá các mẫu (để xác định các mẫu thực sự thú vị đại diện cho kiến
thức dựa trên một số biện pháp)
7. Trình bày tri thức (nơi trực quan và kỹ thuật biểu diễn tri thức đƣợc sử dụng
để trình bày các kiến thức khai thác cho ngƣời sử dụng)
Lọc dữ
liệu
Tích hợp
dữ liệu
Tiền xử lý
Dữ liệu
tiền xử lý

(không có thuộc tính). Nó đƣợc chỉ ra nhƣ là mục tiêu. Mục tiêu là để thiết lập một số
mối quan hệ giữa tất cả các thuộc tính.
Các nhiệm vụ trong khai phá dữ liệu đƣợc giới thiệu cụ thể dƣới đây:
Phân lớp
Phân lớp là nhiệm vụ khai thác dữ liệu phổ biến nhất của khai phá dữ liệu. Phân
lớp bao gồm việc kiểm tra các đặc trƣng của một đối tƣợng mới và ánh xạ tới một lớp
đã đƣợc định nghĩa trƣớc. Phân lớp đƣợc đặc trƣng bởi việc định nghĩa tốt các lớp và
một tập huấn luyện bao gồm các ví dụ đã đƣợc phân lớp trƣớc đó. Nhiệm vụ phân lớp
là xây dựng mô hình phân loại dữ liệu chƣa đƣợc phân lớp từ dữ liệu huấn luyện (các
lớp dữ liệu đã biết trƣớc đó) và áp dụng các mô hình dữ liệu mới này để dự đoán cho
các mục mới trong cùng một lĩnh vực. Các kỹ thuật thƣờng dùng trong phân lớp: Cây
quyết định, tập thô, mạng neuron, K - láng giềng, thuật toán di truyền, mạng Bayesian.
Trong các kỹ thuật này thì kỹ thuật cây quyết định và tập thô đƣợc sử dụng nhiều nhất.
Ƣớc lƣợng
Dự đoán giao dịch với dữ liệu vào có thuộc tính là các giá trị liên tục. Đƣa ra một
số dữ liệu đầu vào, chúng ta dùng dự đoán để đƣa ra giá trị của một số biến tiếp theo
(của các giá trị đầu vào) mà chúng ta chƣa biết nhƣ thu nhập, chiều cao hoặc số dƣ của
thẻ tín dụng.
Dự báo:
12

Quá trình xây dựng mô hình dự đoán tƣơng tự nhƣ cho các mô hình phân lớp
nhƣng điểm khác biệt của nó là sử dụng dữ liệu quá khứ để xây dựng mô hình đƣợc sử
dụng để đƣa ra dự đoán về tƣơng lai.
Khai phá luật kết hợp
Phƣơng pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu
trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm
đƣợc. Ta có thể lấy một ví dụ đơn giản về luật kết hợp nhƣ sau: sự kết hợp giữa hai
thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện
của B trong cùng bản ghi đó: AB.

đƣợc gọi là của một mối quan hệ vƣ̀a vă
̣
n. Số các yếu tố trong một tập hợp là cách đo
số phần tử trong một tập hợp. Ví dụ về các tập cụ thể đƣợc môt tả dƣới đây.
Tập mờ:
Đề xuất bởi nhà toán học Loft Zadeh trong nửa sau của những năm sáu mƣơi,
mục tiêu của nó giải quyết các khái niệm toán học của không chắc chắn và gần đúng,
tiếp theo cho lập trình và lƣu trữ trên máy tính. Để biểu diễn đƣợc dạng toán học cho
tập mờ, Zadeh sử dụng lý thuyết tập hợp cổ điển, nơi mà bất kỳ thiết lập nào đều có
thể đƣợc đặc trƣng bởi một hàm.
Cho Ω là không gian nền, một tập mờ A trên Ω tƣơng ứng với một ánh xạ từ Ω
đến đoạn [0,1]. A :  [0,1] đƣợc gọi là hàm thành viên (membership function).
Kí hiệu A = {(a, (a)) / a  }. Trong đó, (a)  [0,1] chỉ mức độ phụ
thuộc (membership degree) của phần tử a vào tập mờ A. Khoảng xác định của hàm
µA(a) là đoạn [0, 1], trong đó giá trị 0 chỉ mức độ không thuộc về, còn giá trị 1 chỉ
mức độ thuộc về hoàn toàn.
Tập thô:
Một cách tiếp cận đầu tiên chuyển tiếp bởi nhà toán học Zdzislaw Pawlak vào
đầu của thập niên tám mƣơi. Nó đƣợc sử dụng nhƣ một công cụ toán học để giải quyết
các vấn đề không chắc chắn và không chính xác. Lý thuyết tập thô tƣơng tự nhƣ lý
thuyết tập mờ, tuy nhiên không chắc chắn và không chính xác trong phƣơng pháp này
đƣợc thể hiện bởi một vùng ranh giới của một tập và không phải bởi một thành viên
nhƣ trong lý thuyết tập mờ.
1.2.2. Hệ thống thông tin [10]
Hệ thống thông tin hoặc bảng thông tin có thể đƣợc xem nhƣ một bảng. Bảng này
bao gồm các đối tƣợng (hàng) và các thuộc tính (cột). Nó đƣợc sử dụng trong các đại
diện của dữ liệu sẽ đƣợc sử dụng bởi tập thô. Trong đó, mỗi đối tƣợng có một số lƣợng
nhất định các thuộc tính. Các đối tƣợng đƣợc mô tả phù hợp với các định dạng của
bảng dữ liệu. Hàng đƣợc coi là đối tƣợng để phân tích và cột nhƣ các thuộc tính. Ví dụ
về một bản thông tin trong bảng 1.1 dƣới đây:

2
2
3
x
5

1
1
4
x
6

1
2
2
x
7

3
2
1
x
8

1
1
4
14

x

4
, x
5
, x
6
, x
7
, x
8
, x
9
, x
10
}
A = {a
1
, a
2
, a
3
}
Tập giá trị của các thuộc tính:
a
1
= {1, 2, 3}
a
2
= {1, 2}
a
3

, a
3
} thì ta sẽ có:
[x
5
]b = [x
8
]b = [(a
2
, 1)] ∩ [(a
3
, 4)] ={x
5
, x
8
}
1.2.3. Quan hệ bất khả phân
Cho hệ thông tin T = (U, A) và B ≠  và B  A. Quan hệ bất khả phân trên U
theo B, ký hiệu là IND(B) và đƣợc định nghĩa nhƣ sau:
x, y U,

x, y

IND

B

f

x, a

, x
3
, x
9
}
2
1
3
{x
2
, x
7
, x
10
}
3
2
1
{x
4
}
2
2
3
{x
5
, x
8
}
1

Tập xấp xỉ trên
Tập xấp xỉ trên đƣợc ký hiệu là , là sự kết hợp của các tập cơ bản mà giao của
nó với X là tập khác rỗng.
= {|







  }
Một đối tƣợng x bất kỳ thuộc vào tập xấp xỉ dƣới của X, nó chắc chắn sẽ thuộc về tập
X. Còn với một đối tƣợng bất kỳ nằm trong tập xấp xỉ trên, chúng ta chỉ có thể nói
rằng nó có thể nằm trong X.
Tập biên
Tập biên của tập X trong U đƣợc định nghĩa là sự sai khác giữa tập xấp xỉ trên
và tập xấp xỉ dƣới, nó chứa các phần tử có ở tập xấp xỉ trên nhƣng không có ở tập xấp
xỉ dƣới.
= 
BNX đƣợc gọi là lớp biên của X trong U.
Các tính chất của tập xấp xỉ :
16

1) 
2) = = , = = 
3) () = 





= 
11) 



= 



= 
Nếu tập xấp xỉ dƣới và xấp xỉ trên là tƣơng đƣơng nhau (= ) thì tập X là xác
định (tập rõ) và ngƣợc lại thì tập X là không xác định trong U (tập thô). Ta có 4 loại
cơ bản của tập thô trong tập vũ trụ U.
1) Nếu  và , X đƣợc gọi là định nghĩa thô trong U
2) Nếu  và = , X đƣợc gọi là không thể định nghĩa một cách ngoại vi
trong U
3) Nếu =  và , X đƣợc gọi là không thể định nghĩa một cách nội vi
trong U
4) Nếu =  và = , X đƣợc gọi là không định nghĩa hoàn toàn trong U
Ở đấy  là ký hiệu cho tập rỗng.

Hình 1.2: Mô hình thể hiện tập xấp xỉ trên và xấp xỉ dƣới của X
Ví dụ: Giả sử chúng ta quan tâm tới một tập con X gồm 5 đối tƣợng {x
1,
x
3
, x
4
,
x
5
, x
9
}. Dựa vào bảng 1.2, chúng ta sẽ tính toán tập xấp xỉ trên và xấp xỉ dƣới của tập
X. Ta thấy các tập cơ bảng trong bảng 1.2 cũng nhƣ có mặt trong tập X là {x
1
, x
3
, x
9
},
{x
4
}. Từ đó ta có tập xấp xỉ dƣới bao gồm các đối tƣợng: = {x

, 
3
, 
4
, 
5
, 
8
, 
9
} và =
{
1
, 
3
, 
4
, 
5
, 
8
, 
9
} 

x
1
, 
3
, x

Bệnh cúm

p
1

không
có
cao
có
p
2

có
không
cao
có
p
3

có
có
rất cao
có
p
4

không
có
bình thƣờng
không

p
4,
p
5
}
Mỗi một dòng trên bảng quyết định xác định một luật quyết định. Trong mỗi luật
quyết đinh, quyết định đƣợc thực hiện khi mà các điều kiện chỉ ra các thuộc tính điều
kiện đƣợc thỏa mãn. Ví dụ nhƣ trong bảng 1.3 với điều kiện (nhức đầu, không có),
(đau cơ, có), (nhiệt độ, cao) xác định duy nhất quyết định (bệnh cúm, có).
Luật quyết định ở dòng 2 và dòng 5 trong bảng 1.3 có cùng điều kiện nhƣng quyết
định đƣa ra lại khác nhau. Quyết định này đƣợc gọi là không nhất quán (không chính
18

xác, mâu thuẫn). Ngƣợc lại với các luật này thì ta có các luật quyết định nhất quán
(nhất định, xác định và không mâu thuẫn). Đôi khi, các luật quyết định nhất quán đƣợc
gọi là các luật chắc chắn và các luật không nhất quán đƣợc gọi là các luật có thể xảy
ra. Bảng quyết định chứa các luật không nhất quán gọi là bảng quyết không nhất quán
còn ngƣợc lại là bảng quyết định nhất quán. Số lƣợng các luật nhất quán với tất cả các
luật trong bảng quyết định đƣợc coi là hệ số nhất quán của bảng quyết định. Nó đƣợc
ký hiệu là (, ) trong đó C, D là các thuộc tính điều kiện và thuộc tính quyết định
của bảng quyết định. 

, 

= 1 thì bảng quyết định là nhất quán còn 

, 

1
thì bảng quyết định là không nhất quán. Ở bảng 3 ta có 

() hoặc viết gọn lại 

.
Trong đó, chúng ta quan tâm tới các độ đo quan trọng và cần thiết của luật quyết định.
Các độ đo này đƣợc trình bày ở định nghĩa 1.3.
Định nghĩa 1.3 [5]: Cho một hệ thống thông tin hoàn chỉnh = (, , ), chúng ta ký
hiệu U/C = {
1
, 
2
, , 

} là các phân lớp điều kiện và U/D = {
1
, 
2
, , 

} là các
phân lớp quyết định.  

 

,  

 

ta tính đƣợc độ hỗ trợ, độ chắc chắn và
độ phủ của luật 



đƣợc định nghĩa nhƣ sau:


=




, 






trong đó || là tƣợng trƣng cho lực lƣợng (số phần tử) trong U
 Độ chính xác của luật quyết định 



đƣợc ký hiệu là (

, 

):
(

, 





, 


=






|

|Nếu 



là một luật quyết định thì 



sẽ đƣợc một luật quyết định ngƣợc của
nó. Các luật quyết định ngƣợc đƣợc dùng để giải thích (các lý do) của một luật quyết
định.
Từ vì dụ ở bảng 3 ta có:

C
2
= {p
2,
p
5
} D
2
= {p
4,
p
5
}
C
3
={p
3
}
C
4
= {p
4
}
C
5
= {p
6
}
Chúng ta có độ mạnh, độ chắc chắn và độ phủ thể hiện ở bảng 1.4 dƣới đây:
Luật





, 


= 1

=1






, 


= 1

=1

Tiếp theo ta tính đƣợc ma trận độ chính xác, ma trận độ hỗ trợ và ma trận độ phủ của
một bảng quyết định:
Ma trận độ hỗ trợ:
 (, ) =




2
, 

)
 
 




, 
1

(

, 
2
)
 (

, 

)


Ma trận độ chính xác:
20

 (, ) =


)
(
2
, 

)
 
 




, 
1

(

, 
2
)
 (

, 

)


Ma trận độ phủ:
 (, ) =


)
(
2
, 

)
 
 




, 
1

(

, 
2
)
 (

, 

)


Ma trận chính xác và ma trận phủ giúp ta trích rút đƣợc các thông tin hữu ích từ dữ
liệu ban đầu. Các luật quyết định có độ chính xác và độ phủ cao là những luật có thể
đƣa ra những tri thức quan trọng. Do dữ liệu luôn thay đổi, các phân lớp dữ liệu cũng

. Ta gọi luật 



là một tri thức quan tâm.
1.3. Khai phá luật quyết định dựa trên tập thô
Tập thô đƣợc khai thác và sử dụng nhiều trong các nghiên cứu với nhiều lĩnh vực
khác nhau. Trong đó, khai phá dữ liệu cũng là một lĩnh vực khai thác triệt để vai trò
của tập thô. Trong lý thuyết tập thô cho phép mô tả đặc tính của một tập các đối tƣợng
trong nhóm các giá trị thuộc tính; tìm ra toàn bộ hoặc một phần phụ thuộc giữa các
thuộc tính; giảm thuộc tính thừa; tìm ra các thuộc tính có ý nghĩa và sinh các luật
quyết định. Tập thô thƣờng đƣợc rời rạc hóa, rút gọn và đƣa ra các luật dựa trên tập dữ
liệu huấn luyện hay các phân lớp trên tập dữ liệu mẫu ban đầu trong khai phá dữ liệu.
Nó giúp biễu diễn và đƣa ra kết luận cho các tri thức không chắc chắn. Khai phá luật
quyết định dựa trên tập thô là một hƣớng nghiên cứu rất phố biến hiện nay. Phƣơng
pháp này thƣờng áp dụng kỹ thuật phân lớp của khai phá dữ liệu.
1.4. Kết luận chƣơng 1
Chƣơng 1 trình bày tổng quan về khai phá dữ liệu, các khai niệm cơ bản về tập
thô. Đây là chƣơng đƣa ra các khái niệm cơ bản để tạo tiền đề tiếp cận và tìm hiểu cho
chƣơng sau.
21

CHƢƠNG 2. THUẬT TOÁN TIẾP CẬN GIA TĂNG ĐỂ KHAI PHÁ
LUẬT QUYẾT ĐỊNH TRÊN CƠ SỞ DỮ LIỆU CÓ GIÁ TRỊ THUỘC
TÍNH THAY ĐỔI
Trong lý thuyết tập thô, tập xấp xỉ trên và xấp xỉ dƣới là những khái niệm có tính
thay đổi động nhƣ một hệ thống thông tin thay đổi theo thời gian. Khi tập xấp xỉ thay
đổi, các luật quyết định trƣớc đó sẽ bị thay đổi và đôi khi không còn có giá trị. Vậy,
chúng ta phải làm thế nào để cập nhật tập xấp xỉ dựa trên bản gốc thông tin và thu
đƣợc các luật quyết định có ý nghĩa tại thời điểm này? Đây là một nhiệm vụ quan

22

hiện tƣợng này là quá trình làm thô. Và một vài giá trị thuộc tính sẽ tách ra, ta gọi hiện
tƣợng này là quá trình làm mịn.
Định nghĩa 2.2: Cho hệ thống thông tin =

, 

, , 

, 



, 


là giá trị
của đối tƣợng 

trên thuộc tính 

, 



, 


là giá trị của đối tƣợng 

, 


= (

, 

)}. Và ta cũng có 




, 


= (

, 

), với






. Chúng ta gọi giá trị thuộc tính (

, 




= (

, 

)}. Và ta có 




, 


=  và 


, 





.
Thì chúng ta gọi giá trị thuộc tính (

, 

) trên đối tƣợng 



là các phân lớp điều kiện; D là tập các thuộc tính quyết định và U/D =
{
1
, 
2
, , 

} là các phân lớp quyết định (0<m, n<|U|). Với mỗi  đƣợc định
nghĩa thông qua hàm thông tin 

: 

. Với V
a
là tập các giá trị của thuộc tính a,
đƣợc gọi là miền của thuộc tính a. Ta ký hiệu (, ) là giá trị của đối tƣợng  trên
thuộc tính a; (

, ) là giá trị của lớp điều kiện 

trên thuộc tính a; (, ) giá trị của
đối tƣợng  trên thuộc tính quyết định d với  và (

, ) giá trị của lớp tƣơng
đƣơng quyết định 

trên thuộc tính d. Với mô hình bài toán này, ta chỉ xét tại một thời
điểm chỉ có một trƣờng hợp giá trị thuộc tính thay đổi.
23

(quyết định). Theo [1], ta có các kết quả và hệ quả sau đây tƣơng ứng với 4 trƣờng hợp
thay đổi của thuộc tính.
(1) Làm thô các giá trị thuộc tính điều kiện:
Tại thời điểm t, hai giá trị  và  của thuộc tính 

 đƣợc làm thô tới giá trị
mới , 


. Tại thời điểm t+1, tồn tại 2 lớp tƣơng đƣơng 

, 

đƣợc làm thô
thành lớp tƣơng đƣơng 

, khi và chỉ khi  



, 




, 


= 



):

Trích đoạn Cơ sở tiếp cận thuật toán Kết luận chƣơng 3

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Một số thuật toán khai phá luật quyết định trên cơ sở dữ liệu di động - Pdf 30

Tài liệu, ebook tham khảo khác

Học thêm