khai thác luật kết hợp (2) - Pdf 25

KHAI THÁC LUẬTKẾTHỢP
1
DD
ẪẪ
NN
NHNH
ẬẬ
PP
DD
ẪẪ
NN
NHNH
ẬẬ
PP
Xét CSDL khảo sát tiện nghi sử dụng ở các hộ
gia đình nh
ư
sau:
gia đình nh
ư
sau:
Hộ Tiện nghi sở hữu
1
Ti i
Má Vití h
1
Ti
v
i
,
MáyVití

ẾẾ
TT
HH
ỢỢ
PP
LL
UU
ẬẬ
TT
KK
ẾẾ
TT
HH
ỢỢ
PP
 LuLuậậttkkếếtthhợợpplàlà phépphép kéokéo theotheo cócó ddạạngng::
 Tivi  Máyvitính [50%, 57%] hay
sử dụng:Tivi  sử dụng:Máyvitính [50%, 57%]
Nghĩa là: “57% hộ gia đình sử dụng Tivi thì cũng sử dụng
Máyvitính. Tivi và Máyvitính xuấthiện chung trong 50%
dòng
d

li

u
"
dòng
d


Association Rules)
Association

Rules)
.
4
KKHAIHAI THÁCTHÁC LULUẬẬTTKKẾẾTTHHỢỢPP
ế
CSDL
giao tác
Khai thác luật k
ế
t hợp được chia làm hai giai đoạn:
1. Khai thác t
ập

p
h

bi
ế
n
(
FIs

Fre
q
uent Itemsets
)
.

n
1
.
Tìm T

p ph

bi
ế
n
2
Tìm lu

t k
ế
t h

p
2
.
Tìm lu

t k
ế
t h

p
6
TTÌMÌM TTẬẬPPPHPHỔỔ BIBIẾẾNN
 Được đề xuất bởi Agrawal năm 1993.

p
đ
ư

cp

t
triểnnhư:
Ph
há A i i (A l)

Ph
ương

p

p
A
pr
i
or
i (A
grawa
l)
 Phương pháp IT-tree (M. Zaki)

Ph
ươ
ng pháp FP
-

ChoCSDLgiaodịch D và tậpdữ liệu
X
I.
Độ phổ biếncủa X trong D, kí hiệu (X),
đ
ượ
c
đ

nh
nghĩa

s

giao
d

ch

X
xu

t
đ
ượ
c
đ

nh
nghĩa

p
g
p
(
X
)minSup (với minSup là giá trị do
người dùng chỉ định).
9
2121 DecDec 1010
TTÍNHÍNH CHCHẤẤTT AAPRIORIPRIORI
1. Mọi tập con của tập phổ biến đều phổ biến, nghĩa
là XY, nếu

(Y)  minSup thì (X)  minSup

2. Mọi tập cha của tập không phổ biến đều không phổ
bi
ế
n
nghĩa là

Y

X n
ế
u

(X)
<
minSup

 Đầu ra: FIs chứa tất cả các tập phổ biến của D
 Mã giả:
G

i C
k
: T

p
các

n
g
viên có kích thước k

k

p
g
L
k
: Các tập phổ biến có kích thước k
L
1
= { i  I: (i)  minSup}
for (k = 2; L
k-1
!=; k++) do
C
k

1
}
for each t  D do
if C
k

t then C
k
.count++
L
k
= {C
k
|C
k
.count  minSup}
FIs
=

L
;
FIs
=

k
L
k
;
11
CCÁCHÁCH TTẠẠOO ỨỨNGNG VIÊNVIÊN CCỦỦAA AAPRIORIPRIORI

i t

p con c

a t

p ph

bi
ế
n
cũng phổ biến
 Giả sử ta có L
3

= {abc, abd, acd, ace, bcd}
 Xét việc kết để tao ra các ứng viên C
4
: L
3
*L
3
abcd được tạo từ abc và abd
d
đ
t
t

d
à

lo

i vì
ade
không có trong
L
3
C
4
= {abcd}
12
VV
ÍÍ
DD
ỤỤ
MINHMINH
HH
ỌỌ
AA
VV
ÍÍ
DD
ỤỤ
MINHMINH
HH
ỌỌ
AA
Bảng 1: Xét CSDL mẫu
MãMã giaogiao
dịchdịch

WT
,
W
66 CC, , DD, , TT

(T)

4
(W) = 5
13
Với minSup = 50% (50*6/100 = 3), ta có:
VVÍÍDDỤỤ ((TTTT))
Database
(
D
)
L1
()
TID Nội dung Danh
mục
Độ
phổ biến
1
AA, , CC, , TT, , WW
A4
2
CC, , DD, , WW
C6
AA
CC

WT
,
W
W
5
6
CC, , DD, , TT
14
TIDTID ItemsItems
11 AA, , CC, , TT, , WW
22
CC
, , DD, ,
WW
VVÍÍDDỤỤ ((TTTT))
C2
L2
33 AA, , CC, , TT, , WW
44 AA, , CC, , DD, , WW
55
AA
,

,

CC
,

,
DD

,,
,,
,,
66 CC, , DD, , TT


AC 4 AC 4
AD 2 AT 3
AT 3 AW 4
AW 4 CD 4
CD 4 CT 4
CT 4 CW 5
CW 5 DW 3
DT 2 TW 3
DW
3
15
DW
3
TW 3
TIDTID ItemsItems
11 AA, , CC, , TT, , WW
VVÍÍDDỤỤ ((TTTT))
22
CC
, , DD, ,
WW
33 AA, , CC, , TT, , WW
44 AA, , CC, , DD, , WW
C3 L3

16
TIDTID ItemsItems
11 AA, , CC, , TT, , WW
22
CC
DD
WW
VVÍÍDDỤỤ ((TTTT))
C4 L4
22
CC
, ,
DD
, ,
WW
33 AA, , CC, , TT, , WW
44 AA, , CC, , DD, , WW
55
AA
CC
DD
TWTW
Danh
mục
Độ phổ
biến
Danh
mục
Độ phổ
biến

PHPH
ƯƠƯƠ
NG PHÁP FPNG PHÁP FP

TREETREE
PHPH
ƯƠƯƠ
NG PHÁP FPNG PHÁP FP
TREETREE
 Quét DB lầnthứ nhất để tìm tấtcả các
item đơnphổ biến (single item pattern)
 Sắpxếp các item theo thứ tự giảmcủa độ
phổ biến  f-list
Qét
DB
l

2

d
FP
t

Q
u
ét
DB
l

n

TREETREE
XÂYXÂY
DD
ỰỰ
NGNG
CÂYCÂY
22
CC
, ,
DD
, ,
WW
33 AA, , CC, , TT, , WW
44 AA, , CC, , DD, , WW
55
AA
CC
DD
TWTW
55
AA
, ,
CC
, ,
DD
, ,
T
,
WT
,

T

65444
19
2121 DecDec 1010
FPFP

TREETREE
––
XÂYXÂY
DD
ỰỰ
NGNG
CÂYCÂY
TIDTID ItemsItems
11 AA, , CC, , TT, , WW
22
CC
DD
WW
AA, , CC, , TT, , WW
CC
DD
WW
FPFP
TREETREE
XÂYXÂY
DD
ỰỰ
NGNG

AA
, ,
CC
, ,
DD
, ,
T
,
WT
,
W
66 CC, , DD, , TT
C6
W
5
C:1C:2C:3C:4
AA
, ,
CC
, ,
D
,
T
,
D
,
T
,
WW
C:5

20
2121 DecDec 1010

6
5
4
4
4
T:1
FP-tree trên CSDL ở bảng 1 với minSup = 50%
CCHIHIẾẾUU TRÊNTRÊN FPFP TREETREE –– TT FPTT FP GGROWTHROWTH
Item

Link
{}
Chiếu trên nút T: ta có CSDL
cụcbộ như sau:
C6
W5
C:1C:2C:3C:4C:5C:6
cục

bộ

như

sau:
{CWA:2, CWAD:1, CD:1}
A4
D4

hổ
biế
hỉ
đ
iả

sau:
Item

Link
{}
c
á
c
tậ
p
phổ
biế
nc
hỉ
đ
ơng
iả
n

tìm các tập con củatập{C,W,
A}. Ta có các tập con:
Item

Link

,
TAW
:
3
,
TAC
:
3
,
TWC:3, TAWC:3}.
22
2121 DecDec 1010
CWAD:1 CWA:1
CD:1  C:1
CCHIHI
ẾẾ
UU TRÊNTRÊN D:4D:4
D
{CWA:2, CW:1, C:1} Cây cục bộ như sau:
{}
Item

Link
C4
{}
C:2C:3C:4
Đường đi đơn  Các tập con:
{, W:3,C:4, WC:3}
W3
W:2

ư

ng
đi
đ
ơn 

c
tậ
p con:
{, W:4,C:4, WC:4}
W4
W:4
ChiếutrênA sinh ra các tậpphổ biến
là:{A:4, AW:4, AC:4, AWC:4}.
24
2121 DecDec 1010
CCHIHIẾẾUU TRÊNTRÊN W,CW,C
C
W
W:5 {C:5} Cây cục bộ như sau:
{}
Đường đi đơn  Các tập con:
Item

Link
C5
C:5
{,C:5}
Chi

C
:

6

ta

được

{

}


tập

phổ

biến:{
C
:6}
.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status