1
1
KHAI THÁC
'Ӳ/,ӊ8
Ӭ1*'Ө1*
(DATA MINING)
*91*8<ӈ1+2¬1*7Ò$1+
2
B
BÀI 5 ²
Phҫn 1
GOM NHÓM
DӲ LIӊU
2
3
NӜI DUNG
1. *LӟLWKLӋX
2. 3KѭѫQJSKiSSKkQKRҥFK
3. 3KѭѫQJSKiSSKkQFҩS
4
*,Ӟ,7+,ӊ8
1. Gom nhóm là gì ? :
1KyPFөPOӟS : WұS các ÿӕL WѭӧQJ DL
Gom nhóm là quá trình nhóm các ÿͩL ẂͻQJ thành
QK·QJ QKyPFͽPOͳS có ý QJKƭD. Các ÿͩL ẂͻQJ
trong cùng PͱW nhóm có QKL͙X tính FK̽W chung và
có QK·QJ t ính FK̽W khác YͳL các ÿͩL ẂͻQJ ͷ
nhóm khác.
Cho CSDL D={t
1
,t
3+Æ1/Ӟ3!*201+Ï0
4
&yEDRQKLrXQKyPFөP"
QKyPFөP
QKyPFөP
QKyPFөP
*,Ӟ,7+,ӊ8
Khái QL͟P QKyPFͽP ± QKͅS QK͉QJ
8
*,Ӟ,7+,ӊ8
z ӬQJ GөQJ
1KұQ GҥQJ
Phân tích G· OL͟X không gian
;ӱ lý ҧQK
Khoa KͥF kinh W͗ ( ÿ͏F EL͟W nghiên FX WL͗S
WKͣ
WWW
Gom nhóm tài OL͟X liên quan ÿ͛ G͝ tìm NL͗P
Gom G· OL͟X Weblog thành nhóm ÿ͛ tìm các
nhóm có cùng NL͛X truy FͅS
*L̻P kích WḰͳF G· OL͟X OͳQ
5
9
zVí Gө
Gom gen và
protein có cùng
FKӭF QăQJ
Nhóm các Fә
SKLӃX có xu
KѭӟQJ giá dao
4
Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlumberger-UP
Oil-UP *,Ӟ,7+,ӊ8
10
*,Ӟ,7+,ӊ8
z Ví Gө :
7L͗S WKͣ : phát KL͟Q các nhóm khách hàng
trong CSDL khách hàng ÿ͛ xây GΉQJ
FḰ˿QJ trình WL͗S WKͣ có PͽF tiêu
Ĉ̽W ÿDL :xácÿͣQK các vùng ÿ̽W WUͫQJ WUͥW
JLͩQJ nhau trong CSDL quan sát trái ÿ̽W
%̻R KL͛P : tìm nhóm khách hàng có NK̻
QăQJ hay J͏S tai Q̹Q
Nghiên FX ÿͱQJ ÿ̽W : gom nhóm các
tâm FK̽Q ÿͱQJ ÿ̽W quan sát ÿ́ͻF theo Y͗W
QW OͽF ÿͣD
6
11
9Ë'Ө*RPQKyPFiFQJ{LQKj
'ӵDWUrQNKRҧQJFiFKÿӏDOê
12
9Ë'Ө*RPQKyPFiFQJ{LQKj
'ӵDWUrQNtFKWKѭӟF
7
.KRɠQJFiFKErQ
trong nhóm là
min
16
*,Ӟ,7+,ӊ8
2. 7LrXFKXҭQJRPQKyPWW
&KҩW OѭӧQJ FӫD NӃW TXҧ gom nhóm GӵD
trên 2 \ӃX Wӕ :
Ĉͱ ÿR VΉ JLͩQJ nhau dùng trong SḰ˿QJ
pháp gom nhóm và
6Ή thi hành nó
0ͱW Vͩ ÿͱ ÿR FK̽W ÓͻQJ :
Bình SḰ˿QJ sai (Sum of Squared Error -
SSE)
Entropy
9
17
*,Ӟ,7+,ӊ8
3. ĈӝÿRNKRҧQJFiFK
Ĉӝ ÿR NKRҧQJ cách WKѭӡQJ dùng ÿӇ xác ÿӏQK Vӵ
khác nhau hay JLӕQJ nhau JLӳD hai ÿӕL WѭӧQJ .
.KRҧQJ cách Minkowski :
q
q
pp
qq
j
x
i
x
i
x
j
x
i
x
j
x
i
xjid
18
*,Ӟ,7+,ӊ8
3. ĈӝÿRNKRҧQJFiFKWW
1ӃX q=2, d là NKRҧQJ cách Euclide :
)|| |||(|),(
22
22
2
11 pp
j
x
i
x
j
x
i
x
j
x
i
cách Minkowski
z Các ELӃQ GҥQJ KӛQ KӧS : công WKӭF
WUӑQJ OѭӧQJ
20
*,Ӟ,7+,ӊ8
5. 0ӝWVӕSKѭѫQJSKiSJRPQKyP
3KѭѫQJ pháp phân KRҥFK
3KѭѫQJ pháp phân FҩS
3KѭѫQJ pháp GӵD trên PұW ÿӝ
3KѭѫQJ pháp GӵD trên OѭӟL
3KѭѫQJ pháp GӵD trên mô hình
11
21
NӜI DUNG
1. *LӟL WKLӋX
2. 3KѭѫQJSKiSSKkQKRҥFK
3. 3KѭѫQJ pháp phân FҩS
22
3+ѬѪ1*3+È33+Æ1+2Ҥ&+
1. .KiLQLӋPFѫEҧQ
3KѭѫQJ pháp phân KRҥFK :xâyGӵQJ k (k<n) phân
KRҥFK FӫD CSDL D JӗP n ÿӕL WѭӧQJ. 0ӛL phân KRҥFK
± 1 QKyPFөP
Cho Vӕ k, FҫQ tìm k nhóm WKӓD mãn tiêu FKXҭQ phân
KRҥFK ÿm FKӑQ (víGө ÿӝ ÿR bình SKѭѫQJ sai - SSE
QKӓ QKҩW.
%LӇX GLӉQ PӛL nhóm EҵQJ giá WUͣ trung bình FӫD Gӳ
OLӋX trong nhóm ÿy : WKXͅW toán K-means (1967)
%LӇX GLӉQ nhóm EҵQJ PӝW ÿͩL ẂͻQJ QҵP JҫQ
trung tâm FӫD nhóm : WKXͅW toán k-medoids, PAM
=4
z K
1
={2,3}, K
2
={4,10,12,20,30,11,25}
z SSE = 1
2
+0+0+6
2
+8
2
+16
2
+26
2
+7
2
+21
2
=1523
24
3+ѬѪ1*3+È33+Æ1+2Ҥ&+
2. 7KXұWWRiQN-means :
Cho Vͩ k, PͯL nhóm ÿ́ͻF EL͛X GL͝Q E͉QJ giá WUͣ TB FͿD DL
trong nhóm
z B1: &KӑQ QJүX nhiên k ÿӕL WѭӧQJ QKѭ là QKӳQJ trung tâm
FӫD các nhóm .
z B2 : Gán WQJ ÿͩL ẂͻQJ còn O̹L vào nhóm có trung tâm
nhóm J̿Q nó QK̽W GΉD trên ÿͱ ÿR NKR̻QJ cách Euclide)
Y
&KӑQ 3
trung tâm
nhóm EҩW
NǤ :k
1
,k
2
,
k
3
26
k
1
k
2
k
3
X
Y
Gán WӯQJ
ÿLӇP vào
nhóm có
trung tâm
nhóm JҫQ
QKҩW
9tGө PHDQV%ѭӟF
14
27
X
O̩L"
k
1
k
2
k
3
9tGө PHDQV%ѭӟF
15
29
X
Y
ÿL͋P
ÿ˱ͫF
JiQO̩L
k
1
k
3
k
2
9tGө PHDQV%ѭӟF«
30
X
Y
7tQKOҥL
trung
bình
nhóm
k
Tom
0.93 0.85
nellie
0.39 0.2
David
0.58 0.25
Age
Income
Ví dө : k-mean
17
%ѭӟF&KӑQ1HOOLHYj'DYLGOjWUXQJWkPQKyPFөP$
và B
Age
A
B
Customer Distance
from
David
Distance
from
Nellie
John 0.08 0.161
Rachel 0.24 0.07
Hannah 0.859 1.006
Tom 0.694 0.845
Nellie
David
9tGөN-mean
Income
7UXQJWkPFӫD&OXVWHU$
9tGөN-mean
7UXQJWkPFӫD&OXVWHU$
z Age 0.47, Income=0.22
7UXQJWkPFӫD&OXVWHU%
z Age 0.97, Income= 0.93
z 9ͳL các trung tâm nhóm
PͳL này, thành SK̿Q FͿD
các nhóm không thay ÿͭL.
z 7KXұW toán GӯQJ.
%7tQKFiFWUXQJWkPPӟLFӫDQKyPFөP$Yj%
Income
Age
A
B
9tGөk-mean
19
37
7KXұWWRiQ means
ѬX ÿLӇP :
z ĈѫQ JLҧQ GӉ KLӇX WѭѫQJ ÿӕL KLӋX TXҧ.
z Các ÿͩL ẂͻQJ WΉ ÿͱQJ gán vào các
nhóm.
z 7KѭӡQJ ÿҥW ÿѭӧF WӕL ѭX FөF Eӝ.
38
7KXұWWRiQ means
1KѭӧF ÿLӇP :
z 7KXӝF tính phi Vӕ ?
z &̿Q xác ÿͣQK Vͩ nhóm (k) WÚͳF
z 7ҩW Fҧ các ÿӕL WѭӧQJ SKҧL gán vào các
nhóm
SKѭѫQJ pháp Oҩ\ PүX (1990)
z CLARANS(Clustering LARge Application based upon
RANdomized Search) : Oҩ\ PүX ÿӝQJ (1994)
21
41
NӜI DUNG
1. *LӟLWKLӋX
2. 3KѭѫQJSKiSSKkQKRҥFK
3. 3KѭѫQJSKiSSKkQFҩS
42
3+ѬѪ1*3+È33+Æ1&Ҩ3
1. *LӟLWKLӋX
3KѭѫQJ pháp phân FҩS :xâyGӵQJ các nhóm và Wә
FKӭF QKѭ cây phân FҩS.
%LӇX GLӉQ GѭӟL GҥQJ Vѫ ÿӗ hình cây (dendrogram):
OѭX OҥL quá trình gom OҥL / phân chia nhóm
1 3 2 5 4 6
0
0.05
0.1
0.15
0.2
1
2
3
4
5
6
1
2
Step
0
Step
1
Step
2
Step
3
Step
4
b
d
c
e
a
a b
d e
c d e
a b c d e
Step
4
Step
3
Step
2
Step
1
Step
0
7tFKWө
5
6
7
8
9
10
012345678910
0
1
2
3
4
5
6
7
8
9
10
012345678910
24
47
3+ѬѪ1*3+È33+Æ1&Ҩ3
3. 7KXұWWRiQ',$1$'LYLVLYH$QDO\VLV
B1: 7ҩW Fҧ các ÿӕL WѭӧQJ là PӝW nhóm.
B2 : Chia QKͧ nhóm có NKR̻QJ cách JL·D QK·QJ
ÿͩL ẂͻQJ trong nhóm là OͳQ QK̽W.
B3 : 1ӃX PӛL nhóm FKӍ FKӭD 1 ÿӕL WѭӧQJ thì
GӯQJ QJѭӧF OҥL quay OҥL B2.
0
1
8
9
10
012345678910
48
9Ë'Ө7+8Ұ772È1$*1(6
z Cho WұS DL JӗP 6
ÿLӇP trong không
gian 2 FKLӅX. 6ӱ
GөQJ WKXұW toán
AGNES YӟL Single
link NKRҧQJ cách
JҫQ QKҩW JLӳD 2
ÿLӇP FӫD 2 nhóm
khác nhau) ÿӇ gom
nhóm
ĈLӇP 7ӑDÿӝ[ 7ӑDÿӝ\
P1 0.40 0.53
P2 0.22 0.38
P3 0.353 0.32
P4 0.26 0.19
P5 0.08 0.41
P6 0.45 0.30
25
49
9Ë'Ө7+8Ұ772È1$*1(6
z Xây GӵQJ ma WUұQ NKRҧQJ cách ÿӝ ÿR Euclide)
JLӳD các ÿLӇP
P1 P2 P3 P4 P5 P6
P1