DATA MINING AND APPLICATION: GOM NHÓM DỮ LIỆU - Pdf 19

1
1
KHAI THÁC
'Ӳ/,ӊ8
Ӭ1*'Ө1*
(DATA MINING)
*91*8<ӈ1+2¬1*7Ò$1+
2
B
BÀI 5 ²
Phҫn 1
GOM NHÓM
DӲ LIӊU
2
3
NӜI DUNG
1. *LӟLWKLӋX
2. 3KѭѫQJSKiSSKkQKRҥFK
3. 3KѭѫQJSKiSSKkQFҩS
4
*,Ӟ,7+,ӊ8
1. Gom nhóm là gì ? :
1KyPFөPOӟS : WұS các ÿӕL WѭӧQJ DL
Gom nhóm là quá trình nhóm các ÿͩL ẂͻQJ thành
QK·QJ QKyPFͽPOͳS có ý QJKƭD. Các ÿͩL ẂͻQJ
trong cùng PͱW nhóm có QKL͙X tính FK̽W chung và
có QK·QJ t ính FK̽W khác YͳL các ÿͩL ẂͻQJ ͷ
nhóm khác.
Cho CSDL D={t
1
,t

3+Æ1/Ӟ3!*201+Ï0
4
&yEDRQKLrXQKyPFөP"
QKyPFөP
QKyPFөP
QKyPFөP
*,Ӟ,7+,ӊ8
Khái QL͟P QKyPFͽP ± QKͅS QK͉QJ
8
*,Ӟ,7+,ӊ8
z ӬQJ GөQJ
1KұQ GҥQJ
Phân tích G· OL͟X không gian
;ӱ lý ҧQK
Khoa KͥF kinh W͗ ( ÿ͏F EL͟W nghiên F΁X WL͗S
WKͣ
WWW
Gom nhóm tài OL͟X liên quan ÿ͛ G͝ tìm NL͗P
Gom G· OL͟X Weblog thành nhóm ÿ͛ tìm các
nhóm có cùng NL͛X truy FͅS
*L̻P kích WḰͳF G· OL͟X OͳQ
5
9
zVí Gө
Gom gen và
protein có cùng
FKӭF QăQJ
Nhóm các Fә
SKLӃX có xu
KѭӟQJ giá dao

4
Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlumberger-UP

Oil-UP *,Ӟ,7+,ӊ8
10
*,Ӟ,7+,ӊ8
z Ví Gө :
7L͗S WKͣ : phát KL͟Q các nhóm khách hàng
trong CSDL khách hàng ÿ͛ xây GΉQJ
FḰ˿QJ trình WL͗S WKͣ có PͽF tiêu
Ĉ̽W ÿDL :xácÿͣQK các vùng ÿ̽W WUͫQJ WUͥW
JLͩQJ nhau trong CSDL quan sát trái ÿ̽W
%̻R KL͛P : tìm nhóm khách hàng có NK̻
QăQJ hay J͏S tai Q̹Q
Nghiên F΁X ÿͱQJ ÿ̽W : gom nhóm các
tâm FK̽Q ÿͱQJ ÿ̽W quan sát ÿ́ͻF theo Y͗W
Q΁W OͽF ÿͣD
6
11
9Ë'Ө*RPQKyPFiFQJ{LQKj
'ӵDWUrQNKRҧQJFiFKÿӏDOê
12
9Ë'Ө*RPQKyPFiFQJ{LQKj
'ӵDWUrQNtFKWKѭӟF
7

.KRɠQJFiFKErQ
trong nhóm là
min
16
*,Ӟ,7+,ӊ8
2. 7LrXFKXҭQJRPQKyPWW
&KҩW OѭӧQJ FӫD NӃW TXҧ gom nhóm GӵD
trên 2 \ӃX Wӕ :
Ĉͱ ÿR VΉ JLͩQJ nhau dùng trong SḰ˿QJ
pháp gom nhóm và
6Ή thi hành nó
0ͱW Vͩ ÿͱ ÿR FK̽W ÓͻQJ :
Bình SḰ˿QJ sai (Sum of Squared Error -
SSE)
Entropy
9
17
*,Ӟ,7+,ӊ8
3. ĈӝÿRNKRҧQJFiFK
Ĉӝ ÿR NKRҧQJ cách WKѭӡQJ dùng ÿӇ xác ÿӏQK Vӵ
khác nhau hay JLӕQJ nhau JLӳD hai ÿӕL WѭӧQJ .
.KRҧQJ cách Minkowski :
q
q
pp
qq
j
x
i
x

i
x
j
x
i
x
j
x
i
xjid 
18
*,Ӟ,7+,ӊ8
3. ĈӝÿRNKRҧQJFiFKWW
1ӃX q=2, d là NKRҧQJ cách Euclide :
)|| |||(|),(
22
22
2
11 pp
j
x
i
x
j
x
i
x
j
x
i

cách Minkowski
z Các ELӃQ GҥQJ KӛQ KӧS : công WKӭF
WUӑQJ OѭӧQJ
20
*,Ӟ,7+,ӊ8
5. 0ӝWVӕSKѭѫQJSKiSJRPQKyP
3KѭѫQJ pháp phân KRҥFK
3KѭѫQJ pháp phân FҩS
3KѭѫQJ pháp GӵD trên PұW ÿӝ
3KѭѫQJ pháp GӵD trên OѭӟL
3KѭѫQJ pháp GӵD trên mô hình
11
21
NӜI DUNG
1. *LӟL WKLӋX
2. 3KѭѫQJSKiSSKkQKRҥFK
3. 3KѭѫQJ pháp phân FҩS
22
3+ѬѪ1*3+È33+Æ1+2Ҥ&+
1. .KiLQLӋPFѫEҧQ
3KѭѫQJ pháp phân KRҥFK :xâyGӵQJ k (k<n) phân
KRҥFK FӫD CSDL D JӗP n ÿӕL WѭӧQJ. 0ӛL phân KRҥFK
± 1 QKyPFөP
Cho Vӕ k, FҫQ tìm k nhóm WKӓD mãn tiêu FKXҭQ phân
KRҥFK ÿm FKӑQ (víGө ÿӝ ÿR bình SKѭѫQJ sai - SSE
QKӓ QKҩW.
%LӇX GLӉQ PӛL nhóm EҵQJ giá WUͣ trung bình FӫD Gӳ
OLӋX trong nhóm ÿy : WKXͅW toán K-means (1967)
%LӇX GLӉQ nhóm EҵQJ PӝW ÿͩL ẂͻQJ QҵP JҫQ
trung tâm FӫD nhóm : WKXͅW toán k-medoids, PAM

=4
z K
1
={2,3}, K
2
={4,10,12,20,30,11,25}
z SSE = 1
2
+0+0+6
2
+8
2
+16
2
+26
2
+7
2
+21
2
=1523
24
3+ѬѪ1*3+È33+Æ1+2Ҥ&+
2. 7KXұWWRiQN-means :
Cho Vͩ k, PͯL nhóm ÿ́ͻF EL͛X GL͝Q E͉QJ giá WUͣ TB FͿD DL
trong nhóm
z B1: &KӑQ QJүX nhiên k ÿӕL WѭӧQJ QKѭ là QKӳQJ trung tâm
FӫD các nhóm .
z B2 : Gán W΃QJ ÿͩL ẂͻQJ còn O̹L vào nhóm có trung tâm
nhóm J̿Q nó QK̽W GΉD trên ÿͱ ÿR NKR̻QJ cách Euclide)

Y
&KӑQ 3
trung tâm
nhóm EҩW
NǤ :k
1
,k
2
,
k
3
26
k
1
k
2
k
3
X
Y
Gán WӯQJ
ÿLӇP vào
nhóm có
trung tâm
nhóm JҫQ
QKҩW
9tGө PHDQV%ѭӟF
14
27
X

O̩L"
k
1
k
2
k
3
9tGө PHDQV%ѭӟF
15
29
X
Y
ÿL͋P
ÿ˱ͫF
JiQO̩L
k
1
k
3
k
2
9tGө PHDQV%ѭӟF«
30
X
Y
7tQKOҥL
trung
bình
nhóm
k

Tom
0.93 0.85
nellie
0.39 0.2
David
0.58 0.25
Age
Income
Ví dө : k-mean
17
%ѭӟF&KӑQ1HOOLHYj'DYLGOjWUXQJWkPQKyPFөP$
và B
Age
A
B
Customer Distance
from
David
Distance
from
Nellie
John 0.08 0.161
Rachel 0.24 0.07
Hannah 0.859 1.006
Tom 0.694 0.845
Nellie
David
9tGөN-mean
Income
7UXQJWkPFӫD&OXVWHU$

9tGөN-mean
7UXQJWkPFӫD&OXVWHU$
z Age 0.47, Income=0.22
7UXQJWkPFӫD&OXVWHU%
z Age 0.97, Income= 0.93
z 9ͳL các trung tâm nhóm
PͳL này, thành SK̿Q FͿD
các nhóm không thay ÿͭL.
z 7KXұW toán GӯQJ.
%7tQKFiFWUXQJWkPPӟLFӫDQKyPFөP$Yj%
Income
Age
A
B
9tGөk-mean
19
37
7KXұWWRiQ means
ѬX ÿLӇP :
z ĈѫQ JLҧQ GӉ KLӇX WѭѫQJ ÿӕL KLӋX TXҧ.
z Các ÿͩL ẂͻQJ WΉ ÿͱQJ gán vào các
nhóm.
z 7KѭӡQJ ÿҥW ÿѭӧF WӕL ѭX FөF Eӝ.
38
7KXұWWRiQ means
1KѭӧF ÿLӇP :
z 7KXӝF tính phi Vӕ ?
z &̿Q xác ÿͣQK Vͩ nhóm (k) WÚͳF
z 7ҩW Fҧ các ÿӕL WѭӧQJ SKҧL gán vào các
nhóm

SKѭѫQJ pháp Oҩ\ PүX (1990)
z CLARANS(Clustering LARge Application based upon
RANdomized Search) : Oҩ\ PүX ÿӝQJ (1994)
21
41
NӜI DUNG
1. *LӟLWKLӋX
2. 3KѭѫQJSKiSSKkQKRҥFK
3. 3KѭѫQJSKiSSKkQFҩS
42
3+ѬѪ1*3+È33+Æ1&Ҩ3
1. *LӟLWKLӋX
3KѭѫQJ pháp phân FҩS :xâyGӵQJ các nhóm và Wә
FKӭF QKѭ cây phân FҩS.
%LӇX GLӉQ GѭӟL GҥQJ Vѫ ÿӗ hình cây (dendrogram):
OѭX OҥL quá trình gom OҥL / phân chia nhóm
1 3 2 5 4 6
0
0.05
0.1
0.15
0.2
1
2
3
4
5
6
1
2

Step
0
Step
1
Step
2
Step
3
Step
4
b
d
c
e
a
a b
d e
c d e
a b c d e
Step
4
Step
3
Step
2
Step
1
Step
0
7tFKWө

5
6
7
8
9
10
012345678910
0
1
2
3
4
5
6
7
8
9
10
012345678910
24
47
3+ѬѪ1*3+È33+Æ1&Ҩ3
3. 7KXұWWRiQ',$1$'LYLVLYH$QDO\VLV
B1: 7ҩW Fҧ các ÿӕL WѭӧQJ là PӝW nhóm.
B2 : Chia QKͧ nhóm có NKR̻QJ cách JL·D QK·QJ
ÿͩL ẂͻQJ trong nhóm là OͳQ QK̽W.
B3 : 1ӃX PӛL nhóm FKӍ FKӭD 1 ÿӕL WѭӧQJ thì
GӯQJ QJѭӧF OҥL quay OҥL B2.
0
1

8
9
10
012345678910
48
9Ë'Ө7+8Ұ772È1$*1(6
z Cho WұS DL JӗP 6
ÿLӇP trong không
gian 2 FKLӅX. 6ӱ
GөQJ WKXұW toán
AGNES YӟL Single
link NKRҧQJ cách
JҫQ QKҩW JLӳD 2
ÿLӇP FӫD 2 nhóm
khác nhau) ÿӇ gom
nhóm
ĈLӇP 7ӑDÿӝ[ 7ӑDÿӝ\
P1 0.40 0.53
P2 0.22 0.38
P3 0.353 0.32
P4 0.26 0.19
P5 0.08 0.41
P6 0.45 0.30
25
49
9Ë'Ө7+8Ұ772È1$*1(6
z Xây GӵQJ ma WUұQ NKRҧQJ cách ÿӝ ÿR Euclide)
JLӳD các ÿLӇP
P1 P2 P3 P4 P5 P6
P1


Nhờ tải bản gốc
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status