I HC QUC GIA TP H CHÍ MINH
I HC CÔNG NGH THÔNG TIN
KHOA: KHOA HC MÁY TÍNH
TIU LUN
CÔNG NGH TRI THC VÀ NG DNG
THUT TOÁN K-MEAN TRONG PHÂN CM D LIU VÀ NG DNG Ging dn : GS.TSKH. HOÀNG KIM
Hc viên thc hin: - NGÔ NG
- NGUYN KHC MN _ CH1101102
Lp : CH06
TP. Hồ Chí Minh, tháng 5 năm 2012
Lời cảm ơn
c tiên, nhóm chúng em xin cy GS TSKH Hoàng Kiu kin
cho nhóm tip xúc mc quan trng ca trí tu nhân to tri th.
Cùng vi s phát trit bc ca ngành công nghip máy tính, nhu cu
ci vi máy tính ngày m gii quyt nhng công
vi i máy tính có kh
gii quyt v i. Và t nhân to nói
1
Mc lc
4
I. 4
1.1. Khái nim 4
1.2. Bài toán phân cm nói chung 4
1.2.1. Các kiu biu din d liu 5
1.2.2. và khong cách 6
1.2.3. Tiêu chun phân cm 10
1.3. m phân cm 11
1.3.1. Yêu cu 11
1.3.2. Mt s v trong phân cm d liu 12
1.4. m d liu 13
1.4.1. Phân hoch theo tp thô 13
1.4.1.1. Các h thông tin 13
1.4.1.2. Quan h bt kh phân 15
1.4.1.3. Xp x tp hp 16
1.4.2. 17
1.4.3. 19
1.1. 46
1.2. 47
1.3. Th phc tp ca thut toán K-means. 49
1.4. 49
1.5. -means 50
II. (LSI) 52
2.1. 52
2.2. Phân tích Singular Value Decomposition (SVD) ca ma trn t ch mc (term document A)
53
2.3. Truy vn trong mô hình LSI 56
2.4. Cp Nht Singular Value Decomposition (SVD) 58
2.4.1. Cp Nhn (SVD- Updating document): 58
2.4.2. Cp Nht t ch mc (terms): 60
2.4.3. Loi b t ch mc (Downdating) Trong Mô Hình LSI 61
2.5. Chn h s k trong mô hình LSI 61
III. -MEANS 64
3.1. Tin x lý tp d liu vào 64
3.2. Ch ng cách thích hp 66
3.3. Chn s cm cho thut toán K-means 68
3
71
I. TRUY HI THÔNG TIN 71
1.1. Biu din mu 72
1.2. Phép 74
1.3. Mt gii thut cho phân cm d liu sách 75
II. KHAI PHÁ D LIU 76
2.1. Khai phá d liu bng php cn. 77
2.2. Khai phá d liu có cu trúc ln. 78
2.3. liu trong d liu a cht. 80
tc và thuc tính ri rc. Bên cu phân loi da trên h t s
kiu d liu thông dnh danh, thuc tính có th t, thuc tính
khong, thuc tính t l ng trc tin kt qu phân
cm. Vì th i ta phi chun hóa d li khc phc ym này. T nhng
yêu cu trên và vi liu chúng ta cn tìm hiu v các kiu
biu din d liu. Có hai kiu biu din d liu ph bin là:
Biu dii dng ma trn ca các bin cu trúc hay các thuc tính ca
ng. Ví d i s có các thuc tính là tên, tui, chiu
cao, cân nng, màu m ng, m ng có p
thuc tính thì s có mt ma trn vi n dòng, p ct.
Hình 2. Ma trn thuc tính biu din d liu
6
Biu din d lii d ng cách git các ci
ng. Nng, chúng s c biu din bng mt ma trn
vi n hàng và n c
Hình 3. Ma trn khong cách biu din d liu
ng cách gi ng i và j. Nói chung,
d(i,j) gn bng i và j là gn nhau hay có ni dung gn ging
ng có ni dung càng khác nhau. Hình 7 biu
din ma trn khong cách ca tp d liu có d(i, j) = d(j, i) và d(i, i) = 0.
1.2.2. và khong cách
m d liu cn có m
khorong không gian d li
dùng chung cho mng hp vì chúng ta bit rng, m d
liu có th cha nhiu kiu d liu thuc tính khác nhau. Mc
ng nhiu thuc tính có ki . Các ki bao gm giá tr
khong (interval-valued), nh i xng (symmetric binary), nh phân bi
trn ng thiên v trng thái
c Y khoa, khi bt gp mt triu chng b
tiên kt lu thun tic ch
chuyên sâu và cách ly theo dõi.
Khoc tính bi công thc
4. Binh danh
Binh danh là bin có th nhn nhing thái. Ví d n
màu s nh khong cách theo binh danh:
Dùng h n:
9 vi m là s thuc tính có giá tr trùng khp ging x, y và p là tng
s thuc tính.
n nh phân v binh danh bng cách thay mi trng thái bng mt
bin nh phân.
5. Bin th t
Bin th t là bin trên mt tp giá tr nh quan h th t gia các giá
tr
Ví d bin xp hng hay bin xp hng v th
Các giá tr có th ri rc hoc liên t n th t c xây d
sau:
Thay th x
i
bi hng ca chúng x
i
∈
Ánh x hng ca tng bin vào [0, 1] bng cách thay th ng x trong
bin i thành:
vào cn thit cho mt thut toán phân cm càng ít, chi phí cho vic phân
cm càng gim và nó càng kh
11
Kh i d liu nhiu: Phn l d liu thc t
chng ngoi l hoc thit
toán nhy cm vi nhiu là nguyên nhân dn vic to ra mt b phân
cm kém chng.
Không nhy cm vi th t ca bu vào: Mt s thut toán phân
cm không th sát nhp thêm d liu mi vào trong b phân cm, thêm tài
liu vào cm có sn hoc to thêm cm mi. Bên ct thut toán
phân cm tt không to ra các b phân cm khác nhau t cùng mt b d
li t sp xp khác nhau. Nhng thut toán này gi là nhy cm
vi th t d liu.
Thích nghi vi d liu: D ling có s chiu
ít, t hn ba chiu mà mt s thut toán phân ct qu rt tt.
Bên c liu (nhing và cn
thic phân nhóm cho nhiu ng dng thc t. Vi loi d liu này,
vic phân loi da vào kin thi t ra có hiu qu, tuy nhiên vi
khng d liu ly, vic s dng kin thc chuyên gia là tn
kém nên chúng ta cn tìm các thut toán phân c gii quyc vn
này.
Phân cm trên mt s ràng buc: Trong mt s ng dng, chúng ta cn
phân c d liu cha các liên kt bt buc gia hai hay nhiu
ng. Vic phân cm c m b ng này tha mãn các
ràng bu
D hiu, d t và kh thi: mt thut toán càng d hiu và d t và
mang tính kh thi cao s i dung tin cy và s dng rng rãi.
1.3. m phân cm
1.3.1. Yêu cu
cng nhiu bng các giá tr thung.
13
Dò tìm phn t ngoi lai. Phn t ngoi lai là mt nhóm nh ng
d ling so vi các d li d liu. Loi b nhng d
li tránh n kt qu phân cm.
Phân cm hi m và khó: Vì phân ci
gii quyt mt s v bn: Xây d , xây dng
các tiêu chun phân cm, xây dng mô hình cho cu trúc d liu, xây dng
các thut toán phân cm và xác lu kin khi to, xây dng các th
tc biu dit qu phân cm. Hi
pháp phân cm tng quát nào có th gii quyt trn vn cho tt c các dng
cu trúc d liu. Vi nhng d liu hn hp thì vic phân cm càng khó
t thách thc trong ngành khai phá d liu.
1.4. m d liu
1.4.1. Phân hoch theo tp thô
Lý thuyt tc Z. Pawlak phát triu thp niên 1980. Lý thuyt
tp thô rt hiu qu trong khai thác d liu, tìm kim thông tin, h tr quynh,
máy hc, các h tri thc
1.4.1.1. Các h thông tin
a. Hệ thông tin
Mt t d li c mô t i dng b i
dòng miêu t mt s kin, m ng hp, mt thành ph
ging. Mi ct là mt thuc tính (mt bii, mt
quan sát, m c cho mi tng; nó
c cung cp bi nhi có chuyên môn hoi
dùng. B c gi là mt h thng thông tin (information
system). C th t c i
ng, hu hn, khác rng và A là tp thuc tính, hu hn, khác rng
sao cho A a V I a a ∈∀
lu
u Age = 16
u Age = 46 60 và LEMS = 26 -
1.4.1.2. Quan h bt kh phân
Mt h quynh (bng quynh) biu din tt c các tri thc v
mô hình. Bng này có th c ln vì nó có th a d liu
theo hai mng ging nhau hoàn toàn hay bt kh phân
bit có th c mô t nhiu ln; (2) các thuc tính có th a. Ta s
xem xét v
Xét quan h nh phân X X R × ⊆ có tính cht phn x
xRx X x , ∈∀ i xng (nu xRy thì yRx ) và bc cu (nu xRy và
c gi là quan h a
16
mt phn t X x∈ , ký hiu [x]R là tp hp cha mng y ∈ X,
sao cho xRy.
Cho h thông tin U = (I, A), vi tp thuc tính B ⊆
quan h
U
ind
U
c gi là quan h bt kh phân theo B (B-indiscernibility
relation). N∈ ind
U
phân
bit theo tp thuc tính B. La quan h bt kh phân
c ký hiu là [x]B. Suy ra, các l
B
xác nhng thành phy t bng 1.2. T m
tp thô. Mt dù, chúng ta không th ng mt cách
ch ng mà chc chn có giá tr
ng giá tr chc chn không có giá tr i cùng là
ng nào thuc vào vùng biên ging hp chc chn. Nu
vùng biên này khác rng thì tp thô.
Cho h thông tin U = (I, A) và B ⊆A, X ⊆I . Nu có th xp x tp
ng X ch vithông tin cha trong B bng cách xây dng các xp
x B-i và B-trên ca tp X, ký hing là BX, BX
1.4.2.
hi t là thut toán phân cp hi t. Ta thit k thut
toán bng cách ci tin k thut gom cc
phát tri khám phá các lut cu theo lp trong CSDL quan h.
Chameleon là thut toán gom cm phân cp. Thut toán dùng kt ni ni ca
gom cm a các item trong cm.
Cho D là CSDL quan h cha T dòng và k thuc tính. Chameleon tìm các cm
tha các ràng buc: kt ni ni quan h g RC(Ci,Cj)
18
Kt ni ni gia hai cm Ci và Cj gi là EC(CiCj) là tng trng s ca các
cung nnh trong Cj. ECCi là tng trng s các cung
th thành 2phn b n các bài toán v s
phân bit trong các hình ca các c phân bit trong kt ni ca các
cm khác nhau.
S
Gi s supp(S h tr ca itemset S, giá tr Chi-squared 2(S), vi S =
{i1,i2im} và trng s ca ij là wj
Trng s ca 1 item có th nh bng mt giá tr i
dùng chn.
1.5.
Các k thut phân cm có rt nhiu cách tip cn và các ng dng trong thc
tng ti hai mng ca các cm khám phá
c và t thc hin ca thut toán. Hin nay, các k thut phân cm có th
phân loi theo các cách tip cn chính sau :
1.5.1. m phân hoch
K thut này phân hoch mt tp hp d liu có n phn t thành knhóm cho
nh s các cc thit lp. S các cc thitlc
c la cht cho vic tìmcác cm hình cu
20
trong không gian Euclide thuc vào
khon gi la chmd liu nào có quan h là
gn nhau vi mm d liunào không có quan h hoc có
quan h là xa nhau so vi m
x lí các cm có hình dng k quc hoccác cm có m m dc. Các
thut toán phân hoch d liphc tp rt lnh nghim t
toàn cc cho v PCDL, do nóphi tìm kim tt c các cách phân hoch có th
c. Chính vì vy, trên thct i pháp tc b cho v
này bng cách s dngmt hàm tiêu chu ng ca c
ng dncho quá trình tìm kim phân hoch d ling
chính ca thuttoán phân cm phân hoch tc b là s dng chi
tìm kim nghim.
1.5.2. m phân cp
thành các ô to thành cu trúc d liu lm ch cn
làm vic vi tng trong tng ô trên li ch không phi tng d
liu. Cách tip cn da trên li này không di chuyi tng trong các ô
mà xây dng nhiu mc phân cp ci tng trong mt ô. Ph
pháp này gn ging vi phm phân cp nhng chúng không trn
ng thi gii quyt khc phc yêu c i vi d liu nhiu chiu mà
phm da trên m không gii quyc. m ca
phm da trên li là thi gian x c lp vi s i
22
tng d liu trong tp d li thuc vào s ô
trong mi chiu ca không gian li.
1.5.5. m da trên mô hình
Ph gng khám phá các phép xp x tt ca các tham s mô hình
sao cho khp vi d liu mt cách tt nht. Chúng có th s dng chin lc phân
cm phân hoch hoc phân cm phân cp, da trên cu trúc hoc mô hình mà
chúng gi nh v tp d liu và cách chúng hiu chnh các mô hình nhn
dng ra các phân hoch. Phm da trên mô hình c gng khp
gia các d liu vi mô hình toán hc, nó da trên gi nh rng d lic to
ra bng hn hp phân phi xác sun. Các thut toán phân cm da trên mô
hình có hai cách tip cn chính: mô hình thng kê và m. Ph
này gn ging vi phm da trên m, vì chúng phát trin các
cm riêng bit nhm ci tinh tr
khi nó không bu vi mt s cm c nh và không s dng cùng mt khái
nim m cho các cm.