Khóa luận tốt nghiệp toán học: Tính toán mờ trong mạng Kohonen và ứng dụng phân cụm dữ liệu - Pdf 23



1

LỜI CẢM ƠN

Sau một thời gian học tập, nghiên cứu và triển khai đề tài: “Tính toán mờ trong
mạng Kohonen và ứng dụng phân cụm dữ liệu”, đến nay tôi đã hoàn thành đề tài
nghiên cứu của mình.
Tôi xin bày tỏ tấm lòng biết ơn sâu sắc nhất tới thầy giáo - Thạc sỹ Nguyễn Duy
Hiếu người thầy đã trực tiếp hướng dẫn tôi trong suốt quá trình tôi thực hiện đề tài
nghiên cứu khoa học này.
Tôi cũng chân thành cảm ơn tới lãnh đạo Nhà trường, Ban chủ nhiệm Khoa cùng
các thầy cô giáo đã giúp đỡ, tạo điều kiện để tôi có cơ hội nghiên cứu, học tập và hoàn
thành đề tài nghiên cứu này.
Do hạn chế về trình độ chuyên môn và thời gian thực hiện nên đề tài không tránh
khỏi những thiếu sót, rất mong nhận được sự góp ý của thầy cô để tôi có thể hoàn
thành tốt nhất đề tài nghiên cứu này.
Tôi xin chân thành cảm ơn! Sơn la, tháng 5 năm 2014
Sinh viên

Hoàng Khánh Linh 2
3

2.2.5. S m hình chuông(Gauss) 22
2.3. Bin ngôn ng 22
2.4. B gii m 24
2.4.1. y max 24
2.4.2. y trng tâm 24
2.4.3. y trung bình tâm 24
 THUT SOM VÀ BÀI TOÁN PHÂN CM D LIU 25
c v SOM 25
3.2.  25
3.3. Thut toán phân cm s dng SOM 26
3.4. Ví d minh ha thut toán 27
NG DNG MINH HA 32
4.1. Mô t d liu 32
4.2. La chn ngôn ng lp trình và h qun tr  d liu 32
4t thut toán 32
t thut toán 32
4.3.2. ng dng 36
KT LUN 37
1. Kt lun 37
ng nghiên cu phát tri tài 37
TÀI LIU THAM KHO 38
4



Bng 1: S m ng buying 28
Bng 2: S m ng maint 28
Bng 3: S m ng lug_boot 28
Bng 4: S m ng safety 28
Bng 5: D liu vào ca ví d 28
Bng thông tin trong CSDL 32

6

DANH MỤC TỪ VIẾT TẮT
SOM
Self Organizing Maps
ANN
Artificial Neural Network
PE
Processing Element
MDP
Markov Decision Process
PCDL
Phân cm d liu
CSDL
 d liu
















 

(Control Engineering), 




(Kohonen, 1989), robotics (Ritter et al., 1989),  (Oja, 1992), 




(Fort, 1988), 

(Kohonen, 1984), - 

8

CHƢƠNG 1
TỔNG QUAN VỀ MÔ HÌNH MẠNG NƠ-RON
1.1. Mạng nơ-ron nhân tạo
1.1.1. Mạng nơ-ron nhân tạo là gì?
Định nghĩa: Mng -ron nhân to (Artificial Neural Network - ANN) gi tt là
mng -ron là mt mô hình x lý thông tin phng theo cách thc x lý thông tin ca
các h -ron sinh hc to lên t mt s ng ln các phn t (gi là phn
t x lý hay -ron) kt ni vi nhau thông qua các liên kt (gi là trng s liên kt)
làm vic nt th thng nh gii quyt mt v c th 
Mt mng -ron nhân tc cu hình cho mt ng dng c th (nhn dng
mu, phân loi d liu ) thông qua mt quá trình hc t tp các mu hun luyn. V
bn cht hc chính là quá trình hiu chnh trng s liên kt gia các -ron.
1.1.2 Cấu trúc và mô hình của một nơ-ron nhân tạo
Mô hình toán hc ca mng -ron sinh h xut bi McCulloch và
c gi là -ron M-c gi là phn t x lý và
c ký hiu là PE (Processing Element).
Mô hình -ron u vào x
1
, x
2
, , x
m
và mu ra y
i






j
n
j
iji
xwnet



1

T
1
, x
2

m
là các tín hiu vào, còn w
i1
, w
i2

im
là các trng s
kt ni ca -ron th i, net
i
là hàm tng, f là hàm truyn,
i

01
01
)sgn(
xkhi
xkhi
xy
(1.2)
Hàm bc thang









00
10
11
)sgn(
xkhi
xkhix
xkhi
xy
(1.3)
c
x




Hình 2:  th các dng hàm truyn
1.1.3 Cấu tạo và phƣơng thức làm việc của mạng nơ-ron
Da trên nhng -ron  mc trên, ta có th
hình dung mng -ron t h truyt và x lý tín hic tính truyt
ca -ron phn lc tính truy
Khi liên ku vào/ra ca nhiu -ron vc mt mng -
ron, vic ghép ni các -ron trong mng vi nhau có th là theo mt nguyên tc bt
k. Vì mng -ron là mt h truyt và x lý tín hiu, nên có th phân bit các loi
-ron khác nhau, các -ron u vào nhn thông tin t ng bên ngoài khác
vi các -ron c ni vi các -ron khác trong mc phân
bit vi nhau qua vector hàm trng s  u vào w.
Nguyên lý cu to ca mng -ron bao gm nhiu lp, mi lp bao gm nhiu
-ron có cùng chng. Hình 3 là mô hình hong ca mt mng -
ron 3 lp vi 8 phn t -ron. Mu vào là x
1
, x
2
, x
3
u ra y
1
, y
2
.
Các tín hin 3 -ron u vào, 3 -ron này làm thành lu
vào ca mng. Các -ron trong lc gi là -ron u ra ca các 11
12

ca mng -ron thc hin chng -ron t b
phn t chng vi mi nhóm là mng
u ra phù hy, mt nhóm bao gm mt lou vào và m
 u ra. Các nhóm có th c hình thành trong quá trình h    
không hình thành trong quá trình hc.
1.1.4. Các kiểu mạng nơ-ron
1.1.4.1. Mạng nơ-ron một lớp
Mi mt -ron có th phi hp vi các -ron khác to thành mt lp các
trng s. Mng mt lp truyn th4a. Mt lp -ron là mt nhóm các
-ron u có cùng trng s, nhn cùng mt tín hing thi.
Trong ma trn trng s, các hàng là th hin -ron, hàng th j có th t nhãn
nt vector w
j
ca -ron th j gm m trng s w
ji
. Các trng s trong cùng mt
ct th ng thi cùng nhn mt tín hiu vào x
j
.
w
j
= [w
j1
, w
j2
, , w

n tt c các -ron ca lng, các -ron u vào
không làm bii các tín hiu vào x
i
, tc là chúng không có các trng s hoc không
có các loi hàm chuyi nào, chúng ch i các tín hiu.
Lp n là lp -ron sau lp vào, chúng không trc tip liên h vi th gii bên
p -ron vào/ra.
Lp ra là lp -ron to ra các tín hiu ra cui cùng.
1.1.4.3 Mạng nơ-ron hồi tiếp
Mng -ron hi tip là mu ra ca mi -ron c quay tr li ni
vu vào ca các -ron cùng lc gi là m4b.
1.1.4.4 Mạng nơ-ron hồi quy
Mng -ron phn hi có th thc hic gi là mng -ron hi
   4d. Mng -ron hi quy có trng s liên k i x  ng
Hopfield, mng luôn hi t v trng thái nh (Hình 4b). Mng BAM thuc nhóm
mng -ron hi quy, gm 2 lp liên kt 2 chic gn vi tín hiu vào/ra.
Nghiên cu mng -ron hi quy mà có trng s liên ki xng, thì s gp
phi v phc tp nhii mng truyn thng và mng hi quy có trng s
liên ki xng.
1.1.4.5 Mạng Hopfield
Mng Hopfield là mng phn hi mt lc ch ra trong hình 4b. Cu trúc chi
tit cc th hin trong hình 5. Khi hong vi tín hiu ri rc gi
là mng Hopfield ri rc, và cu trúc cc gi là mng hi quy. 14 Hình 5 Cu trúc ca mng Hopfield











n
ij
j
i
k
jij
k
i
xywy


i = 1,2, ,n (1.6)
Lut cp nhc tính toán trong cách thng bu này có
a là, vi mt thc, ch có mt nút mng cp nhu ra ca
nó. S cp nht tip theo trên mt nút s s dng chính nhc cp nht.
i hình thc hong b ca mng, mc
cp nht c lp.
Có s khác bit gia lut cp nhng b và lut cp nhng b. Vi
lut cp nhng b thì s ch có mt trng thái cân bng ca h (vi giá tr
i lut cp nhng b thì có th làm
mng hi t  mm c nh hoc mt vòng gii hn.

 truyn li nuôi tr li lp -ron X và to nên


T










n
i
iijj
ywax
1
; vi j = 1,2, ,m (1.8)
    lu vào ca lp y và t    
(1.7). Quá trình này c tip tc, bao g
y
(1)
= a(wx
(0)
)
x
(2)
= a(w

(truyn thng ln th nht)
(truyc ln th nht)
(truyn thng ln th hai)
(truyc ln th hai)

(truyn thng ln th k/2)
(truyc ln th k/2)

(1.9)

Chú ý rng trng thái cp nh9ng b 
trình (1.7) và (1.8). Trng thái cp nh ng b 
(1.7) và (1.8) vc chn t i  ra rng, h thng n
nh cho c hai ch  ng b ng b. Tuy nhiên, ch  ng b s làm
cho h thng hi t . 16

1.2.Các phƣơng pháp học
1.2.1. Khái Niệm
Khái niệm: Hi hành vi ca các vt theo mt cách 
làm cho chúng có th thc hin t
Mt mng -ron c hun luyn sao cho vi mt tu vào X,
mng có kh o ra tu ra mong mun Y ca nó. Tc s
dng cho hun luyn mc gi là tp hun luyn (training set). Các phn t x
thuc gi là các mu hun luyn (training example). Quá trình hun luyn bn
cht là s i các trng s liên kt ca mng. Trong quá trình này, các trng s
ca mng s hi t dn ti các giá tr sao cho vi mu vào x t tp hun
luyn, mng s n

nh vic biu diu vào cho hàm chn tìm. S
chính xác ca hàm ch thuc lc biu
dic chuyi thành mt vec-
cha mt s    m mô t      
không nên quá ln, do s bùng n t hp (curse of dimensionality ln
 d u ra.
nh cu trúc ca hàm chn tìm và gii thut hng. Ví
d      la chn vic s dng m -ron nhân to hay cây quyt
nh.
5. Hoàn thin thit k chy gii thut hc t tp hun luyn thu
thc. Các tham s ca gii thut hc có th u chnh bng cách t
hit tp con (gi là tp kim chng -validation set) ca tp hun luyn,
hay thông qua kim chng chéo (cross-validation). Sau khi hu chnh tham s,
hia gii thut có th c trên mt tp kic lp vi tp hun
luyn.
1.2.3. Học không giám sát
Hc không có giám sát (unsupervised learning) là m   a
ngành học máy nhm tìm ra mt mô hình mà phù hp vi các quan sát. Nó khác bit
vi hc có giám sát  ch ng cho mu vào là không bit
c. Trong hc không có giám sát, mt tp d li   c thu thp. Hc
i x vt tp các bin
ngt mô hình m kt hp s c xây dng cho tp d li
Hc không có giám sát có th c dùng kt hp vi suy din Bayes  cho ra
xác suu kic có giám sát) cho bt kì bin ngu nhiên nào khi bit
c các bin khác.
Hc không có giám sáu ích cho vic nén d liu: v n, mi gii
thut nén d liu hoc là da vào mt phân b xác sut trên mt tu vào mt cách
ng minh.
Mt dng khác ca hc không có giám sát là phân mnh 
khi không mang tính xác sut. Xem thêm phân tích khái nim hình thc (formal

   c biu di i dng mt quá trình quy nh
Markov trng thái hu hn (Markov decision process - MDP), và các thut toán hc
ng cho ng cnh này có liên quan nhin các k thut quy hong. Các
xác sut chuyn trng thái và các xác sut thu lng là ngu nhiên
g quá trình ca bài toán.
Khác vi hc có giám sát, trong hng không có các cp d liu vào/kt
qu    ng gn t      t cách
a,  ng trc tuyn (on-line performancec quan
c tìm kim mt s cân bng gia khám phá (lãnh th p bn
) và khai thác (tri thc hin có). Trong hng, s c và mt gia khám
ng nghiên cu ch yu qua bài toán multi-armed bandit. 19

Mt cách hình thc, mô hình hng bao gm:
S: tp các trng thái cng ;
A: tng; và
: tp các khong" vi giá tr ng.
Ti mi thm t, agent thc trng thái ca nó là s
t
S và tp các hành
ng có th A(s
t
). Nó chn mng a A(s
t
) và nhc t ng trng
thái mi s
t+1
và mt kho ng r

i là hàm thuc (membership function) ca nó. Hàm thuc ca tp
rõ Ac ký hiu là λ
A
 (1/0), nó nhn giá tr ng x
thuc tp A và giá tr ng x không thuc A. Gia phn t bt k và tp
A ch tn ti mt trong hai quan h thuc hoc không thuc.
2.1.2. Khái niệm tập mờ
Xung quanh chúng ta, luôn tn ti các khái nim m, nó hin hu trong các bài
toán ng dng, ngay c a mi chúng ta. Ví d xét v tui ca con
i chúng ta có các khái nim tr, rt trChúng ta cúng xét ví d sau:
Ta xét tp hp nhi tr. Ta thy ri 25 tui thì rõ ràng là tr
i trên 60 tui thì rõ ràng là không tr nhi có tui t n 59
thì có thuc tp hp nhi tr hay không? Nu áp dng khái nim tp hp c
n thì ta phnh ra mt ranh gii rõ ràng và mang tính cht chng hn là 45 20

 nh tp hp nhi tr. h chc chi 45 tui là
tr i 46 tui là không tr. Và trong thc t thì có mt ranh gii m  
cách nhi tr và nhi không tr 
vy, nhi trung niên là nhi có m tr tr
ci 25 tuc là có giá tr  tri
trên 60 tui là hoàn toàn sai tc là có giá tr  tri trung niên s
có giá tr  0 < p < 1.
y, qua ví d trên ta thy khái nin v tp hp c ng ht
c các yêu cu ca thc t và nó cc m rng. L.A.Zadeh  xut hình thc
hóa toán hc ca khái nim m vào  t nhng khái nim trng
v ng a thông tin m, không chc ch-già, nhanh-chm, cao-th
tìm cách biu din chúng bng mt khái nim toán hc gi là tp m. T n

 +

1 



 



, 



, ,   ,  

0,1

21

Định nghĩa 2.3 (Tp m chun): Cho tp m A ca t U. A là tp m
chun nu   , 



= 1
Định nghĩa 2.4 (S m): S m là tp m va li, va chun

.
ng dùng các s m , tam giác, hình thang và dng Gauss
(hình chuông).
2.2.2. Số mờ đơn trị
Mm d lit tp m  tc là tp m A có hàm
thu





= 
1    
0    


S m  là mng hc bit ca s m, hàm thuc ch nhn giá tr 0
hong vi u có thuc tp A hay không. Nói cách khác, tp A là mt tp hp
m.
2.2.3. Số mờ tam giác
Trong mt tp v tr U, các phn t ký hiu bi x. Tp m A có hàn thuc
i 3 tham s nh ca tam giác(v mt hình hc biu
di





= max(min 


= max(min 
 

,
 
 
, 1, 0)
Hinh 9: S m hình thang
2.2.5. Số mờ hình chuông(Gauss)
S m hình i hàm thuc sau:





= 

()
2
2
2Hình 10: S m hình chuông
2.3. Biến ngôn ngữ
Ta xét mt bin nhn giá tr trong mt min giá tr ng h
có th nhn giá tr s là 1

C, 2



C tr lên thì không.
 t ra là nu nghe theo lu thì ta có th nh rõ là nhit
 bng bao nhiêu thì có th chm tay vào? Câu tr li là tu vào ý kin ca tng
i. Vi nhi là 60

i khác thì không.
Tuy các ý kiu chc chn là khi giá tr ca bin nhit
  c chp nhy nu xét hàm
cao


nhn bin nhi và tr v t l ý ki
cao

s là hàm thuc ca
tp m   

Hình 11 th biu din mi quan h gia nhi c thuc
Bin nhi có th nhn giá tr t giá tr ca ngôn ng t nhiên nên
c gi là mt bin ngôn ng (linguistic variable)
Khái niệm biến ngôn ngữ 
Mt bin ngôn ng nh bi b (x, T, U, M)
T
- x là tên bin. Ví d  
- T là tp các t là các giá tr ngôn ng t nhiên mà x có th nhn. Ví d c
 T có th 
- U là min các giá tr vt lý mà x có th nhn Ví d  là

- M là lut ng ng mi t trong T vi mt tp m At trong U






)()(|
''
sup
vyVy
B
Vv
B


 ch
- y bt k
- m cc biên (ln nht hoc nh nht)
- m ca H
2.4.2. Phƣơng pháp lấy trọng tâm
m trng tâm ca tp B
y =


V
B
V
B
dvv
dvvv
)(

1
1
.

c ng dng nhiu nht vì kt qu n nh
ng ca tt c các lu  phc tp tính

25

CHƢƠNG 3
KỸ THUẬT SOM VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU
3.1. Sơ lƣợc về SOM
Self Organizing Map (SOM) là mt m-ron nhân to c hun luyn s
dng k thut hc không giám sát (Unsupervised learning)  biu din d liu vi s
chiu thng là 2 chiu) so vi d liu vào nhiu ching s
chiu ln). Kt qu ca SOM gi là b (Map). SOM là mt mng -ron nhân to,
tuy nhiên SOM khác vi các mng -ron nhân to là không s dng các lp n
(hidden layers) ch s dng input và output layer. SOM s dng khái nim láng ging
 gi la các d liu vào trên b 
 t gn nhau trên b). m chính
ca SOM là biu din trc quan d liu nhiu chiu vào không gian ít chi 
ng là 2 chia d lic gi li trên b.
ng v SOM lc gii thiu bi C. von der Malsburg 
c phát trin bi T. Kohonen (Phn Lan c gi là Kohonen
Network.
K thu


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status