1
LỜI CẢM ƠN
Sau một thời gian học tập, nghiên cứu và triển khai đề tài: “Tính toán mờ trong
mạng Kohonen và ứng dụng phân cụm dữ liệu”, đến nay tôi đã hoàn thành đề tài
nghiên cứu của mình.
Tôi xin bày tỏ tấm lòng biết ơn sâu sắc nhất tới thầy giáo - Thạc sỹ Nguyễn Duy
Hiếu người thầy đã trực tiếp hướng dẫn tôi trong suốt quá trình tôi thực hiện đề tài
nghiên cứu khoa học này.
Tôi cũng chân thành cảm ơn tới lãnh đạo Nhà trường, Ban chủ nhiệm Khoa cùng
các thầy cô giáo đã giúp đỡ, tạo điều kiện để tôi có cơ hội nghiên cứu, học tập và hoàn
thành đề tài nghiên cứu này.
Do hạn chế về trình độ chuyên môn và thời gian thực hiện nên đề tài không tránh
khỏi những thiếu sót, rất mong nhận được sự góp ý của thầy cô để tôi có thể hoàn
thành tốt nhất đề tài nghiên cứu này.
Tôi xin chân thành cảm ơn! Sơn la, tháng 5 năm 2014
Sinh viên
Hoàng Khánh Linh 2
3
2.2.5. S m hình chuông(Gauss) 22
2.3. Bin ngôn ng 22
2.4. B gii m 24
2.4.1. y max 24
2.4.2. y trng tâm 24
2.4.3. y trung bình tâm 24
THUT SOM VÀ BÀI TOÁN PHÂN CM D LIU 25
c v SOM 25
3.2. 25
3.3. Thut toán phân cm s dng SOM 26
3.4. Ví d minh ha thut toán 27
NG DNG MINH HA 32
4.1. Mô t d liu 32
4.2. La chn ngôn ng lp trình và h qun tr d liu 32
4t thut toán 32
t thut toán 32
4.3.2. ng dng 36
KT LUN 37
1. Kt lun 37
ng nghiên cu phát tri tài 37
TÀI LIU THAM KHO 38
4
Bng 1: S m ng buying 28
Bng 2: S m ng maint 28
Bng 3: S m ng lug_boot 28
Bng 4: S m ng safety 28
Bng 5: D liu vào ca ví d 28
Bng thông tin trong CSDL 32
6
DANH MỤC TỪ VIẾT TẮT
SOM
Self Organizing Maps
ANN
Artificial Neural Network
PE
Processing Element
MDP
Markov Decision Process
PCDL
Phân cm d liu
CSDL
d liu
(Control Engineering),
(Kohonen, 1989), robotics (Ritter et al., 1989), (Oja, 1992),
(Fort, 1988),
(Kohonen, 1984), -
8
CHƢƠNG 1
TỔNG QUAN VỀ MÔ HÌNH MẠNG NƠ-RON
1.1. Mạng nơ-ron nhân tạo
1.1.1. Mạng nơ-ron nhân tạo là gì?
Định nghĩa: Mng -ron nhân to (Artificial Neural Network - ANN) gi tt là
mng -ron là mt mô hình x lý thông tin phng theo cách thc x lý thông tin ca
các h -ron sinh hc to lên t mt s ng ln các phn t (gi là phn
t x lý hay -ron) kt ni vi nhau thông qua các liên kt (gi là trng s liên kt)
làm vic nt th thng nh gii quyt mt v c th
Mt mng -ron nhân tc cu hình cho mt ng dng c th (nhn dng
mu, phân loi d liu ) thông qua mt quá trình hc t tp các mu hun luyn. V
bn cht hc chính là quá trình hiu chnh trng s liên kt gia các -ron.
1.1.2 Cấu trúc và mô hình của một nơ-ron nhân tạo
Mô hình toán hc ca mng -ron sinh h xut bi McCulloch và
c gi là -ron M-c gi là phn t x lý và
c ký hiu là PE (Processing Element).
Mô hình -ron u vào x
1
, x
2
, , x
m
và mu ra y
i
và
j
n
j
iji
xwnet
1
T
1
, x
2
m
là các tín hiu vào, còn w
i1
, w
i2
im
là các trng s
kt ni ca -ron th i, net
i
là hàm tng, f là hàm truyn,
i
01
01
)sgn(
xkhi
xkhi
xy
(1.2)
Hàm bc thang
00
10
11
)sgn(
xkhi
xkhix
xkhi
xy
(1.3)
c
x
Hình 2: th các dng hàm truyn
1.1.3 Cấu tạo và phƣơng thức làm việc của mạng nơ-ron
Da trên nhng -ron mc trên, ta có th
hình dung mng -ron t h truyt và x lý tín hic tính truyt
ca -ron phn lc tính truy
Khi liên ku vào/ra ca nhiu -ron vc mt mng -
ron, vic ghép ni các -ron trong mng vi nhau có th là theo mt nguyên tc bt
k. Vì mng -ron là mt h truyt và x lý tín hiu, nên có th phân bit các loi
-ron khác nhau, các -ron u vào nhn thông tin t ng bên ngoài khác
vi các -ron c ni vi các -ron khác trong mc phân
bit vi nhau qua vector hàm trng s u vào w.
Nguyên lý cu to ca mng -ron bao gm nhiu lp, mi lp bao gm nhiu
-ron có cùng chng. Hình 3 là mô hình hong ca mt mng -
ron 3 lp vi 8 phn t -ron. Mu vào là x
1
, x
2
, x
3
u ra y
1
, y
2
.
Các tín hin 3 -ron u vào, 3 -ron này làm thành lu
vào ca mng. Các -ron trong lc gi là -ron u ra ca các 11
12
ca mng -ron thc hin chng -ron t b
phn t chng vi mi nhóm là mng
u ra phù hy, mt nhóm bao gm mt lou vào và m
u ra. Các nhóm có th c hình thành trong quá trình h
không hình thành trong quá trình hc.
1.1.4. Các kiểu mạng nơ-ron
1.1.4.1. Mạng nơ-ron một lớp
Mi mt -ron có th phi hp vi các -ron khác to thành mt lp các
trng s. Mng mt lp truyn th4a. Mt lp -ron là mt nhóm các
-ron u có cùng trng s, nhn cùng mt tín hing thi.
Trong ma trn trng s, các hàng là th hin -ron, hàng th j có th t nhãn
nt vector w
j
ca -ron th j gm m trng s w
ji
. Các trng s trong cùng mt
ct th ng thi cùng nhn mt tín hiu vào x
j
.
w
j
= [w
j1
, w
j2
, , w
n tt c các -ron ca lng, các -ron u vào
không làm bii các tín hiu vào x
i
, tc là chúng không có các trng s hoc không
có các loi hàm chuyi nào, chúng ch i các tín hiu.
Lp n là lp -ron sau lp vào, chúng không trc tip liên h vi th gii bên
p -ron vào/ra.
Lp ra là lp -ron to ra các tín hiu ra cui cùng.
1.1.4.3 Mạng nơ-ron hồi tiếp
Mng -ron hi tip là mu ra ca mi -ron c quay tr li ni
vu vào ca các -ron cùng lc gi là m4b.
1.1.4.4 Mạng nơ-ron hồi quy
Mng -ron phn hi có th thc hic gi là mng -ron hi
4d. Mng -ron hi quy có trng s liên k i x ng
Hopfield, mng luôn hi t v trng thái nh (Hình 4b). Mng BAM thuc nhóm
mng -ron hi quy, gm 2 lp liên kt 2 chic gn vi tín hiu vào/ra.
Nghiên cu mng -ron hi quy mà có trng s liên ki xng, thì s gp
phi v phc tp nhii mng truyn thng và mng hi quy có trng s
liên ki xng.
1.1.4.5 Mạng Hopfield
Mng Hopfield là mng phn hi mt lc ch ra trong hình 4b. Cu trúc chi
tit cc th hin trong hình 5. Khi hong vi tín hiu ri rc gi
là mng Hopfield ri rc, và cu trúc cc gi là mng hi quy. 14 Hình 5 Cu trúc ca mng Hopfield
n
ij
j
i
k
jij
k
i
xywy
i = 1,2, ,n (1.6)
Lut cp nhc tính toán trong cách thng bu này có
a là, vi mt thc, ch có mt nút mng cp nhu ra ca
nó. S cp nht tip theo trên mt nút s s dng chính nhc cp nht.
i hình thc hong b ca mng, mc
cp nht c lp.
Có s khác bit gia lut cp nhng b và lut cp nhng b. Vi
lut cp nhng b thì s ch có mt trng thái cân bng ca h (vi giá tr
i lut cp nhng b thì có th làm
mng hi t mm c nh hoc mt vòng gii hn.
truyn li nuôi tr li lp -ron X và to nên
T
n
i
iijj
ywax
1
; vi j = 1,2, ,m (1.8)
lu vào ca lp y và t
(1.7). Quá trình này c tip tc, bao g
y
(1)
= a(wx
(0)
)
x
(2)
= a(w
(truyn thng ln th nht)
(truyc ln th nht)
(truyn thng ln th hai)
(truyc ln th hai)
(truyn thng ln th k/2)
(truyc ln th k/2)
(1.9)
Chú ý rng trng thái cp nh9ng b
trình (1.7) và (1.8). Trng thái cp nh ng b
(1.7) và (1.8) vc chn t i ra rng, h thng n
nh cho c hai ch ng b ng b. Tuy nhiên, ch ng b s làm
cho h thng hi t . 16
1.2.Các phƣơng pháp học
1.2.1. Khái Niệm
Khái niệm: Hi hành vi ca các vt theo mt cách
làm cho chúng có th thc hin t
Mt mng -ron c hun luyn sao cho vi mt tu vào X,
mng có kh o ra tu ra mong mun Y ca nó. Tc s
dng cho hun luyn mc gi là tp hun luyn (training set). Các phn t x
thuc gi là các mu hun luyn (training example). Quá trình hun luyn bn
cht là s i các trng s liên kt ca mng. Trong quá trình này, các trng s
ca mng s hi t dn ti các giá tr sao cho vi mu vào x t tp hun
luyn, mng s n
nh vic biu diu vào cho hàm chn tìm. S
chính xác ca hàm ch thuc lc biu
dic chuyi thành mt vec-
cha mt s m mô t
không nên quá ln, do s bùng n t hp (curse of dimensionality ln
d u ra.
nh cu trúc ca hàm chn tìm và gii thut hng. Ví
d la chn vic s dng m -ron nhân to hay cây quyt
nh.
5. Hoàn thin thit k chy gii thut hc t tp hun luyn thu
thc. Các tham s ca gii thut hc có th u chnh bng cách t
hit tp con (gi là tp kim chng -validation set) ca tp hun luyn,
hay thông qua kim chng chéo (cross-validation). Sau khi hu chnh tham s,
hia gii thut có th c trên mt tp kic lp vi tp hun
luyn.
1.2.3. Học không giám sát
Hc không có giám sát (unsupervised learning) là m a
ngành học máy nhm tìm ra mt mô hình mà phù hp vi các quan sát. Nó khác bit
vi hc có giám sát ch ng cho mu vào là không bit
c. Trong hc không có giám sát, mt tp d li c thu thp. Hc
i x vt tp các bin
ngt mô hình m kt hp s c xây dng cho tp d li
Hc không có giám sát có th c dùng kt hp vi suy din Bayes cho ra
xác suu kic có giám sát) cho bt kì bin ngu nhiên nào khi bit
c các bin khác.
Hc không có giám sáu ích cho vic nén d liu: v n, mi gii
thut nén d liu hoc là da vào mt phân b xác sut trên mt tu vào mt cách
ng minh.
Mt dng khác ca hc không có giám sát là phân mnh
khi không mang tính xác sut. Xem thêm phân tích khái nim hình thc (formal
c biu di i dng mt quá trình quy nh
Markov trng thái hu hn (Markov decision process - MDP), và các thut toán hc
ng cho ng cnh này có liên quan nhin các k thut quy hong. Các
xác sut chuyn trng thái và các xác sut thu lng là ngu nhiên
g quá trình ca bài toán.
Khác vi hc có giám sát, trong hng không có các cp d liu vào/kt
qu ng gn t t cách
a, ng trc tuyn (on-line performancec quan
c tìm kim mt s cân bng gia khám phá (lãnh th p bn
) và khai thác (tri thc hin có). Trong hng, s c và mt gia khám
ng nghiên cu ch yu qua bài toán multi-armed bandit. 19
Mt cách hình thc, mô hình hng bao gm:
S: tp các trng thái cng ;
A: tng; và
: tp các khong" vi giá tr ng.
Ti mi thm t, agent thc trng thái ca nó là s
t
S và tp các hành
ng có th A(s
t
). Nó chn mng a A(s
t
) và nhc t ng trng
thái mi s
t+1
và mt kho ng r
i là hàm thuc (membership function) ca nó. Hàm thuc ca tp
rõ Ac ký hiu là λ
A
(1/0), nó nhn giá tr ng x
thuc tp A và giá tr ng x không thuc A. Gia phn t bt k và tp
A ch tn ti mt trong hai quan h thuc hoc không thuc.
2.1.2. Khái niệm tập mờ
Xung quanh chúng ta, luôn tn ti các khái nim m, nó hin hu trong các bài
toán ng dng, ngay c a mi chúng ta. Ví d xét v tui ca con
i chúng ta có các khái nim tr, rt trChúng ta cúng xét ví d sau:
Ta xét tp hp nhi tr. Ta thy ri 25 tui thì rõ ràng là tr
i trên 60 tui thì rõ ràng là không tr nhi có tui t n 59
thì có thuc tp hp nhi tr hay không? Nu áp dng khái nim tp hp c
n thì ta phnh ra mt ranh gii rõ ràng và mang tính cht chng hn là 45 20
nh tp hp nhi tr. h chc chi 45 tui là
tr i 46 tui là không tr. Và trong thc t thì có mt ranh gii m
cách nhi tr và nhi không tr
vy, nhi trung niên là nhi có m tr tr
ci 25 tuc là có giá tr tri
trên 60 tui là hoàn toàn sai tc là có giá tr tri trung niên s
có giá tr 0 < p < 1.
y, qua ví d trên ta thy khái nin v tp hp c ng ht
c các yêu cu ca thc t và nó cc m rng. L.A.Zadeh xut hình thc
hóa toán hc ca khái nim m vào t nhng khái nim trng
v ng a thông tin m, không chc ch-già, nhanh-chm, cao-th
tìm cách biu din chúng bng mt khái nim toán hc gi là tp m. T n
+
1
,
, , ,
0,1
21
Định nghĩa 2.3 (Tp m chun): Cho tp m A ca t U. A là tp m
chun nu ,
= 1
Định nghĩa 2.4 (S m): S m là tp m va li, va chun
.
ng dùng các s m , tam giác, hình thang và dng Gauss
(hình chuông).
2.2.2. Số mờ đơn trị
Mm d lit tp m tc là tp m A có hàm
thu
=
1
0
S m là mng hc bit ca s m, hàm thuc ch nhn giá tr 0
hong vi u có thuc tp A hay không. Nói cách khác, tp A là mt tp hp
m.
2.2.3. Số mờ tam giác
Trong mt tp v tr U, các phn t ký hiu bi x. Tp m A có hàn thuc
i 3 tham s nh ca tam giác(v mt hình hc biu
di
= max(min
= max(min
,
, 1, 0)
Hinh 9: S m hình thang
2.2.5. Số mờ hình chuông(Gauss)
S m hình i hàm thuc sau:
=
()
2
2
2Hình 10: S m hình chuông
2.3. Biến ngôn ngữ
Ta xét mt bin nhn giá tr trong mt min giá tr ng h
có th nhn giá tr s là 1
C, 2
C tr lên thì không.
t ra là nu nghe theo lu thì ta có th nh rõ là nhit
bng bao nhiêu thì có th chm tay vào? Câu tr li là tu vào ý kin ca tng
i. Vi nhi là 60
i khác thì không.
Tuy các ý kiu chc chn là khi giá tr ca bin nhit
c chp nhy nu xét hàm
cao
nhn bin nhi và tr v t l ý ki
cao
s là hàm thuc ca
tp m
Hình 11 th biu din mi quan h gia nhi c thuc
Bin nhi có th nhn giá tr t giá tr ca ngôn ng t nhiên nên
c gi là mt bin ngôn ng (linguistic variable)
Khái niệm biến ngôn ngữ
Mt bin ngôn ng nh bi b (x, T, U, M)
T
- x là tên bin. Ví d
- T là tp các t là các giá tr ngôn ng t nhiên mà x có th nhn. Ví d c
T có th
- U là min các giá tr vt lý mà x có th nhn Ví d là
- M là lut ng ng mi t trong T vi mt tp m At trong U
)()(|
''
sup
vyVy
B
Vv
B
ch
- y bt k
- m cc biên (ln nht hoc nh nht)
- m ca H
2.4.2. Phƣơng pháp lấy trọng tâm
m trng tâm ca tp B
y =
V
B
V
B
dvv
dvvv
)(
1
1
.
c ng dng nhiu nht vì kt qu n nh
ng ca tt c các lu phc tp tính
25
CHƢƠNG 3
KỸ THUẬT SOM VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU
3.1. Sơ lƣợc về SOM
Self Organizing Map (SOM) là mt m-ron nhân to c hun luyn s
dng k thut hc không giám sát (Unsupervised learning) biu din d liu vi s
chiu thng là 2 chiu) so vi d liu vào nhiu ching s
chiu ln). Kt qu ca SOM gi là b (Map). SOM là mt mng -ron nhân to,
tuy nhiên SOM khác vi các mng -ron nhân to là không s dng các lp n
(hidden layers) ch s dng input và output layer. SOM s dng khái nim láng ging
gi la các d liu vào trên b
t gn nhau trên b). m chính
ca SOM là biu din trc quan d liu nhiu chiu vào không gian ít chi
ng là 2 chia d lic gi li trên b.
ng v SOM lc gii thiu bi C. von der Malsburg
c phát trin bi T. Kohonen (Phn Lan c gi là Kohonen
Network.
K thu