TÌM HIỂU THUẬT TOÁN SOM TRONG GOM CỤM DỮ LIỆU - Pdf 26

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTTQM
………… o0o…………
BÁO CÁO THU HOẠCH MÔN HỌC
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
Đề tài:
TÌM HIỂU THUẬT TOÁN SOM TRONG GOM
CỤM DỮ LIỆU
GVHD: PGS.TS. PhúcĐỗ
HVTH: Nguy n V n Chungễ ă
MÃ SỐ: CH1101070
TP.Hồ Chí Minh, N m 201ă 2
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
LỜI MỞ ĐẦU

Dữ liệu là nguồn tri thức vô giá của con người nếu được khai thác hiệu quả, trong thời
đại công nghệ ngày càng phát triển hiện nay thông tin dữ liệu ngày càng phình to, đó
chính là nguồn tài nguyên thông tin đáng để được khai thác, đi đôi với nó là các khoa
học công nghệ liên quan đến khai thác dữ liệu cũng phát triển theo, chính vì vậy
ngành khai thác dữ liệu đặc biệt là gom cụm dữ liệu sẽ còn phát triển mạnh hơn nữa
trong tương lai.
Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học Nhà kho dữ liệu
và khai thác dữ liệu- đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành
cám ơn ban cố vấn học tập và ban quản trị chương trình đào tạo thạc sĩ Công nghệ
thông tin qua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu tham
khảo để em có thể hoàn thành môn học này.
Chân thành cám ơn!
Nguyễn Văn Chung
- 1 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
MỤC LỤC

KẾT LUẬN 30
- 2 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
PHẦN I :
TỔNG QUAN KHAI THÁC DỮ LIỆU
I. GIỚI THIỆU KHAI THÁC DỮ LIỆU
I.1. Tại sao cần Khai thác dữ liệu :
Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các
thiết bị điện tử (đĩa cứng, CD-ROM, băng từ ) không ngừng tăng lên. Sự tích lũy dữ
liệu này xảy ra với một tốc độ bùng nổ. Người ta ước đoán rằng lượng thông tin trên
toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó sốlượng cũng như kích cỡ của
các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng. Nói một cách hình
ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói” tri thức. Câu hỏi đặt ra là
liệu chúng ta có thể khai thác được gì từ những “núi” dữ liệu tưởng chừng như “bỏ
đi” ấy không?
“Necessity is the mother of invention”- Data Mining ra đời như một hướng giải
quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa về Data Mining và
sẽ được đề cập ở phần sau, tuy nhiên có thể tạm hiểu rằng Data Mining như là một
công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được
tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó.
I.2. Khai thác dữ liệu là gì:
Khai thác dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc
hay khai thác tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc
khai thác vàng từ đá và cát, Dataming được ví như công việc "Đãi cát tìm vàng" trong
một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Dataming ám chỉ việc tìm kiếm một
tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện
được dùng cũng có nghĩa tương tự với từ Datamining như Knowledge Mining (khai
thác tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích
dữ liệu/mẫu), data archaeoloogy (khảo cổdữliệu), data dredging (nạo vét dữ liệu)
• Định nghĩa:

• Kỹ thuật mô tả:
Các nhiệm vụ mô tả về ccác tính chất hoặc các đặc tính chung của dữ liệu
trong CSDL hiện có. Các kỹ thuật này gồm có: phân cụm(clustering), tóm tắt
(summerization), trực quan hóa (visualiztion), phân tích sự phát triển và độ lệch
(Evolution and deviation analysis), phân tích luật kết hợp(association rules analysis)
…
• Kỹ thuật dự đoán:
Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời.
Các kỹ thuật này gồm: Phân lớp (classification), hồi quy (regression)…. Với hai đích
chính của khai thác dữ liệu là Dự đoán (Prediction) và Mô tả (Description), người ta
thường sử dụng các kỹ thuật sau cho khai thác dữ liệu:
 Phân lớp và dự đoán (classification and prediction): Là việc xếp các
đối tượng vào những lớp đã biết trước. Ví dụ, phân lớp các bệnh nhân,
phân lớp các loài thực vật Hướng tiếp cận này thường sử dụng một số
kỹ thuật của học máy như cây quyết định (decision tree), mạng nơron
nhân tạo (neural network) Phân lớp và dự đoán còn được gọi là học
có giám sát.
 Phân cụm (clustering / segmentation): Là việc xếp các đối tượng theo
từng cụm tự nhiên.
 Luật kết hợp (association rules): Là việc phát hiện các luật biểu diễn tri
thức dưới dạng khá đơn giản. Ví dụ: “70% nữ giới vào siêu thị mua
phấn thì có tới 80% trong số họ cũng mua thêm son”.
 Phân tích hồi quy (regression analysis): Là việc học một hàm ánh xạ
từ một tập dữ liệu thành một biến dự đoán có giá trị thực. Nhiệm vụ của
phân tích hồi quy tương tự như của phân lớp, điểm khác nhau là ở chỗ
thuộc tính dự báo là liên tục chứ không phải rời rạc.
 Phân tích các mẫu theo thời gian (sequential/temporal patterns):
Tương tự như khai phá luật kết hợp nhưng có quan tâm đến tính thứ tự
theo thời gian.
- 5 -

NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
II. GOM CỤM DỮ LIỆU
II.1. Giới thiệu:
Gom cụm dữ liệu (Data Clustering) hay gom cụm, cũng có thể gọi là phân tích
cụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập các đối
tượng thực thể hay trừu tượng thành lớp các đối tượng tương tự. Một cụm là
một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau cùng trong
một cụm và phi tương tự với các đối tượng trong các cụm khác. Một cụm các đối
tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng.
II.2. Các kiểu dữ liệu trong phép phân cụm
Các giải thuật phân cụm dựa trên bộ nhớ chính thao tác trên một trong hai cấu
trúc dữ liệu sau:
 Ma trận dữ liệu (hay cấu trúc: đối tượng x biến):
Được đại diện bởi n đối tượng, ví dụ như người với p biến (còn được gọi là các
phép đo hay các thuộc tính) như tuổi, chiều cao, giới tính, v.v Cấu trúc có dạng
bảng quan hệ, hay ma trận n x p (n đối tượng x p biến).
 Ma trận không tương đồng (hay cấu trúc đối tượng x đối tượng):
Nó lưu trữ một tập hợp các trạng thái (về mặt không gian, thời gian, ) cho tất
cả n cặp đối tượng. Nó thường được biểu diễn bởi bảng n x n
với d(i,j) được đo bởi sự khác nhau hay không tương đồng giữa các đối tượng ivà j.
Do vậy d(i,j) = d(j,i) và d(i,i) = 0, ta có ma trận trên Các phép đo không tương đồng
được thảo luận trong suốt phần này. Ma trận dữ liệu thường được gọi là ma trận 2-
mode (2 chế độ), trong khi đó ma trận không tương đồng được gọi là ma trận 1-mode
(1 chế độ). Nhiều giải thuật phân cụm thao tác trên ma trận không tương đồng. Nếu
- 7 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
dữliệu được đưa ra dưới dạng ma trận dữ liệu thì nó có thể được chuyển đổi sang ma
trận không tương đồng trước khi áp dụng các giải thuật phân cụm.
Cụm các đối tượng được tính toán dựa trên sựtương đồng hay không tương
đồng của chúng. Trong phần này, trước tiên ta thảo luận chất lượng phân cụm có thể

thích dùng công thức chuyển đổi (2.3) hơn, tại đó các biến với tương quan âm hay
dương cao ấn định cùng một giá trị tương đồng cao.
(2.3)
- 8 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
Người dùng có thể sử dụng hệ số tương đồng s(i,j) thay cho hệ số không tương
đồng. Công thức (3.6) được dùng để chuyển đổi giữa hai hệ số.
(2.4)
Lưu ý rằng không phải tất cảcác biến đều cần trong phép phân tích cụm.
Một biến là vô nghĩa với một phân cụm cho trước thì tính hữu ích sẽ ít hơn, do vậy nó
ẩn đi thông tin hữu ích đã cung cấp bởi các biến khác. Ví dụ, số điện thoại của một
người thường vô ích trong phân cụm người theo mô tả về họ như tuổi, chiều cao, cân
nặng, v.v Kiểu biến "rác" như vậy nên có trọng số 0, trừ khi nó được phép phân cụm
xử lý.
• Các biến tỷ lệ khoảng cách
Các biến tỷ lệ khoảng cách là các phép đo liên tục của một tỷ lệ tuyến tính thô.
Các mẫu điển hình như trọng lượng và chiều cao, sự kết hợp vĩ độ và kinh độ (ví dụ
khi phân cụm nhà) và nhiệt độ khí hậu. Đơn vị phép đo đã dùng có thể ảnh hưởng đến
phép phân cụm. Ví dụ, thay đổi các đơn vị đo, như thay đổi từ meter tới inche cho
chiều cao hay từ kilogram tới pound cho trọng lượng, có thể dẫn tới một cấu trúc
phân cụm rất khác biệt.
Nhìn chung, biểu diễn một biến dưới các đơn vị nhỏ hơn sẽ dẫn tới một phạm
vi lớn hơn cho biến đó và do vậy một hiệu ứng lớn hơn trên kết quả cấu trúc phân
cụm. Để tránh sự phụ thuộc vào việc lựa chọn đơn vị đo, dữ liệu nên được chuẩn hoá.
Chuẩn hoá các phép đo cố gắng mang lại cho tất cảcác biến một trọng số như nhau.
Tuy nhiên, trong nhiều ứng dụng, người ta có thể cố ý muốn mang tới trọng số lớn
hơn cho một tập các biến nào đó so với các biến khác. Ví dụ, khi phân cụm các cầu
thủ chơi bóng rổ, người ta có thể thích mang tới trọng số hơn cho biến chiều cao.
Đểchuẩn hoá các phép đo, một lựa chọn đó là chuyển đổi các phép đo gốc
sang các biến không đơn vị(unitless). Cho trước các phép đo đối với biến f. Điều này

ip
) và j=(x
j1
,x
j2
, ,x
jp
) là hai đối tượng dữ liệu p chiều. Một
metric nổi tiếng khác là khoảng cách Mahattan (hay city block) được định nghĩa bởi:
(2.9)
• Các biến nhị phân
Phần này mô tả làm thế nào để tính toán độ không tương đồng giữa các đối
tượng được mô tả bởi các biến nhị phân đối xứng hoặc không đối xứng. Một biến nhị
phân chỉ có hai trạng thái 0 hay 1, với 0 là biến vắng mặt, 1 là biến có mặt. Cho trước
biến hút thuốc mô tả một bệnh nhân, ví dụ, 1 chỉ rằng bệnh nhân hút thuốc, 0 cho biết
bệnh nhân không hút thuốc. Xử lý các biến nhị phân giống như các biến tỷ lệ khoảng
cách có thể dẫn tới lạc lối các kết quả phân cụm. Bởi vậy, các phương pháp chỉ định
cho dữ liệu nhị phân cần phải tính toán độ không tương đồng.
Một tiếp cận để tính toán ma trận không tương đồng từ dữ liệu nhị phân đã
cho. Nếu tất cảcác biến nhị phân được xem nhưlà có cùng trọng số, ta có bảng ngẫu
nhiên 2 x 2, bảng 3.1, với a là số các biến bằng 1 cho cảhai đối tượng i và j, b là số
các biến bằng 1cho đối tượng i và 0 cho đối tượng j, clà số các biến bằng 0 cho đối
tượng i và 1 cho đối tượng j, d là số các biến bằng 0 cho cả đối
tượng ivà j. Tổng số lượng của các biến là p, p= a+ b+ c+ d.
- 10 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
Bảng 3.1: Bảng ngẫu nhiên cho các biến nhị phân
Một biến nh ịphân là đối xứng nếu như cả hai trạng thái của nó có cùng trị giá
và mang cùng trọng số, do vậy không có sự ưu tiên nên kết quả mã hoá là 0 hay 1.
• Các biến tên, có thứ tự và dựa trên tỷ lệ

f
trạng thái. Các trạng thái được sắp xếp định nghĩa có thứ tự
là 1, ,M
f
.
 Các biến dựa trên tỷlệ:
Một biến dựa trên tỷ lệ làm một phép đo dương trên một tỷ lệ không tuyến
tính, như tỷ lệ số mũ, xấp xỉ công thức dưới đây:
với A và B là các hằng số dương.
Có ba phương pháp sử dụng các biến dựa trên tỷlệ để việc tính độ không tương
đồng giữa các đối tượng.
1. Xử lý các biến dựa trên tỷ lệ giống như các biến tỷ lệ khoảng cách. Tuy
nhiên điều này không phải luôn là lựa chọn tốt bởi tỷ lệ có thể bị bóp méo.
2. Áp dụng phép biến đổi loga cho một biến dựa trên tỷ lệ f có giá trị x
if
cho
đối tượng i bằng cách sử dụng công thức y
if
= log(x
if
). Các giá trị y
if
được xử lý như
giá trị tỷ lệ khoảng cách trong mục 3.2.2. Lưu ý rằng đối với nhiều biến dựa trên tỷ lệ,
ta cũng có thể áp dụng phép biến đổi log hay các phép biến đổi khác, tuỳ thuộc vào
định nghĩa và ứng dụng.
3. Xử lý x
if
như dữ liệu có thứ tự liên tục và xử lý các hạng của chúng như giá
trị tỷ lệ khoảng cách. Hai phương pháp sau có hiệu quả nhất, mặc dầu việc lựa chọn

trên phân chia cần được mở rộng.
• Các phương pháp phân cấp:
Một phương pháp phân cấp tạo một phân tích phân cấp tập các đối tượng dữ
liệu đã cho. Một phương pháp phân cấp có thể được phân loại như tích đống hay phân
chia, dựa trên việc phân ly phân cấp được hình thành như thế nào. Tiếp cận tích đống
còn được gọi là tiếp cận "bottom - up", lúc đầu mỗi đối tượng lập thành một nhóm
riêng biệt. Nó hoà nhập lần lượt các đối tượng hay các nhóm gần nhau với nhau cho
tới khi tất cảcác nhóm được hoà nhập thành một (mức cao nhất của hệthống phân
cấp), hay cho tới khi một gặp một điều kiện kết thúc.
Tiếp cận phân ly còn được gọi là tiếp cận "top - down", lúc đầu tất cả các đối
tượng trong cùng một cụm. Trong mỗi lần lặp kếtiếp, một cụm được chia vào trong
các cụm nhỏ hơn cho tới khi cuối cùng mỗi đối tượng trong một cụm hay cho tới khi
gặp một điều kiện kết thúc. Sự kết hợp của việc lặp lại việc định vị và phân ly phân
- 13 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
cấp sẽ thuận lợi bởi trước tiên sử dụng giải thuật phân ly phân cấp và sau đó cải tiến
kết quả sử dụng định vị lặp. Nhiều giải thuật phân cụm mở rộng như BIRCH và
CURE được phát triển dựa trên một tiếp cận tích hợp như vậy.
• Các phương pháp dựa trên mật độ:
Hầu hết các phương pháp phân chia cụm các đối tượng dựa trên khoảng cách
giữa các đối tượng. Các phương pháp như vậy có thể chỉ tìm được các cụm có hình
cầu và sẽ gặp khó khăn khi các cụm đang khám phá lại có hình dạng tuỳ ý. Các
phương pháp phân cụm được phát triển dựa trên khái niệm mật độ. Ý tưởng chung đó
là tiếp tục phát triển cụm cho trước với điều kiện là mật độ(số các đối tượng hay các
điểm dữ liệu) trong "lân cận" vượt quá ngưỡng, tức là đối với mỗi điểm dữ liệu trong
phạm vi một cụm cho trước thì lân cận trong vòng bán kính đã cho chứa ít nhất một
số lượng điểm tối thiểu. Một phương pháp như vậy có thể được dùng đểlọc ra nhiễu
(các outlier) và khám phá ra các cụm có hình dạng bất kỳ. DBSCAN là một phương
pháp dựa trên mật độ điển hình, nó tăng trưởng các cụm theo một ngưỡng mật độ.
OPTICS là một phương pháp dựa trên mật độ, nó tính toán một thứtựphân cụm tăng

nhất. Kết quả xử lý của một Neuron có thể làm Input cho các Neuron khác
Kiến trúc chung của một Mạng nơron gồm 3 thành phần đó là Input
Layer, Hidden Layer và Output Layer .
Trong đó, lớp ẩn (Hidden Layer) gồm các Neuron, nhận dữ liệu input từ các
Nueron ở lớp (Layer) trước đó và chuyển đổi các input này cho các lớp xử lý tiếp
theo. Trong một Mạng Nơron có thể có nhiều Hidden Layer.
- 15 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
I.3. Quá trình xử lý thông tin của một Mạng Nơron
Inputs: Mỗi Input tương ứng với 1 thuộc tính (attribute) của dữ liệu (patterns).
Ví dụ như trong ứng dụng của ngân hàng xem xét có chấp nhận cho khách hàng vay
tiền hay không thì mỗi Input là một thuộc tính của khách hàng như thu nhập, nghề
nghiệp, tuổi, số con…
Output: Kết quả của một Mạng nơron là một giải pháp cho một vấn đề, ví dụ
như với bài toán xem xét chấp nhận cho khách hàng vay tiền hay không thì output là
yes (cho vay) hoặc no (không cho vay).
Connection Weights (Trọng số liên kết): Đây là thành phần rất quan trọng của
một Mạng nơron, nó thể hiện mức độ quan trọng (độ mạnh) của dữ liệu đầu vào đối
với quá trình xử lý thông tin (quá trình chuyển đổi dữ liệu từ Layer này sang layer
khác). Quá trình học (Learning Processing) của Mạng nơron thực ra là quá trình điều
chỉnh các trọng số (Weight) của các input data để có được kết quả mong muốn.
Summation Function (Hàm tổng): Tính tổng trọng số của tất cả các input được
đưa vào mỗi Neuron (phần tử xử lý PE). Hàm tổng của một Neuron đối với n input
được tính theo công thức sau:
Hàm tổng đối với nhiều Neurons trong cùng một Layer (Xem hình dưới):
- 16 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
Hàm chuyển đổi (Transformation (Transfer) Function):
Hàm tổng (Summation Function) của một Neuron cho biết khả năng kích hoạt
(Activation) của neuron đó còn gọi là kích hoạt bên trong (internal activation). Các

của Mạng nơron đạt được giá trị mong muốn (Desired value) đã biết. Điển hình cho
kỹ thuật này là mạng Neuron lan truyền ngược (Backpropagation).
Unsupervised learning: Không sử dụng tri thức bên ngoài trong quá trình học
(Learning), nên còn gọi là tự tổ chức (Self – Organizing). Mạng Neuron điển hình
được huấn luyện theo kiểu Unsupervised là Sefl – Organizing Map (SOM).
Sau đây là phân loại các thuật toán Learning và kiến trúc của Mạng nơron
• Nguyên tắc huấn luyện (Training protocols)
Mạng Neuron có 3 cách huấn luyện chính đó là batch training, stochastic
training và on-line training. Đối với on-line training thì các trọng số của mạng
(weights) được cập nhật ngay lập tức sau khi một input pattern được đưa vào
- 19 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
mạng. Stohastic training cũng giống như on-line training nhưng việc chọn các input
patterns để đưa vào mạng từ training set được thực hiện ngẫu nhiên (random). Batch
training thì tất cả các input patterns được đưa vào mạng cùng lúc và sau đó cập nhật
các trọng số mạng đồng thời. Ưu điểm của on-line training là tiết kiệm bộ nhớ vì
không cần lưu lại số lượng lớn các input patterns trong bộ nhớ.
Trong quá trình huấn luyện mạng, thuật ngữ “epoch” được dùng để mô tả quá
trình khi tất cả các input patterns của training set được đưa để huấn luyện mạng. Nói
cách khách 1 epoch được hoàn thành khi tất cả các dữ liệu trong training set được đưa
vào huấn luyện mạng. Vì vậy số lượng “epoch” xác định số lần mạng được huấn
luyện (hay số lần đưa tất cả các dữ liệu trong training set vào mạng).
II. Thuật toán SOM (Self Organizing Map)
II.1. Giới thiệu:
Self Organizing Map (SOM) hay Self-Organizing Feature Map (SOFM) là
một mạng Neuron nhân tạo (Artificial Neural Networks – ANN), được huấn luyện
(trained) sử dụng kỹ thuật Unsupervised learning để biểu diễn dữ liệu với số chiều
(dimension) thấp hơn nhiều (thường là 2 chiều) so với dữ liệu đầu vào nhiều chiều
(thường số chiều lớn). Kết quả của SOM gọi là bản đồ (Map). SOM là một ANN, tuy
nhiên SOM khác với các ANN là không sử dụng các lớp ẩn (hidden layers) chỉ sử

- 21 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
Minh họa cho quá trình Training một SOM đơn giản với 2 neurons và input
vector gồm 4 chiều. Khởi tạo ngẫu nhiên weight matrix như sau:
Để đơn giản ta giả sử bán kính R=0 (số láng giềng của winning neuron =0. Có
nghĩa là chỉ cập nhật trọng số của winning neuron chứ không cập nhật trọng số của
bất kỳ neuron nào khác).
Learning rate α tại thời điểm ban đầu (t=0) bằng 0.6. tức là α(t=0)=0.6
Learning rate tại thời điển t+1 được điều chỉnh như sau:
- 22 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
Giả sử Training data gồm 4 samples như sau:
Quá trình training SOM được thực hiện bằng cách lần lượt đưa các input vector
vào SOM và cập nhật vector trọng số của winning neuron như sau (chú ý trong ví dụ
này để thuận tiện ta sử dụng bình phương khoảng cách Euclidean chứ không tính căn
bậc hai).
• Xét Input vector x=(1 1 0 0)
Khoảng cách từ 2 neurons đến input vector như sau:
Ta thấy rằng khoảng cách từ neuron Y2 đến input vector nhỏ hơn khoảng cách từ
neuron Y1 đến input vector nên winning neuron là Y2. Vì R=0 nên ta chỉ cập nhật
trong số của neuron Y2 như sau:
Ma trận trọng số mới sau khi cập nhật là
Tương tự, xét các input vector còn lại trong training data và cập nhật weight
matrix như trên và Sau lần lặp thứ nhất (sau khi tất cả các input vector trong training
data được đưa vào để huấn luyện, tức là hoàn thành 1 epochs), ta được:
- 23 -
NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU
• Cập nhật learning rate
Quá trình này lặp lại cho đến khi learning rate đủ nhỏ hoặc weight matrix hội tụ
thì kết thúc. Trong ví dụ này, sau khi lặp lại 100 lần (epochs=100) thì ma trận trọng

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

TÌM HIỂU THUẬT TOÁN SOM TRONG GOM CỤM DỮ LIỆU - Pdf 26

Tài liệu, ebook tham khảo khác

Học thêm