Thuật toán Kmeans trong phân cụm văn bản - Pdf 23

THUẬT TOÁN K-MEAN
VÀ ỨNG DỤNG
1
K
-
M
e
a
n

v
à

n
g

d
u
n
g

NỘI DUNG CHÍNH
I. Phân cụm
II. Thuật toán K-Mean
1. Khái quát về thuật toán
2. Các bước của thuật toán
3. Ví dụ minh họa – Demo thuật toán
4. Đánh giá thuật toán
III. Ứng dụng của thuật toán K-Mean
2
K

3
K
-
M
e
a
n

v
à

n
g

d
u
n
g

I. PHÂN CỤM
Nếu X : 1 tập các điểm dữ liệu
C
i
: cụm thứ i
X = C
1
… C
k
… C
ngoại lai

I. PHÂN CỤM
2. Một số độ đo trong phân cụm

Minkowski

Euclidean – p = 2

Độ đo tương tự (gần nhau): cosin hai vectơ
cosµ =
5
K
-
M
e
a
n

v
à

n
g

d
u
n
g

1
1

e
a
n

v
à

n
g

d
u
n
g

I. PHÂN CỤM
4. Một số phương pháp phân cụm điển hình

Phân cụm phân hoạch

Phân cụm phân cấp

Phân cụm dựa trên mật độ

Phân cụm dựa trên lưới

Phân cụm dựa trên mô hình

Phân cụm có ràng buộc
7


Đặc điểm:

Mỗi đối tượng chỉ thuộc về 1 cụm.

Mỗi cụm có tối thiểu 1 đối tượng.

Một số thuật toán điển hình : K-mean, PAM, CLARA,…
8
K
-
M
e
a
n

v
à

n
g

d
u
n
g

II.2. Thuật toán K-Means
Phát biểu bài toán:


g

d
u
n
g

II.1. KHÁI QUÁT VỀ THUẬT TOÁN

Thuật toán hoạt động trên 1 tập vectơ d chiều, tập dữ liệu
X gồm N phần tử:
X = {x
i
| i = 1, 2, …, N}

K-Mean lặp lại nhiều lần quá trình:

Gán dữ liệu.

Cập nhật lại vị trí trọng tâm.

Quá trình lặp dừng lại khi trọng tâm hội tụ và mỗi đối
tượng là 1 bộ phận của 1 cụm.
10
K
-
M
e
a
n

i j
i x C
x c
= ∈

∑ ∑
11
K
-
M
e
a
n

v
à

n
g

d
u
n
g

II.2. CÁC BƯỚC CỦA THUẬT TOÁN

Bước 1 - Khởi tạo
Chọn K trọng tâm {c
i

j i
t
i j
t
x S
i
c x
S
+

=

II.3 VÍ D MINH H AỤ Ọ
Đ i t ngố ượ Thu c tính 1 (X)ộ Thu c tính 2 (Y)ộ
A 1 1
B 2 1
C 4 3
D 5 4
13
K
-
M
e
a
n

v
à

n

c m Kụ
Tr ng tâmọ
Tr ng tâmọ
Kho ng cách các ả
đ i t ng đ n các ố ượ ế
tr ng tâmọ
Nhóm các đ i ố
t ng vào các c mượ ụ
Không có
đ i t ng ố ượ
chuy n ể
nhóm
K t thúcế
K t thúcế
+
-
II.3 VÍ D MINH H AỤ Ọ

B c 1:ướ Kh i t oở ạ
Ch n 2 tr ng tâm ban đ u: ọ ọ ầ
c
1
(1,1) A và c≡
2
(2,1) B, thu c 2 c m 1 và 2≡ ộ ụ
15
K
-
M
e

) C thu c c m 2ộ ụ


d(D, c
1
) =
= 25
d(D, c
2
) =
= 18
d(D,c
1
) > d(D, c
2
) D thu c c m 2ộ ụ
2 2
(4 1) (3 1)− + −
2 2
(4 2) (3 1)− + −
2 2
(5 1) (4 1)− + −
2 2
(5 2) (4 1)− + −
16
K
-
M
e
a

17
K
-
M
e
a
n

v
à

n
g

d
u
n
g

II.3 VÍ D MINH H AỤ Ọ

B c 4-1:ướ L p l i b c 2 – Tính toán kho ng ặ ạ ướ ả
cách

d(A, c
1
) = 0 < d(A, c
2
) = 9.89
A thu c c m 1ộ ụ

v
à

n
g

d
u
n
g

II.3 VÍ DỤ MINH HỌA

B c 4-2: ướ L p l i b c 3-C p nh t tr ng tâmặ ạ ướ ậ ậ ọ
c
1
= (3/2, 1) và c
2
= (9/2, 7/2)
19
K
-
M
e
a
n

v
à


) = 0.5
C thu c c m 2ộ ụ

d(D, c
1
) = 21.25 > d(D, c
2
) = 0.5
D thu c c m 2ộ ụ
20
K
-
M
e
a
n

v
à

n
g

d
u
n
g

II.3 VÍ D MINH H AỤ Ọ
21

. .K N l
22
K
-
M
e
a
n

v
à

n
g

d
u
n
g

II.4 ĐÁNH GIÁ THUẬT TOÁN – NHƯỢC
ĐIỂM
1. Không có khả năng tìm ra các cụm không lồi hoặc các
cụm có hình dạng phức tạp.
2. Khó khăn trong việc xác định các trọng tâm cụm ban đầu
- Chọn ngẫu nhiên các trung tâm cụm lúc khởi tạo
- Độ hội tụ của thuật toán phụ thuộc vào việc khởi tạo
các vector trung tâm cụm
1. Khó để chọn ra được số lượng cụm tối ưu ngay từ đầu,
mà phải qua nhiều lần thử để tìm ra được số lượng cụm

2. Áp dụng K-Mean
Kết quả trả về là các cụm tài liệu và các trọng tâm tương
ứng.

Phân vùng ảnh
24
K
-
M
e
a
n

v
à

n
g

d
u
n
g


Nhờ tải bản gốc
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status