Phân cụm dữ liệu và ứng dụng trong phân loại cấu trúc protein - Pdf 33

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG

TRẦN ĐỨC THUẬN

PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG
TRONG PHÂN LOẠI CẤU TRÚC PROTEIN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2012

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG

TRẦN ĐỨC THUẬN

PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG
TRONG PHÂN LOẠI CẤU TRÚC PROTEIN
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS. ĐOÀN VĂN BAN

1.5.6. Thuộc tính tỉ lệ ................................................................................................... 16
1.6. Kết luận chƣơng ........................................................................................................ 17
CHƢƠNG 2 - KỸ THUẬT PHÂN CỤM DỮ LIỆU ỨNG DỤNG TRONG PHÂN LOẠI
CẤU TRÚC PROTEIN ....................................................................................................... 18
2.1. Giới thiệu .................................................................................................................. 18
2.2. Thuật toán K-means .................................................................................................. 18
2.3. Thuật toán PAM........................................................................................................ 22
2.4. Thuật toán CLARA ................................................................................................... 24
2.5. Thuật toán CLARANS.............................................................................................. 26
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

iii

2.6. Kết luận chƣơng ........................................................................................................ 28
CHƢƠNG 3 - TIN SINH HỌC VÀ PHÂN LOẠI CẤU TRÚC PROTEIN ....................... 29
3.1. Tổng quan về tin sinh học ......................................................................................... 29
3.1.1. Chủ thuyết trung tâm của sinh học phân tử ....................................................... 29
3.1.2. DNA (DesoxyriboNucleic Acid) ....................................................................... 30
3.1.3. RNA (RiboNucleic Acid) .................................................................................. 31
3.1.4. Protein ................................................................................................................ 31
3.1.5. Các dạng protein. ............................................................................................... 32
3.2. Các phƣơng pháp phân loại cấu trúc protein ............................................................ 34
3.2.1. Phân loại cấu trúc với SCOP ............................................................................. 38
3.2.2. Phân loại cấu trúc với CATH............................................................................. 39
3.2.3. Phân loại cấu trúc với phân loại miền Dali (DDD) ........................................... 40
3.3. Kết luận chƣơng ........................................................................................................ 41
CHƢƠNG 4 - CHƢƠNG TRÌNH DEMO VỚI PHẦN MỀM CLUSTERS 3.0 ................. 42

Nghĩa tiếng việt

DesoxyriboNucleic Acid

Phân tử nucleic acid mang thông
tin di truyền mã hóa cho hoạt
động sinh trƣởng và phát triển
của các dạng sống

RNA

RiboNucleic Acid

Là một trong hai loại axít
nucleic, là cơ sở di truyền ở cấp
độ phân ử.

PAM

Partitioning Around Medoids

Thuật toán phân cụm phân vùng
xung quanh Medoids

CLARA

Clustering Large Application

Thuật toán phân cụm ứng dụng
lớn

Structural Classification of
Proteins

Phân loại cấu trúc các protein

CATH

Class Architecture Topology
Homologous superfamily

Phân loại cấu trúc protein với
CATH

DDD

Dali Domain Dictionary

Từ điển miền Dali

PDB

Protein Data Bank

Ngân hàng dữ liệu protein

FSSP

Families of Structurally
Similar Proteins

36

Bảng 3.3 Các cấp độ chính của CATH…………………………………..

39

DANH MỤC CÁC HÌNH
Hình 1.1. Phân cụm các vector truy vấn ....................................................
Hình 1.2. Hình thành cụm cha ...................................................................
Hình 1.3. Các tỉ lệ khác nhau có thể dẫn tới các cụm khác nhau ..............
Hình 2.1 Sơ đồ phân loại các phƣơng pháp phân cụm…………………..
Hình 2.2. Các thiết lập để xác định danh giới các cụm ban đầu ................
Hình 2.3. Tính toán trọng tâm của các cụm mới ........................................
Hình 2.4 Ví dụ minh họa thuật toán K-means ...........................................
Hình 2.5 Ví dụ minh họa thuật toán PAM ................................................
Hình 3.1. Chủ thuyết trung tâm của sinh học phân tử ...............................
Hình 3.2. Cấu trúc DNA ............................................................................
Hình 3.3. Các kiểu cấu trúc của Protein .....................................................
Hình 3.4. Cấu trúc bậc 2 thƣờng thấy của protein .....................................
Hình 3.5. Hai ví dụ về protein màng ..........................................................
Hình 3.6. Sự phát triển của cấu trúc dữ liệu protein ..................................
Hình 4.1 Đầu vào dữ liệu………………………………………………...
Hình 4.2 Giao diện chọn tệp đầu vào…………………………………….
Hình 4.3 Giao diện tab Lọc dữ liệu……………………………………..
Hình 4.4 Giao diện tab chỉnh sửa dữ liệu……………………………….
Hình 4.5 Giao diện Tab K-Means, sử dụng K-means hoặc K-medians để
phân cụm…………………………………………………………………
Hình 4.6 Đầu ra dữ liệu………………………………………………….
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

công nghệ thông tin vào các ngành sinh học đã giúp ích rất nhiều cho việc tìm
hiểu nghiên cứu về sinh học phân tử. Chính vì vậy Tin sinh học, một lĩnh vực
còn khá mới, đã ra đời, sử dụng các công nghệ của các ngành toán học ứng
dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học, sinh học
để giải quyết các vấn đề của sinh học.
Nhƣ chúng ta đã biết, các cơ sở phân tử của cuộc sống dựa trên hoạt
động của phân tử sinh học, bao gồm axit nucleic (DNA và RNA),
carbohydrate, chất béo, và protein. Mặc dù mỗi loại đều đóng một vai trò thiết
yếu trong cuộc sống, nhƣng protein có một sự nổi bật bởi chúng là thành phần
biểu diễn chính các chức năng của tế bào. Chính vì vậy, tìm hiểu và nghiên
cứu cấu trúc phân tử sinh học đã nổi lên nhƣ một hƣớng đi mới với những trải
nghiệm hƣớng vào việc khám phá cấu trúc của các phân tử sinh học. Hƣớng
phát triển này của sinh học đã trải qua với sự phát triển cao thông qua nghiên
cứu cấu trúc với mục đích có cái nhìn toàn diện về không gian cấu trúc
protein, thông tin lƣu trữ trong dữ liệu cấu trúc protein là chìa khóa để thành
công nằm trong khả năng để tổ chức, phân tích thông tin chứa trong cơ sở dữ
liệu, tích hợp những thông tin đó với những nỗ lực khác nhằm giải quyết
những bí ẩn của chức năng tế bào.
Nhận thấy tính thiết thực của vấn đề này và đƣợc sự gợi ý của giảng viên
hƣớng dẫn, em đã chọn đề tài "Phân cụm dữ liệu và ứng dụng trong phân
loại cấu trúc protein"
2. MỤC TIÊU NGHIÊN CỨU
- Tìm hiểu tổng quan về lý thuyết phân cụm dữ liệu.
- Nghiên cứu một số kỹ thuật phân cụm dữ liệu ứng dụng trong phân loại
cấu trúc protein.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

http://www.lrc-tnu.edu.vn

3

CHƢƠNG 1
TỔNG QUAN LÝ THUYẾT VỀ PHÂN CỤM DỮ LIỆU
1.1. TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Phân cụm là chia dữ liệu thành các nhóm mà các đối tƣợng trong cùng
một nhóm thì giống nhau theo một nghĩa nào đó và khác với các đối tƣợng
trong các nhóm khác. Mỗi nhóm đƣợc gọi là một cluster. Mỗi đối tƣợng đƣợc
mô tả bởi một tập các độ đo hoặc bằng mối quan hệ với các đối tƣợng khác.
Cũng có rất nhiều định nghĩa về cluster, nhƣng các định nghĩa sau đây đƣợc
sử dụng nhiều nhất [4]:
- "Một cluster là một tập các đối tƣợng giống nhau và khác với các đối
tƣợng không ở trong cluster đó".
- "Một cluster là một tập các điểm trong không gian mà khoảng cách
giữa hai điểm bất kì trong nó luôn nhỏ hơn khoảng cách giữa một điểm bất kì
trong nó và một điểm ngoài".
- "Các cluster có thể đƣợc mô tả nhƣ các miền liên thông trong không
gian đa chiều chứa mật độ tƣơng đối cao các điểm, phân biệt giữa các miền
bằng mật độ khá thấp của các điểm".
Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con ngƣời từ y
tế, giáo dục, xử lý thông tin, nghiên cứu phân tích thị trƣờng,… Phân cụm
đƣợc sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân
tích dữ liệu, xử lý ảnh, nghiên cứu thị trƣờng, phân loại trong tin sinh học,…
Bằng phân cụm, trong thƣơng mại có thể giúp những nhà phân tích thị trƣờng
tìm ra những nhóm khách hàng có những nhu cầu riêng dựa trên độ tuổi, sở
thích và tâm lý tiêu dùng. Trong sinh học, nó có thể đƣợc sử dụng để phân
loại thực vật, động vật, phân loại cấu trúc protein dựa trên các cấu trúc tƣơng

toán khoảng cách đòi hỏi phải nhỏ hơn nhiều tổng các vector đặc trƣng trong
cơ sở dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

5

Hình 1.1: Phân cụm các vector truy vấn
Trong phƣơng pháp truy tìm trên cơ sở cụm trên đây, mức độ tƣơng tự
đƣợc tính toán giữa câu truy vấn và từng trọng tâm và với từng vector đặc
trƣng trong cụm lựa chọn. Khi tổng số cụm mà lớn, ta sử dụng cụm nhiều
tầng để làm giảm tính toán mức độ tƣơng tự giữa truy vấn và trọng tâm. Các
cụm tƣơng tự nhau đƣợc nhóm để hình thành cụm lớn hơn (super-cluster).
Trong khi truy tìm, trƣớc hết so sánh vector truy vấn với trọng tâm của cụm
cha sau đó so sánh với từng trọng tâm các cụm bên trong cụm cha, cuối cùng
so sánh với các vector đặc trƣng của cụm con. Hãy xem xét không gian đặc
trƣng trên hình 1.1, ta có thể hình thành cụm cha nhƣ hình 1.2.
Trong khi truy vấn, so sánh vector truy vấn với từng trọng tâm của 4 cụm
cha. Nếu tìm thấy trọng tâm của cụm cha 1 là gần vector truy vấn nhất, hãy so
sánh vector truy vấn với ba trọng tâm cụm con trong cụm cha 1. Trong thí dụ
cụm hai mức này, tổng số khoảng cách tính toán đòi hỏi giữa vector truy vấn
và trọng tâm (của các cụm cha và cụm con) là 7 (4+3), nhỏ hơn 11 tính toán
khi sử dụng cụm một tầng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

dữ liệu lớn?
- Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật
toán đƣợc thiết kế cho việc phân cụm dữ liệu có kiểu khoảng (kiểu số). Tuy
nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu
khác nhau, nhƣ kiểu nhị phân, kiểu tƣờng minh (định danh - không thứ tự), và
dữ liệu có thứ tự hay dạng hỗn hợp của những kiểu dữ liệu này.
- Khám phá các cụm với hình dạng bất kỳ: Nhiều thuật toán phân cụm
xác định các cụm dựa trên các phép đo khoảng cách Euclide và khoảng cách
Manhattan. Các thuật toán dựa trên các phép đo nhƣ vậy hƣớng tới việc tìm
kiếm các cụm hình cầu với mật độ và kích cỡ tƣơng tự nhau. Tuy nhiên, một
cụm có thể có bất cứ một hình dạng nào. Do đó, việc phát triển các thuật toán
có thể khám phá ra các cụm có hình dạng bất kỳ là một việc làm quan trọng.
- Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Nhiều
thuật toán phân cụm yêu cầu ngƣời dùng đƣa vào những tham số nhất định
trong phân tích phân cụm (nhƣ số lƣợng các cụm mong muốn). Kết quả của
phân cụm thƣờng khá nhạy cảm với các tham số đầu vào. Nhiều tham số rất
khó để xác định, nhất là với các tập dữ liệu có lƣợng các đối tƣợng lớn. Điều
này không những gây trở ngại cho ngƣời dùng mà còn làm cho khó có thể
điều chỉnh đƣợc chất lƣợng của phân cụm.
- Khả năng thích nghi với dữ liệu nhiễu: Hầu hết những cơ sở dữ liệu
thực đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chƣa biết hoặc dữ
liệu sai. Một số thuật toán phân cụm nhạy cảm với dữ liệu nhƣ vậy và có thể
dẫn đến chất lƣợng phân cụm thấp.
- Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân cụm
nhạy cảm với thứ tự của dữ liệu vào, ví dụ nhƣ với cùng một tập dữ liệu, khi
đƣợc đƣa ra với các thứ tự khác nhau thì với cùng một thuật toán có thể sinh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

động đáng kể đến kết quả phân cụm. Phân loại các kiểu thuộc tính khác nhau

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

9

là vấn đề cần giải quyết đối với hầu hết các tập dữ liệu nhằm cung cấp các
phƣơng tiện thuận lợi để nhận dạng sự khác nhau của các phần tử dữ liệu. Có
hai đặc trƣng để phân loại: kích thƣớc miền và hệ đo.
Cho một cơ sở dữ liệu D chứa n đối tƣợng trong không gian k chiều; x, y, z
là các đối tƣợng thuộc D: x = (x1, x2,...,xk); y = (yl, y2,..., yk); z = (zl, z2,..., zk)
Trong đó xi, yi, zi với i  1, k là các đặc trƣng hoặc thuộc tính tƣơng ứng
của các đối tƣợng x, y, z; nhƣ vậy sẽ có các kiểu dữ liệu sau [9].
1.4.1. Phân loại kiểu dữ liệu dựa trên kích thƣớc miền
- Thuộc tính liên tục: Nếu miền giá trị của nó là vô hạn không đếm đƣợc,
nghĩa là giữa hai giá trị tồn tại vô số giá trị khác (ví dụ, các thuộc tính màu,
nhiệt độ hoặc cƣờng độ âm thanh,...).
- Thuộc tính rời rạc: Nếu miền giá trị của nó là tập hữu hạn, đếm đƣợc
(ví dụ, các thuộc tính số, ...); trƣờng hợp đặc biệt của thuộc tính rời rạc là
thuộc tính nhị phân mà miền giá trị chỉ có hai phần tử (ví dụ:Yes/No,
True/False, On/Off...)
1.4.2. Phân loại kiểu dữ liệu dựa trên hệ đo
- Thuộc tính định danh: Là dạng thuộc tính khái quát hóa của thuộc tính
nhị phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều
hơn hai phần tử. Nếu x và y là hai đối tƣợng thuộc tính thì chỉ có thể xác định
là x ≠ y hoặc x = y.
- Thuộc tính có thứ tự: Là thuộc tính định danh có thêm tính thứ tự,

hiện bằng cách thay thế mỗi một thuộc tính bằng thuộc tính số hoặc thêm các
trọng số cho các thuộc tính.
1.5. CÁC PHÉP ĐO ĐỘ TƢƠNG TỰ VÀ KHOẢNG CÁCH ĐỐI
VỚI CÁC KIỂU DỮ LIỆU
1.5.1. Khái niệm tƣơng tự và phi tƣơng tự
Khi các đặc tính của dữ liệu đƣợc xác định, phải tìm cách thích hợp để
xác định “khoảng cách” giữa các đối tƣợng, hay là phép đo tƣơng tự dữ liệu.
Đây là các hàm để đo sự giống nhau giữa các cặp đối tƣợng dữ liệu, thông
thƣờng các hàm này hoặc là để tính độ tƣơng tự hoặc là tính độ phi tƣơng tự
giữa các đối tƣợng dữ liệu. Giá trị của hàm tính độ đo tƣơng tự càng lớn thì sự

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

11

giống nhau giữa các đối tƣợng càng lớn và ngƣợc lại còn hàm tính độ phi
tƣơng tự tỉ lệ nghịch với hàm tính độ tƣơng tự. Độ tƣơng tự hoặc phi
tƣơng tự có nhiều cách để xác định, chúng thƣờng đƣợc đo bằng khoảng
cách giữa các đối tƣợng. Tất cả các cách đo độ tƣơng tự đều phụ thuộc
vào kiểu thuộc tính mà ngƣời sử dụng phân tích. Ví dụ, đối với thuộc tính
hạng mục thì không sử dụng độ đo khoảng cách mà sử dụng một hƣớng
hình học của dữ liệu.
Tất cả các độ đo dƣới đây đƣợc xác định trong không gian metric. Bất kỳ
một metric nào cũng là một độ đo, nhƣng điều ngƣợc lại không đúng. Để
tránh sự nhầm lẫn, thuật ngữ độ đo ở đây đề cập đến hàm tính độ tƣơng tự
hoặc hàm tính độ phi tƣơng tự. Một không gian metric là một tập trong đó có
xác định khoảng cách giữa từng cặp phần tử, với những tính chất thông

Tuy nhiên chú ý rằng đây không chỉ là vấn đề đồ thị: vấn đề phát sinh từ
công thức toán học đƣợc sử dụng để kết hợp khoảng cách giữa các thành phần
đơn đặc tính dữ liệu vector vào trong một độ đo khoảng duy nhất mà có thể
đƣợc sử dụng cho mục đích phân cụm và các công thức khác nhau dẫn tới
những cụm khác nhau.
Các thuật toán cần có các phép đo khoảng cách hoặc độ tƣơng tự giữa hai
đối tƣợng để thực hiện phân cụm. Kiến thức miền phải đƣợc sử dụng để biểu
diễn phép đo khoảng cách thích hợp cho mỗi ứng dụng. Hiện nay thƣờng sử
dụng một số phép đo khoảng cách phổ biến [8]:
- Phép đo khoảng cách Minkowski đƣợc định nghĩa nhƣ sau:
 n
q
dist q ( x, y )    xi  yi 
 i 1


1

q

,q 1

trong đó, x và y là hai đối tƣợng với n là số lƣợng thuộc tính, x = (x 1, x2,…,
xn) và y = (y1, y2,…, yn); dist là kích thƣớc của dữ liệu, q là số nguyên dƣơng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

n
dist  ( x, y)  max i=1
xi  yi

;

Trong trƣờng hợp q = ∞, hữu ích để định nghĩa các đối tƣợng phi tƣơng tự
nếu chúng khác nhau chỉ trong một kích thƣớc biến đổi.
1.5.3. Thuộc tính nhị phân
Một thuộc tính nhị phân là một thuộc tính có hai giá trị chính xác nhất có
thể, chẳng hạn nhƣ "Đúng" hay "Sai". Lƣu ý rằng các biến nhị phân có thể
đƣợc chia thành hai loại: biến nhị phân đối xứng và các biến nhị phân bất đối
xứng. Trong một biến nhị phân đối xứng, hai giá trị có quan trọng không kém
nhau. Một ví dụ là "nam-nữ". Biến nhị phân đối xứng là một biến danh nghĩa.
Trong một biến không đối xứng, một trong những giá trị của nó mang tầm
quan trọng hơn biến khác. Ví dụ, "có" là viết tắt của sự hiện diện của một
thuộc tính nhất định và "không" nghĩa là sự vắng mặt của một thuộc tính
nhất định.
Nếu xem xét p là biến định danh, có thể đánh giá độ tƣơng tự của các
trƣờng hợp bằng số các biến mà có giá trị giống nhau, định nghĩa với một
biến nhị phân mới từ mỗi biến danh nghĩa, bằng việc nhóm các nhãn danh
nghĩa thành hai lớp, một nhãn là 1, và nhãn khác là 0. Xây dựng và xem xét

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

14

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

15

Công thức này sử dụng trong trƣờng hợp mà trọng số của các thuộc tính
có giá trị 1 của đối tƣợng dữ liệu cao hơn nhiều so với các thuộc tính có giá trị
0, nhƣ vậy thuộc tính nhị phân ở đây là không đối xứng.

d ( x, y) 

a
p;

d ( x, y) 

a
;
bc

d ( x, y) 

a
;
2a  b  c

Ví dụ về độ phi tƣơng tự của thuộc tính nhị phân:
Bảng 1.2 Ví dụ về độ phi tƣơng tự của thuộc tính nhị phân

Tốt

Xấu

Xấu

Xấu

B

Nữ

Có

Không

Tốt

Xấu

Tốt

Xấu

C

Nam

Có

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

16

d ( x, y) 

pm
;
p

trong đó, m là số thuộc tính đối sánh tƣơng ứng trùng nhau, và p là tổng
số các thuộc tính.
1.5.5. Thuộc tính có thứ tự
Phép đo độ phi tƣơng tự giữa các đối tƣợng dữ liệu với thuộc tính thứ tự
đƣợc thực hiện nhƣ sau [8]:
Giả sử i là thuộc tính thứ tự có Mi giá trị (Mi là kích thƣớc miền giá trị):
Các trạng thái Mi đƣợc sắp thứ tự nhƣ nhau: [1...Mi], có thể thay thế mỗi
giá trị của thuộc tính bằng giá trị cùng loại ri với ri ∈ {1...Mi}.
Mỗi một thuộc tính có thứ tự có các miền giá trị khác nhau, vì vậy phải
chuyển đổi chúng về cùng miền giá trị [0, 1] bằng cách thực hiện phép biến
đổi sau cho mỗi thuộc tính:
Z

( j)
i

ri( f )  1

w x  y 
i 1

i

i

2

i

Có thể chuyển đổi giữa các mô hình cho các kiểu dữ liệu trên, ví dụ dữ
liệu kiểu hạng mục có thể chuyển đổi thành dữ liệu nhị phân hoặc ngƣợc lại.
Thế nhƣng, giải pháp này rất tốn kém về chi phí tính toán, do vậy, cần phải
cân nhắc khi áp dụng cách thức này. Tóm lại, tùy từng trƣờng hợp dữ liệu cụ
thể mà có thể sử dụng các mô hình tính độ tƣơng tự khác nhau. Việc xác định
độ tƣơng đồng dữ liệu thích hợp, chính xác, đảm bảo khách quan là rất quan
trọng, góp phần xây dựng thuật toán phân cụm dữ liệu có hiệu quả cao trong
việc đảm bảo chất lƣợng cũng nhƣ chi phí tính toán.
1.6. KẾT LUẬN CHƢƠNG
Chƣơng 1 nêu những kiến thức cơ bản về khái niệm phân cụm, các yêu
cầu trong phân cụm dữ liệu đối với thực tế, các kiểu thuộc tính dữ liệu trong
phân cụm, một số phép đo khoảng cách phổ biến cũng nhƣ một số thuộc tính
phố biến áp dụng trong các thuật toán phân cụm dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.lrc-tnu.edu.vn

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Phân cụm dữ liệu và ứng dụng trong phân loại cấu trúc protein - Pdf 33

Tài liệu, ebook tham khảo khác

Học thêm