Khai phá dữ liệu về kết quả học tập của học sinh trường Cao đẳng nghề Văn Lang Hà Nội - Pdf 25

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐĂNG NHƯỢNG
KHAI PHÁ DỮ LIỆU VỀ KẾT QUẢ HỌC TẬP
CỦA HỌC SINH TRƯỜNG CAO ĐẲNG NGHỀ
VĂN LANG HÀ NỘI

LUẬN VĂN THẠC SĨ Hà Nội - 2012
-
2-

3-
MỤC LỤC
MỤC LỤC
3

MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG
5

DANH MỤC CÁC HÌNH VẼ
7

DANH MỤC CÁC BẢNG
8

BẢN CAM KẾT
9

LỜI CẢM ƠN
10

MỞ ĐẦU
11

CHƯƠNG 1. TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 13

1. 1. Về khai phá dữ liệu 13

2. 1. 2. Chức năng của thống kê 23

2. 1. 3. Phương pháp thống kê 23

2. 2. Khái niệm phân cụm 25

2. 3. Các kiểu dữ liệu trong phép phân cụm 29

2. 3. 1. Đo chất lượng phân cụm 30

2. 3. 2. Các biến tỷ lệ khoảng cách 31

2. 3. 3. Các biến nhị phân 33

2. 3. 4. Các biến tên, có thứ tự và dựa trên tỷ lệ 35

2. 3. 5. Các biến có sự pha trộn của các kiểu 38

2. 4. Phân loại các phương pháp phân cụm chính 39

2. 4. 1. Các phương pháp phân chia 39

2. 4. 2. Các phương pháp phân cấp 40

2. 4. 3. Các phương pháp dựa trên mật độ 40

-
4-
2. 8. 3 Phân cụm không gian số chiều cao 67

2. 9. Kết luận 68

CHƯƠNG 3. PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG CAO ĐẲNG NGHỀ VĂN
LANG HÀ HỘI 69

3. 1. Giới thiệu lịch sử phát triển 69

3. 1. 1. Cơ cấu tổ chức 70

3. 2. 2. Yêu cầu xây dựng cơ sở dữ liệu học sinh 70

3. 2. 3. Phạm vi thực hiện 71

3. 2. Công cụ xử lý dữ liệu cùng với phân cụm 73

3. 2. 1. Giới thiệu chung 73

3. 2. 2. Công cụ SPSS của IBM 74

3. 3. Phân cụm trong công cụ SPSS của IBM 76

3. 4. 1. Thao tác phân cụm 76

3. 4. 2. Thống kê mô tả đối tượng 78

3. 5. Áp dụng phân cụm học sinh tại trường Cao đẳng nghề Văn Lang Hà Nội 78

3. 5. 1. Xây dựng CSDL học sinh 78

BIRCH
Balanced Iterative Reducing and
Clustering Using Hierarchies
Phương pháp phân cụm phân cấp
CLARA
Clustering large applications
Phân cục CSDL lớn
CLARANS
Clustering Large Applications
based upon randomized Search
Phân cụm ứng dụng lớn dựa trên
tìm kiếm ngẫu nhiên
CLIQUE
CLustering InQUEst
Phân cụm lưới
CNTT

Công nghệ thông tin
CSDL

Cơ sở dữ liệu
CURE
Clustering Using REpresentatives
Phân cụm dựa trên các trọng điểm
DBSCAN
Density-Based Spatial Clustering
of Applications with Noise
Phân cụm dựa trên mật độ
DENCLUE
DENsity-based CLUstEring

-
6-OPTICS
Ordering Points To Identify the
Clustering Structure
Sắp xếp các điểm để nhận biết cấu
trúc các cụm dữ liệu
PAM
Partition around medoids
Phân chia xung quanh các đại diện
SAS
Statistical Analysis System
Hệ thống phân tích thống kê
SPSS
Statistical Package for the Social
Sciences
Chương trình thống kê dành cho
các môn khoa học xã hội
STING
STatistical INformation Grid
Phân cụm dựa trên lưới
WWW
World Wide Web
Mạng thông tin toàn cầu -
7-

Hình 3. 9. Thống kê theo số lượng phân cụm cụ thể 78
Hình 3. 10. Kết quả học tập của học sinh khi tham gia phân cụm 80
Hình 3. 11. Kết quả phân cụm theo vùng miền 82
Hình 3. 12. Kết quả phân cụm theo dân tộc 84
Hình 3. 13. Kết quả số lượng của cụm 1 85
Hình 3. 14. Kết quả số lượng học sinh cụm 3 và 5 87
Hình 3. 15. Kết quả đạo đức học sinh cụm 3 và 5 88
Hình 3. 16. Kết quả học tập của học sinh cụm 4. 89
Hình 3. 17. Kết quả ảnh hưởng của môn toán đến môn văn 92
Hình 3. 18. Kết quả phân cụm theo vùng miền 93

-
8-DANH MỤC CÁC BẢNG
Bảng 2. 1. Bảng ngẫu nhiên cho các biến nhị phân 34
Bảng 2. 2 Bảng quan hệ chứa hầu hết các thuộc tính nhị phân 35
Bảng 3. 1 Các chiều phân tích theo chủ đề 71
Bảng 3. 2. Bảng kết quả học tập của học sinh sau một năm học tại trường 72
Bảng 3. 3. Bảng xây dựng CSDL học sinh 79
Bảng 3. 4. Kết quả phân cụm và số lượng cụ thể từng cụm 81
Bảng 3. 5. Kết quả phân cụm theo vùng miền 82
Bảng 3. 6. Kết quả phân cụm theo hoàn cảnh gia đình 83
Bảng 3. 7 Kết quả phân cụm theo dân tộc 84
Bảng 3. 8 Kết quả phân cụm theo giới tính 85
Bảng 3. 9. Kết quả theo giới tính cụm 1 86
Bảng 3. 10 Kết quả học tập của các dân tộc cụm 1 86
Bảng 3. 11. Tổng hợp kết quả theo giới tính cụm 3 và 5 87
Bảng 3. 12. Kết quả học tập theo dân tộc cụm 3 và 5 88

thống thông tin khoa Công nghệ thông tin của trường Đại học công nghệ-Đại học
quốc gia Hà Nội đã truyền đạt, hướng dẫn và cung cấp những kiến thức quý báu
cho em trong suốt quá trình học tập và nghiên cứu tại trường.
Xin chân thành cảm ơn thầy giáo PGS. TS Đỗ Trung Tuấn đã tận tình
hướng dẫn, chỉ bảo em trong thời gian qua.
Em cũng xin gửi lời cảm ơn tới gia đình, người thân đã tạo điều kiện để
hoàn thành khóa học sau đại học. Nhân đây, có lời cám ơn đến bạn bè, những
người luôn cổ vũ, quan tâm và giúp đỡ em trong suốt thời gian học tập cũng như
làm luận văn.
Xin cám ơn đồng nghiệp tại trường Trung học phổ thông Quế Võ số 1,
huyện Quế Võ, tỉnh Bắc Ninh đã trợ giúp rất nhiều trong thời gian qua. Chân
thành biết ơn đồng nghiệp tại trường Cao đẳng nghề Văn Lang Hà Nội đã tạo
điều kiện về dữ liệu cho thử nghiệm luận văn.
Do thời gian và kiến thức có hạn nên luận văn chắc không tránh khỏi những
thiếu sót nhất định. Em rất mong nhận được những sự góp ý quý báu của thầy cô
và các bạn.
Hà Nội, tháng 05 năm 2012
-
11-MỞ ĐẦU

Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin
trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng
nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích
luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá

Phần I. Tổng quan về phát hiện tri thức và khai phá dữ liệu
Phần này giới thiệu một cách tổng quát về quá trình phát hiện tri thức nói
chung và khai phá dữ liệu nói riêng. Đặc biệt nhấn mạnh về kỹ thuật chính được
nghiên cứu trong luận văn đó là Kỹ thuật phân cụm.
Phần II. Kỹ thuật phân cụm
Kỹ thuật phân cụm cũng được chia làm nhiều kiểu: phân cụm phân chia,
phân cụm phân cấp, phân cụm dựa trên mật độ và phân cụm dựa trên lưới.
Phần III. Kết quả phân cụm học tập của sinh viên.
Phần này trình bày một số kết quả đã đạt được khi tiến hành áp dụng các
giải thuật khai phá dữ liệu để khai thác thông tin từ điểm học sinh của trường
Cao đẳng nghề Văn Lang Hà Nội. Sự ảnh hưởng của vùng miền, của hoàn cảnh
gia đình, dân tộc, đạo đức… đến kết quả học tập của học sinh, phân loại kết quả
học tập để đánh giá một cách nhanh chóng nhận thức của người học. Từ đó có
những điều chỉnh giảng dạy của giáo viên phù hợp với năng lực người học.
Công tác trong ngành giáo dục, nơi công nghệ thông tin được áp dụng vào
công tác quản lý từ những năm rất sớm. CSDL thông tin liên quan đến lĩnh vực
quản lý học sinh là một CSDL lớn chứa nhiều thông tin quý báu. Với mong
muốn bước đầu áp dụng kỹ thuật khai phá dữ liệu trên CSDL của học sinh trường
cao đẳng nghề Văn Lang Hà Nội, luận văn đã tập trung nghiên cứu về các kỹ
thuật phân cụm dữ liệu trên CSDL học sinh.
Khai phá dữ liệu là sự tìm kiếm thông tin mới, có giá trị và không tầm
thường trong khối lượng dữ liệu lớn. Nó là sự phối hợp nỗ lực của con người và
máy tính, các kết quả tốt nhất nhận được bằng việc cân bằng giữa tri thức của các
chuyên gia con người trong việc mô tả các vấn đề và mục đích với khả năng tìm
kiếm của máy tính.
-
13-

1. 1. Về khai phá dữ liệu
Khai phá dữ liệu là một hướng nghiên cứu mới ra đời hơn một thập niên trở
lại đây, các kỹ thuật chính được áp dụng trong kỹ thuật này phần lớn được thừa
kế từ CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, lý thuyết thống kê và
-
14-tính toán hiệu năng cao. Do sự phát triển nhanh của khai phá dữ liệu về phạm vi
ứng dụng và phương pháp tìm kiếm tri thức đã có nhiều quan điểm khác nhau về
khai phá dữ liệu. Ông Tom Mitchell [18] đã đưa ra định nghĩa khai phá dữ liệu
như sau: "Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những
quy tắc và cải thiện những quyết định trong tương lai". Với một cách tiếp cận
ứng dụng hơn, ông Fayyad [15] đã phát biểu: "Khai phá dữ liệu, thường được
xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất
những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các
quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu". Tuy nhiên ở mức độ trừu tượng
nhất định, chúng ta định nghĩa khai phá dữ liệu : Khai phá dữ liệu là một quá
trình tìm kiếm, phát hiện những tri thức mới, tiềm ẩn hữu dụng từ những dữ liệu
đã thu thập được.
Khai phá tri thức trong CSDL là mục tiêu chính của khai phá dữ liệu, do
vậy hai khái niệm khai phá dữ liệu và phát hiện tri thức được các nhà khoa học
trên hai lĩnh vực xem là tương đương nhau. Thế nhưng nếu phân chia một cách
chi tiết thì khai phá dữ liệu là một bước chính trong quá trình phát hiện tri thức
trong dữ liệu.
1. 2. Quá trình khai phá tri thức trong cơ sở dữ liệu
Quá trình khai phá tri thức được tiến hành theo các bước. Bắt đầu của quá
trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra [2] . Về lý
thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp
phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ

kết hợp
6. Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu
được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu
dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải
ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết
xuất ra. Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số
phép đo. Sau đó sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để
biểu diễn tri thức khai phá được cho người sử dụng.
-
16-Trên đây là 6 giai đoạn của quá trình phát hiện tri thức, trong đó giai đoạn "
khai phá dữ liệu" là giai đoạn được quan tâm nhiều nhất.
1. 3. Các kỹ thuật khai phá dữ liệu
Hình 1. 2 biểu diễn một tập dữ liệu giả hai chiều bao gồm 23 trường hợp.
Mỗi một điểm trên hình đại diện cho một người vay tiền ngân hàng tại một số
thời điểm trong quá khứ. Dữ liệu được phân loại vào hai lớp: những người không
có khả năng trả nợ và những người tình trạng vay nợ đang ở trạng thái tốt (tức là
tại thời điểm đó có khả năng trả nợ ngân hàng).
Hai mục đích chính của khai phá dữ liệu trong thực tế là dự đoán và mô tả.

Hình 1. 2. Tập dữ liệu với 2 lớp : có và không có khả năng trả nợ
1. 3. 1. Khai phá dữ liệu dự đoán
Nhiệm vụ của khai phá dữ liệu dự đoán là đưa ra các dự đoán dựa vào các
suy diễn trên dữ liệu hiện thời. Nó sử dụng các biến hay các trường trong cơ sở
dữ liệu để dự đoán các giá trị không biết hay các giá trị tương lai. Bao gồm các kĩ
thuật: phân loại, hồi quy
1. 3. 1. 1. Phân loại
Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các

giá trị rời rạc.
Hồi quy là học một hàm ánh xạ một mục dữ liệu vào một biến dự báo giá trị
thực. Các ứng dụng hồi quy có nhiều, ví dụ như đánh giá xác suất một bệnh nhân
sẽ chết dựa trên tập kết quả xét nghiệm chẩn đoán, dự báo nhu cầu của người tiêu
dùng đối với một sản phẩm mới dựa trên hoạt động quảng cáo tiêu dùng.
1. 3. 2. Khai phá dữ liệu mô tả
Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung
của dữ liệu trong CSDL hiện có. Bao gồm các kỹ thuật: phân cụm, phân tích luật
kết hợp
Nợ
Thu nhập
-
18-1. 3. 2. 1. Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng
tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng
một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không
tương đồng [4]. Phân cụm dữ liệu là một ví dụ của phương pháp học không giám
sát. Không giống như phân loại dữ liệu, phân cụm dữ liệu không đòi hỏi phải
định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu
là một cách học bằng quan sát, trong khi phân loại dữ liệu là học bằng ví dụ.
Trong phương pháp này ta sẽ không thể biết kết quả các cụm thu được sẽ như thế
nào khi bắt đầu quá trình. Vì vậy, thông thường cần có một chuyên gia về lĩnh
vực đó để đánh giá các cụm thu được. Phân cụm dữ liệu được sử dụng nhiều
trong các ứng dụng về phân đoạn thị trường, phân loại học sinh, nhận dạng mẫu,
phân loại trang Web…
Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí
cho các thuật toán khai phá dữ liệu khác.

phá dữ liệu có thể sử dụng với các cơ sở dữ liệu thường động, không đầy đủ, bị
nhiễu và lớn hơn nhiều so với các tập dữ liệu học máy điển hình. Trong khi đó
phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến
động và tập dữ liệu không quá lớn.
Thật vậy, trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một tập
các mẫu được lưu trong tệp. Các mẫu thường là các vectơ với độ dài cố định,
thông tin về đặc điểm, dãy các giá trị của chúng đôi khi cũng được lưu lại như
trong từ điển dữ liệu. Một giải thuật học máy sử dụng tập dữ liệu và các thông tin
kèm theo tập dữ liệu đó làm đầu vào và đầu ra biểu thị kết quả của việc học. Học
máy có khả năng áp dụng cho cơ sở dữ liệu, lúc này học máy sẽ không phải là
học trên tập các mẫu nữa mà học trên tập các bản ghi của cơ sở dữ liệu. Tuy
nhiên trong thực tế, cơ sở dữ liệu thường động, không đầy đủ và bị nhiễu, lớn
hơn nhiều so với các tập dữ liệu học máy điển hình. Các yếu tố này làm cho hầu
hết các giải thuật học máy trở nên không hiệu quả. Khai phá dữ liệu lúc này sẽ xử
lý các vấn đề vốn đã điển hình trong học máy và vượt quá khả năng của học máy,
-
20-đó là sử dụng được các CSDL có dữ liệu nhiễu, không đầy đủ hoặc biến đổi liên
tục.
1. 4. 2. Hệ chuyên gia
Các hệ chuyên gia nắm bắt các tri thức cần thiết cho một bài toán nào đó.
Các kỹ thuật thu thập giúp cho việc lấy tri thức từ các chuyên gia con người.
Mỗi phương pháp hệ chuyên gia là một cách suy diễn các luật từ các ví dụ
và giải pháp đối với bài toán chuyên gia đưa ra. Phương pháp hệ chuyên gia khác
với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao
hơn nhiều so với các dữ liệu trong CSDL và chúng thường chỉ bao hàm được các
trường quan trọng. Các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các
mẫu phát hiện được.

 Thông tin khoa học: Địa lý: Phát hiện động đất
 Giáo dục đào tạo: Phân luồng học sinh, áp dụng các phương pháp
dạy học tích cực để nâng cao chất lượng giáo dục
1. 5. 2. Những thách thức đối với phát hiện tri thức
Một số thách thức :
1. Các cơ sở dữ liệu lớn hơn rất nhiều: cơ sở dữ liệu với hàng trăm trường và
bảng, hàng triệu bản ghi và kích thước lên tới nhiều Gigabyte là vấn đề hoàn
toàn bình thường và cơ sở dữ liệu Terabyte cũng đã bắt đầu xuất hiện.
2. Số chiều cao: Không chỉ thường có một số lượng rất lớn các bản ghi trong cơ
sở dữ liệu mà còn có một số lượng rất lớn các trường (các thuộc tính, các
biến) làm cho số chiều của bài toán trở nên cao. Thêm vào đó, nó tăng thêm
cơ hội cho một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ. Vậy
nên cần giảm bớt hiệu quả kích thước của bài toán và tính hữu ích của tri thức
cho trước để nhận biết các biến không hợp lệ.
3. Quá phù hợp: Khi giải thuật tìm kiếm các tham số tốt nhất cho một mô hình
đặc biệt sử dụng một tập hữu hạn dữ liệu, kết quả là mô hình biểu diễn nghèo
nàn trên dữ liệu kiểm định. Các giải pháp có thể bao gồm hợp lệ chéo, làm
theo quy tắc và các chiến lược thống kê tinh vi khác.
4. Thay đổi dữ liệu và tri thức: Thay đổi nhanh chóng dữ liệu động có thể làm
cho các mẫu được phát hiện trước đó không còn hợp lệ. Thêm vào đó, các
biến đã đo trong một cơ sở dữ liệu ứng dụng cho trước có thể bị sửa đổi, xoá
bỏ hay tăng thêm các phép đo mới. Các giải pháp hợp lý bao gồm các phương
pháp tăng trưởng để cập nhật các mẫu và xử lý thay đổi.
-
22-5. Dữ liệu thiếu và bị nhiễu: Bài toán này đặc biệt nhạy trong các cơ sở dữ liệu
thương mại. Các thuộc tính quan trọng có thể bị mất nếu cơ sở dữ liệu không
được thiết kế với sự khám phá bằng trí tuệ. Các giải pháp có thể gồm nhiều

-
23-CHƯƠNG 2. KỸ THUẬT PHÂN CỤM
TRONG KHAI PHÁ DỮ LIỆU
2. 1. Một số khái niệm thống kê
2. 1. 1. Định nghĩa
Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp,
trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ
cho quá trình phân tích, dự đoán và ra quyết định.
2. 1. 2. Chức năng của thống kê
Thống kê thường được phân thành 2 lĩnh vực:
1. Thống kê mô tả : Là các phương pháp có liên quan đến việc thu thập số liệu,
tóm tắt, trình bày, tính toán và mô tả các đặc trưng khác nhau để phản ánh
một cách tổng quát đối tượng nghiên cứu.
2. Thống kê suy luận : Là bao gồm các phương pháp ước lượng các đặc trưng
của tổng thể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự đoán
hoặc ra quyết định trên cơ sở thông tin thu thập từ kết quả quan sát mẫu.
2. 1. 3. Phương pháp thống kê
 Thu thập và xử lý số liệu: Số liệu thu thập thường rất nhiều và hỗn độn,
các dữ liệu đó chưa đáp ứng cho quá trình nghiên cứu. Để có hình ảnh
tổng quát về tổng thể nghiên cứu, số liệu thu thập phải được xử lý tổng
hợp, trình bày, tính toán các số đo; kết quả có được sẽ giúp khái quát
được đặc trưng của tổng thể.
 Nghiên cứu các hiện tượng trong hoàn cảnh không chắc chắn: Trong
thực tế, có nhiều hiện tượng mà thông tin liên quan đến đối tượng nghiên
cứu không đầy đủ mặc dù người nghiên cứu đã có sự cố gắng. Ví dụ như
nghiên cứu về nhu cầu của thị trường về một sản phẩm ở mức độ nào,
tình trạng của nền kinh tế ra sao, để nắm được các thông tin này một

thuật. Dự đoán dựa vào ngoại suy là chúng ta chỉ quan sát sự biến
động của hiện tượng trong thực tế, tổng hợp lại thành qui luật và sử
dụng qui luật này để suy luận, dự đoán sự phát triển của hiện tượng.
Ví dụ như để đánh giá kết quả hoạt động của một công ty người ta
xem xét kết quả hoạt động kinh doanh của họ qua nhiều năm.
Ngoài ra, người ta còn có thể phân chia dự báo thống kê ra thành nhiều loại
khác.
-
25-2. 2. Khái niệm phân cụm
Xử lý nhóm một tập các đối tượng vào trong các lớp các đối tượng giống
nhau được gọi là phân cụm. Một cụm là một tập hợp các đối tượng dữ liệu giống
nhau trong phạm vi cùng một cụm và không giống nhau với các đối tượng trong
các cụm khác.
Định nghĩa :
Cho x làm một tập dữ liệu: X = { x
1
, x
2
, …. , x
n
} . Ta định nghĩa m-phân
cụm của X như một sự phân chia X thành m tập (cụm) C
1
, C
2
, …. , C
m

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Khai phá dữ liệu về kết quả học tập của học sinh trường Cao đẳng nghề Văn Lang Hà Nội - Pdf 25

Tài liệu, ebook tham khảo khác

Học thêm