Tiếp cận mờ trong phân cụm dữ liệu - Pdf 30

Tiếp cận mờ trong phân cụm dữ liệu
Nguyễn Trung Đức Khoa Luật Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội
Luận văn ThS. Công nghệ thông tin: 60 48 05
Người hướng dẫn : TS. Hoàng Xuân Huấn
Năm bảo vệ: 2013
62 tr .

Abstract. Trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ dựa trên hai thuật
toán C-means mờ (FCM) và Gustafson – Kessel (GK). Đặc biệt đi sâu vào kỹ thuật
đánh giá số cụm nhờ hàm chỉ số. Trên cơ sở đó, đề xuất một chỉ số đánh giá số cụm
mới cho phân cụm mờ nhờ kết hợp ưu điểm của chỉ độ nén (compactness) và độ chồng
nhau (overlap). Độ nén chỉ ra mức độ tương đồng của các đối tượng dữ liệu trong một
cụm và được tính toán dựa trên giá trị hàm liên thuộc của các đối tượng dữ liệu. Độ
chồng nhau chỉ ra mức độ chồng nhau giữa các cụm mờ và thu được bởi tính toán tỷ lệ
trùng lặp của các đối tượng dữ liệu thuộc ở hai hay nhiều cụm. Ưu điểm nổi trội của
chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi
so sánh với các chỉ số điển hình hiện có, đặc biệt là trong trường hợp các cụm khác
nhau về kích thước và mật độ, cũng như trong trường hợp các cụm chồng nhau
Keywords. Hệ thống thông tin ; Phân cụm dữ liệu; Phân cụm mờ
Content.
Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang
được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu. Nó có nhiệm vụ tổ chức một
tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm
thì “tương tự” nhau trong khi các đối tượng trong các cụm khác nhau thì “kém tương
tự” nhau.

thuật toán phân cụm mờ điển hình: C-means mờ (viết tắt là FCM) và mở rộng của nó
là thuật toán Gustafson-Kessel (viết tắt là GK).
Chương 3: Số cụm và chỉ số đánh giá
Trong chương 3, luận văn đặc tả vấn đề ước lượng số cụm trong bài toán phân
cụm. Phân tích một số hàm chỉ số thông dụng để đánh giá chất lượng phân hoạch được
tạo ra bởi các thuật toán phân cụm mờ, nhờ đó xác định số cụm tối ưu cho tập dữ liệu
được xét.
Chương 4: Một chỉ số đánh giá số cụm mới cho phân cụm mờ
Chương 4, luận văn đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp độ nén
và độ chồng nhau của các cụm. Tiến hành thực nghiệm trên nhiều bộ dữ liệu nhân tạo
và bộ dữ liệu thực đã cho thấy ưu điểm nổi trội của chỉ số mới so với các chỉ số điển
hình hiện có trong quá trình tìm kiếm số cụm tối ưu cho một tập dữ liệu.

TÀI LIỆU THAM KHẢO

Tiếng Việt
[1] Nguyễn Như Hiền, Lại Khắc Lãi (2007), Hệ mờ & nơnon trong kỹ thuật điều
khiển, Nhà xuất bản Khoa học tự nhiên và công nghệ, Hà Nội.
[2] Hoàng Xuân Huấn (2011), Giáo trình Nhận dạng mẫu, Đại học Công nghệ - Đại
học Quốc gia Hà Nội.
[3] Hoàng Xuân Huấn, Nguyễn Trung Thông (2005), Phân cụm nửa giám sát với mô
hình phân cấp, Kỷ yếu hội thảo khoa học quốc gia lần thứ hai: Nghiên cứu cơ
bản và ứng dụng công nghệ thông tin.
[4] Bùi Ngọc Thăng (2007), Một thuật toán phân cụm mờ khi số cụm không xác
định, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ.
[5] Hà Quang Thụy và cộng sự (2009), Giáo trình khai phá dữ liệu web, Nhà xuất
bản Giáo dục Việt Nam, Hà Nội.
[6] Hoàng Hải Xanh (2005), Về các kỹ thuật phân cụm dữ liệu trong Data mining,
Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ.
[7] Trần Thị Yến (2009), Phân cụm dữ liệu trừ mờ và ứng dụng, Đại học Công nghệ

Identification of characteristic plant co-occurrences in neotropical secondary
montane forests, Journal of Plant Ecology, vol. 2, no. 1, pp. 31-41.
[19] M. Halkidi, Y. Batistakis, M. Vazirgiannis (2001), On clustering validation
techniques, Journal of Intelligent Information Systems, 17:2/3, pp. 107–145.
[20] M. Ramze Rezaee, B.P.F. Lelieveldt, J.H.C. Reiber (1998), A new cluster validity
index for the fuzzy c-mean, Pattern Recognition Letters 19, pp. 237–246.
[21] N. R. Pal, J. C. Bezdek (1995), On cluster valitidy for the fuzzy c-means model,
IEEE Transactions on fuzzy system, vol. 3, no 3, pp. 370-379.
[22] Q. Zhao (2012), Cluster validity in clustering methods, Publications of the
University of Eastern Finland.
[23] Roburt Babuska (2004), Fuzzy and neural control, DISC Course Lecture Notes,
pp. 59-72.
[24] R.N. Dave (1996), Validating fuzzy partition obtained through c-shells
clustering, Pattern Recognition Lett. 17, pp. 613–623.
[25] R.Suganya, R.Shanthi (2012), Fuzzy C-Means Algorithm- A Review, International
Journal of Scientific and Research Publications, Volume 2, pp. 2250 – 3153.
[26] S. Ghosh, S.K. Dubey (2013), Comparative Analysis of K-Means and Fuzzy C-
Means Algorithms, International Journal of Advanced Computer Science and
Applications, Vol. 4, No.4, pp. 35-39.
[27] S.H. Kwon (1998), Cluster validity index for fuzzy clustering, Electron. Lett. 34
(22), pp. 2176–2177.
[28] X.L. Xie, G. Beni (1991), A validity measure for fuzzy clustering, IEEE Trans.
Pattern Anal. Mach. Intell. 13, pp. 841–847.
[29] Y.HUI, Ch. Zuo, Y. Yag, F. Qu (2011), A cluster validity index for fuzzy c-means
clustering, Interational Conference on System Science, Engineering Design and
Manufacturing Informatization, 2011 Int. Conf. (vol.2), pp. 263 – 266.
[30] W. Wang, Y. Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol.
158, pp. 2095-2117.
Một số trang web
[31]

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Tiếp cận mờ trong phân cụm dữ liệu - Pdf 30

Tài liệu, ebook tham khảo khác

Học thêm