Tiếp cận mờ trong phân cụm dữ liệu - Pdf 25

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TRUNG ĐỨC TIẾP CẬN MỜ TRONG PHÂN CỤM DỮ LIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
TIẾP CẬN MỜ TRONG PHÂN CỤM DỮ LIỆU

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Hoàng Xuân Huấn Hà Nội, 2013
1

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT 3
DANH MỤC CÁC HÌNH VẼ 4

2

3.3.4. Chỉ số K 37
3.3.5. Chỉ số PCAES 38
3.3.6. Chỉ số CO 39
CHƢƠNG IV: MỘT CHỈ SỐ ĐÁNH GIÁ SỐ CỤM MỚI CHO PHÂN CỤM MỜ
41
4.1. Nhận xét 41
4.2. Chỉ số đánh giá mới 42
4.3. Kết quả thực nghiệm 43
4.3.1. Các tập dữ liệu 43
4.3.2. Các kết quả thu được 45
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 58
TÀI LIỆU THAM KHẢO 59
3

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT

DBSCAN Density – Based Spatial Clustering of Applications with Noise
FCM Fuzzy c-means
FN Furthest Neighbour
FPCM Fuzzy Possibilistic c-Means
GG Gath – Geva
GK Gustafson – Kessel
NN Nearest Neighbour
PC Partition Coeficient
PCAES Partition Coefficient And Exponential Separation

Hình 2.6: Tập dữ liệu “butterfly”. 25
Hình 2.7: Kết quả phân cụm rõ tập dữ liệu butterfly. 26
Hình 2.8: Hai cụm mờ của tập dữ liệu butterfly. 26
Hình 2.9: Các chuẩn khoảng cách khác nhau sử dụng trong phân cụm mờ 30
Hình 2.10: Kết quả phân cụm tập dữ liệu các cụm khác nhau về hình dáng bởi thuật
toán FCM và GK 32
Hình 3.1: Phân cụm tập dữ liệu với số lượng cụm khác nhau 33
Hình 3.2: (a) Tập dữ liệu gồm 3 cụm, (b) kết quả phân cụm bởi thuật toán FCM với số
cụm là 4 34
Hình 3.3: Quá trình ước lượng số cụm tối ưu. 35
Hình 3.4: Kết quả phân cụm và giá trị chỉ số PCAES với các số cụm khác nhau. 39
Hình 4.1: Hai cụm A, B có cùng số phần tử, phân phối giống nhau nhưng kích thước,
mất độ khác nhau. 41
Hình 4.2: Ba cụm A, B, C với tâm cụm biểu thị là hình chữ nhật nhỏ. 42
Hình 4.3: Mô tả các tập dữ liệu nhân tạo 45
Hình 4.4: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Sep_8. 46
Hình 4.5: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Over_5. 47
Hình 4.6: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Over_3. 49
Hình 4.7: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Over_4. 51
Hình 4.8: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Difzd_3. 51
Hình 4.9: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Difz_3. 52
5

Hình 4.10: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Iris. 53
Hình 4.11: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Seeds. 54
Hình 4.12: Đồ thị biểu diễn kết quả các chỉ số với tập dữ liệu Pima Indians Diabetes.
56

6

vào việc phân cụm dữ liệu xây dựng lên phương pháp phân cụm dữ liệu mờ.
Hiện nay, phân cụm dữ liệu mờ vẫn là bài toán đang được nhiều người quan tâm
nghiên cứu và ứng dụng thành công trong nhiều lĩnh vực: nghiên cứu thị trường, nhận
dạng, xử lý ảnh, tìm kiếm thông tin… Các thuật toán phân cụm mờ rất đa dạng như: C-
means mờ (FCM), Gustafson-Kessel (GK), Gath-Geva (GG), Fuzzy Possibilistic C-
Means (FPCM), -Insensitive Fuzzy C-means (FCM), Tuy nhiên, trong các thuật
toán, thường yêu cầu người dùng xác định trước số lượng cụm. Số cụm là một tham số
quan trọng và ảnh hưởng nhiều tới kết quả của quá trình phân cụm, ứng với số lượng
cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau, thật khó khăn để quyết định
kết quả phân cụm nào là tốt nhất hay số lượng cụm tối ưu là gì?
Luận văn này trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ. Đặc
biệt, đi sâu vào kỹ thuật đánh giá, ước lượng số cụm nhờ hàm chỉ số. Trên cơ sở đó,
đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp ưu điểm của chỉ độ nén
(compactness) trong [8,16] và độ chồng nhau (overlap) trong [17,29]. Ưu điểm nổi trội
của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo
khi so sánh với các chỉ số điển hình hiện có.
Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chƣơng:
Chương 1: Tổng quan về phân cụm dữ liệu
Chương 1 tập trung trình bày tổng quan về PCDL, đây là một hướng tiếp cận
trong Data Mining. Trong đó đi sâu phân tích chi tiết các vấn đề cơ bản: khái niệm
PCDL và ý nghĩa của nó trong thực tiễn; trình bày một số phương pháp PCDL và giải
thuật điển hình của mỗi phương pháp phân cụm.
Chương 2: Phân cụm dữ liệu mờ
Để làm rõ hơn kỹ thuật PCDL mờ, chương 2 trình bày một số khái niệm cơ bản
của lý thuyết tập mờ; phân tích kỹ thuật phân cụm rõ và phân cụm mờ, trình bày hai
8

thuật toán phân cụm mờ điển hình: C-means mờ (viết tắt là FCM) và mở rộng của nó
là thuật toán Gustafson-Kessel (viết tắt là GK).
Chương 3: Số cụm và chỉ số đánh giá

learning), vì nó phải giải quyết vấn đề tìm một cấu trúc trong tập hợp dữ liệu chưa biết
trước các thông tin về cụm hay các thông tin về tập huấn luyện mà chỉ đơn thuần dựa
vào tính tương đồng của các đối tượng dữ liệu. Trong nhiều trường hợp, nếu phân lớp
được xem là vấn đề học có giám sát thì PCDL là một bước trong phân lớp dữ liệu, nó
sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu.
[2,6,13]
Với một tập dữ liệu, quá trình phân cụm có thể cho ra nhiều kết quả khác nhau
tùy thuộc vào tiêu chí cụ thể được sử dụng để phân cụm. Các bước cơ bản của quá
trình phân cụm được thể hiện trong hình 1.2 và được tóm tắt như sau:[15,19]
Lựa chọn đặc trưng (Feature selection): các đặc trưng phải được lựa chọn một
cách hợp lý để có thể “mã hóa” nhiều thông tin nhất liên quan đến nhiệm vụ mà chúng
ta quan tâm. Mục tiêu chính là giảm thiểu dư thừa thông tin giữa các đặc trưng. Do đó,
tiền xử lý dữ liệu là một nhiệm vụ quan trọng trước khi tiến hành các bước sau.
10

Lựa chọn thuật toán phân cụm (clustering algorithm selection): cần lựa chọn một
sơ đồ thuật toán riêng biệt nhằm làm sáng tỏ cấu trúc của tập dữ liệu.
Đánh giá kết quả phân cụm (validation of results): Khi đã có kết quả phân cụm
thì ta phải kiểm tra tính đúng đắn của nó. Với cùng một tập dữ liệu, những cách tiếp
cận khác nhau thường dẫn tới các kết quả phân cụm khác nhau và ngay cả cùng một
thuật toán với các tham số đầu vào khác nhau cũng cho ra các kết quả khác nhau. Vì
vậy, các tiêu chuẩn và tiêu chí để đánh giá kết quả phân cụm là rất quan trọng. Nó
cung cấp cho người dùng mức độ tin cậy của các kết quả mà thuật toán phân cụm
thực hiện.
Giải thích kết quả (interpretation of results): Mục tiêu cuối cùng của việc phân
cụm là cung cấp cho người sử dụng những hiểu biết ý nghĩa từ dữ liệu gốc. Các
chuyên gia phải giải thích những phân vùng dữ liệu thu được. Trong nhiều trường hợp,
các chuyên gia trong các lĩnh vực ứng dụng phải tích hợp các kết quả phân cụm với
các bằng chứng thực nghiệm khác và phân tích để rút ra những kết luận đúng.

Lựa chọn
đặc trưng
Thuật toán
phân cụm
Đánh giá
cụm
Giải thích
kết quả
11
Hình 1.3: Tiêu chuẩn phân cụm.
Chất lượng của kết quả phân cụm phụ thuộc vào cả độ đo tương tự được sử dụng
và cách thức thực hiện.
Chất lượng của phương pháp phân cụm cũng được đánh giá bởi khả năng phát
hiện các mẫu tiềm ẩn (hidden patterns).
Các yêu cầu của phân cụm trong khai phá dữ liệu:[6,13]
Việc xây dựng và lựa chọn một thuật toán phân cụm là bước then chốt cho việc
giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân
cụm, mục đích của ứng dụng thực tế hoặc xác định độ ưu tiên giữa chất lượng của các
cụm hay tốc độ thực hiện thuật toán,
Hầu hết các nghiên cứu và phát triển thuật toán PCDL đều nhằm thỏa mãn các
yêu cầu cơ bản sau:
- Có tính mở rộng ;
- Thích nghi với các kiểu dữ liệu khác nhau;
- Khám phá ra các cụm với hình dạng bất kỳ;
- Tối thiểu lượng tri thức cần cho xác định các tham số vào;
- Thích nghi với dữ liệu nhiễu;
- Ít nhạy cảm với các tham số đầu vào;

Thương mại: Trong thương mại, phân cụm dữ liệu có thể giúp các nhà tiếp thị
khám phá ra các nhóm khách hàng quan trọng có các đặc trưng tương đồng nhau và
đặc tả họ từ các mẫu mua bán trong cơ sở dữ liệu khách hàng.
Sinh học: Trong sinh học, phân cụm dữ liệu được sử dụng để xác định các loài
sinh vật, phân loại Gen với chức năng tương đồng và thu được những hiểu biết bên
trong những cấu trúc của quần thể.
Phân tích dữ liệu không gian: Do một lượng lớn dữ liệu không gian có thể thu
được từ các hình ảnh vệ tinh, thiết bị y tế, hệ thống thông tin địa lý (GIS), cơ sở dữ
liệu hình ảnh thăm dò,… làm cho người dùng tốn kém và khó khăn để kiểm tra các dữ
liệu không gian một cách cụ thể. Phân cụm dữ liệu có thể giúp người dùng tự động
phân tích và xử lý các dữ liệu không gian. Nó được sử dụng để nhận dạng, trích xuất
các đặc tính hoặc các mẫu dữ liệu quan tâm có thể tồn tại trong cơ sở dữ liệu không
gian lớn.
Khai phá Web (Web mining): phân cụm dữ liệu có thể khám phá các nhóm tài
liệu quan trọng, có nhiều ý nghĩa trong môi trường web. Các lớp tài liệu này hỗ trợ
trong việc phát hiện ra thông tin. Trong tìm kiếm tương tự (similar search), nếu trước
đó các trang web đã phân cụm, thì khi lọc các kết quả, ta chỉ tập trung vào các trang
Web nằm trong cụm có liên quan nhiều đến câu truy vấn. Như vậy, chất lượng của kết
quả tìm kiếm sẽ tốt hơn. Trong phân cụm phân cấp, có thể tạo ra một hệ thống cây
phân cấp các chủ đề của các trang Web, làm cho người đọc có thể tìm các trang Web
theo chủ đề người đó quan tâm một cách nhanh chóng. Phân cụm cũng có thể ứng
dụng vào việc nhóm các kết quả trả về của một máy tình kiếm thành các nhóm có chủ
đề và như vậy người dùng có thể tìm đến các trang Web thuộc chủ đề quan tâm một
cách nhanh chóng mà không phải duyệt qua toàn bộ danh sách kết quả trả về của máy
tìm kiếm.
13

1.4. Các phƣơng pháp phân cụm dữ liệu thông thƣờng
Có nhiều thuật toán phân cụm nhưng để đưa ra một sự phân loại rõ ràng các
phương pháp phân cụm là khó khăn bởi vì các loại này có thể chồng nhau (overlap).



2



=1
(1.1)
Trong đó: 

là tâm của cụm 

tương ứng.
Thuật toán này thực hiện như sau:
Bước 0: Xác định trước số lượng cụm c và điều kiện dừng;
Bước 1: Khởi tạo ngẫu nhiên c điểm




=1

làm các tâm cụm;
Bước 2: Lặp khi điều kiện dừng chưa thỏa mãn:
2.1. Phân hoạch D thành c cụm bằng cách gán mỗi đối tượng vào cụm mà nó
gần tâm nhất;
2.2. Tính lại các tâm theo các đối tượng đã được phân hoạch ở bước 2.1.
Điều kiện dừng của thuật toán thường chọn từ các điều kiện sau:
14


=




, c = n
2. Khi c ≠ 1 thực hiện lặp:
2.1. Chọn hai cụm gần nhất 

và 

theo quy tắc đã chọn
2.2. Trộn 

và 

thành 

=






// còn c-1 cụm
2.3. c  c-1
Phương pháp trên xuống còn gọi là phương pháp tách, được thực hiện theo trình
tự ngược với phương pháp trộn. Trong mỗi bước người ta chọn một cụm để tách thành

và 

để tìm
và trộn hai cụm có khoảng cách nhỏ nhất trong mỗi bước.
Với mêtric trong không gian đặc trưng xác định bởi một chuẩn

.

đã có, sau
đây là một số quy tắc liên kết thông dụng.
a) Liên kết đơn
Ký hiệu là NN (Nearest Neighbour). Trong quy tắc này, khoảng cách giữa hai
cụm được xác định nhờ khoảng cách nhỏ nhất giữa hai mẫu (đối tượng) tương ứng với
hai cụm:




, 


= 




: 

, 






: 

, 


(1.2b)
c) Liên kết trung bình giữa các nhóm
Ký hiệu là UPGMA (Un-Weighted Pair-Group Method using Arithmetic
averages). Như tên gọi của nó, khoảng cách 



, 


là trung bình của khoảng cách
giữa các cặp đối tượng thuộc hai cụm tương ứng:




, 


=
1

thuật toán này xem xét mật độ theo lân cận của mỗi đối tượng, nếu số lượng các đối
tượng trong khoảng cách  của một đối tượng lớn hơn ngưỡng MinPts thì đối tượng đó
được xem là nằm trong một cụm. Bởi vì các cụm tìm được phụ thuộc vào tham số  và
MinPts, nên thuật toán DBSCAN cần dựa vào người sử dụng để lựa chọn tập tham số
tốt. Để tránh được vấn đề này, năm 1999 Ankerst đề xuất phương pháp sắp xếp các
cụm gọi là OPTICS (Ordering Point To Identify the Clustering Structure). OPTICS
tính toán việc sắp xếp các cụm có tham số để phân cụm tự động. Nhược điểm của các
thuật toán theo hướng này là có độ phức tạp lớn nên không dùng được cho khối lượng
dữ liệu lớn. Thuật toán DBSCAN giúp ta hiểu được cách tiếp cận này.
Thuật toán DBSCAN (Density – Based Spatial Clustering of Applications with Noise)
Thuật toan DBSCAN nhóm các vùng có mật độ đủ cao vào trong một cụm và
thác triển dựa trên các đối tượng lõi để có các cụm với hình dạng tự nhiên trong các
tập không gian đặc trưng. Thuật toán yêu cầu xác định trước hai tham số đầu vào là 
và Minpts. Phân cụm dữ liệu theo thuật toán DBSCAN áp dụng các luật sau đây:
- Các đối tượng nằm trong hình cầu bán kính  (–lân cận) của một đối tượng
được gọi là –láng giềng của đối tượng đó. Đối tượng có ít nhất là Minpts
đối tượng khác là –láng giềng thì được gọi là đối tượng nhân.
- Một đối tượng có thể nằm trong một cụm khi và chỉ khi nó nằm trong –lân
cận của một đối tượng nhân thuộc cụm đó.
17

- Một đối tượng lõi o là –láng giềng của một đối tượng nhân p thì o thuộc
cùng cụm với p.
- Hai cụm có giao khác rỗng thì nhập thành một cụm
- Một đối tượng không là nhân r và không là –láng giềng của một đối tượng
nhân nào thì được xem là phần tử ngoại lai hay là đối tượng nhiễu.
Để lập nên các cụm, DBSCAN kiểm tra –láng giềng của mỗi đối tượng trong cơ
sở dữ liệu. Nếu –láng giềng của một điểm p chứa nhiều hơn Minpts, một cụm mới
với p là đối tượng nhân được tạo ra. Các cụm này được mở rộng nhờ liên kết các cụm
con tạo nên cụm chứa nó. Những phần tử ngoại lai không được phân cụm, nếu cần

- M: vectơ trung bình của dữ liệu trong ô;
- S: độ lệch chuẩn của mọi giá trị thuộc tính trong ô;
- Min: giá trị cực tiểu của các thuộc tính trong ô;
- Max: giá trị cực đại của các thuộc tính trong ô;
- Distribution: kiểu phân phối của các giá trị thuộc tính trong ô.
Việc phân tích này giúp ta quyết định có chia ô đang xét ở mức mịn hơn không
hay là đã đủ để phân cụm trong từng ô hoặc kết hợp với các cụm ở ô liền kề. Cách
phân chia ô như vậy tạo ra một cấu trúc phân cấp: mỗi ô ở mức cao được phân chia
thành một số ô ở mức thấp hơn trong bước tiếp theo.
Hình 1.7 mô tả 3 mức lưới liên tiếp nhau trong cấu trúc STING, mỗi ô ở mức
trên được phân thành bốn ô ở mức tiếp theo. Các tham số thống kê ở mức cao khi chưa
xác định được sẽ được tính toán từ các tham số trong các ô ở mức thấp hơn. Kiểu phân
bố ở ô mức cao được tính toán dựa trên các kiểu phân bố ở các ô tương ứng ở mức
thấp. Nếu các phân bố ở mức thấp không cho biết phân bố mức cao thì phân bố ở ô
mức cao sẽ là không xác định (được đặt là none).

Hình 1.7: Ba tầng liên tiếp nhau của cấu trúc STING.
Việc phân tích thống kê thực hiện phân cấp theo các ô từ tầng trên. Tầng này bao
gồm một số lượng nhỏ các ô. Với mỗi ô trong tầng, tính khoảng chắc chắn mà các ô
trong đó sẽ trở thành một cụm để quyết định. Các ô không chắc chắn sẽ phân chia tiếp
hoặc loại bỏ. Tiến trình này được lặp lại cho đến khi tính chất cụm của dữ liệu trong
19

mỗi ô xác định rõ. Việc phân cụm sẽ hoàn tất khi xác định được quan hệ cụm giữa dữ
liệu trong các ô.
1.5. Một số chủ đề liên quan
Các thuật toán PCDL đề cập trong chương 1 đều áp dụng phương pháp chung là
chia một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng
chỉ thuộc về một cụm (phương pháp PCDL rõ). Phương pháp này chỉ phù hợp với việc
khám phá ra các cụm có mật độ cao và rời nhau, với đường biên giữa các cụm được

2.1.1. Khái niệm về tập mờ
Thật đơn giản nếu thế giới chỉ có đúng hoặc sai, giống như trắng, đen là hai màu
trong muôn vàn màu sắc. Thế giới xung quanh ta được bao bọc bởi các khái niệm
“mờ” và không chính xác: Cô ấy rất trẻ, cô ấy khá cao, anh ta vô cùng thông minh hay
ông ấy là một người đàn ông trung niên…
L.A. Zadeh là người sáng lập ra lý thuyết tập mờ. Ý tưởng nổi bật của khái niệm
tập mờ của Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa của thông tin mờ,
không chắc chắn như: trẻ, nhanh, cao – thấp, xinh đẹp, ông đã tìm ra cách biểu diễn
nó bằng một khái niệm toán học, được gọi là tập mờ, như là một sự khái quát trực tiếp
của khái niệm tập kinh điển (tập cổ điển).[1]
2.1.1.1. Tập kinh điển
Khái niệm tập hợp được hình thành trên nền tảng lôgic và được định nghĩa như là
sự sắp xếp chung các đối tượng có cùng tính chất, được gọi là phần tử của tập hợp đó.
Cho một tập hợp A, một phần tử x thuộc A được ký hiệu: x  A. Thông thường
ta dùng hai cách để biểu diễn tập hợp cổ điển đó là:
- Liệt kê các phần tử của tập hợp, ví dụ A = {xe đạp, xe máy, xe ca, xe tải};
- Biểu diễn tập hợp thông qua tính chất tổng quát của các phần tử, ví dụ: tập các
số thực (R), tập các số tự nhiên (N).
Để biểu diễn một tập A trên tập nền X, ta dùng hàm thuộc 




, với:





=

Ngoài ra, logic này còn có một nhược điểm khác quan trọng hơn đó là nó không
thể biểu diễn được các dữ kiện mang tính mơ hồ, không chính xác mà trong thực tế lại
có rất nhiều phát biểu bằng ngôn ngữ tự nhiên ở dạng này, chẳng hạn như:
- Lan thì khá cao  như vậy Lan có thuộc tập hợp những người cao hay
không?
- Nam thì rất cao  như thế nào là rất cao?
Vì vậy, không thể dùng logic cổ điển để suy luận và sinh ra tri thức trong môi
trường “mờ” như vậy.
2.1.1.2. Định nghĩa tập mờ
Trong khái niệm tập hợp kinh điển hàm phụ thuộc 




của tập A, chỉ có một
trong hai giá trị là “1” nếu x  A hoặc “0” nếu x  A.
Cách biểu diễn hàm phụ thuộc như trên sẽ không phù hợp với những tập được
mô tả “mờ”. Ví dụ khi xét tập B là tập những người trẻ. Trong trường hợp này không
có ranh giới rõ ràng để khẳng định một ai đó có thuộc B hay không. Ranh giới đó là
mờ. Ta chỉ có thể nói một người nào đó thuộc B ở mức độ bao nhiêu phần trăm. Để trả
lời câu hỏi này, ta phải coi hàm phụ thuộc 




có giá trị trong đoạn từ 0 đến 1 tức
là: 0  




. Trong
đó x  X và 




là ánh xạ xác định bởi:
μ
B
: X→ [0, 1]
Ánh xạ μ
B
được gọi là hàm liên thuộc (hay còn gọi là hàm thành viên) của tập
mờ B và 




được gọi là độ thuộc của phần tử x vào tập mờ B.
Độ thuộc của phần tử càng lớn thì mức độ phần tử đó thuộc về tập đã cho càng
lớn. Khi độ thuộc bằng 0 thì phần tử đó hoàn toàn không thuộc về tập đã cho, ngược
lại, khi độ thuộc bằng 1 thì phần tử đó sẽ thuộc tập hợp đã cho với xác suất 100%.
Ví dụ:
Cho các tập mờ: “Trẻ ”, “Trung niên”, “Già”:

Già
40
55
25
0
0.5
1
23
35
0.6
0.4
Trẻ
Trung niên
Các tập mờ
Tuổi
μ
23

Hàm tam giác (triangle):
Hàm tam giác (xem hình 2.3) được xác định theo công thức:
Triangle(x,a,b,c) =






0 



2.1.3. Các thông số đặc trưng cho tập mờ
Các thông số đặc trưng cho tập mờ là độ cao, miền xác định và miền tin cậy.
Độ cao của một tập mờ B (định nghĩa trên cơ sở M) là giá trị lớn nhất trong các
giá trị của hàm liên thuộc:
= 






(2.4)
Miền xác định của tập mờ B (định nghĩa trên cơ sở M) được ký hiệu bởi S là tập
con của tập M có giá trị hàm liên thuộc khác không:
=

| 




> 0

(2.5)
Miền tin cậy của tập mờ B (định nghĩa trên cơ sở M) được ký hiệu bởi T, là tập
con của M có giá trị hàm liên thuộc bằng 1:
=

| 

0
1
a
a
b
c
x
d
a
0
1
a
a
b
c
x

Trích đoạn Thuật toán Gustafson-Kessel

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Tiếp cận mờ trong phân cụm dữ liệu - Pdf 25

Tài liệu, ebook tham khảo khác

Học thêm