Khoảng cách giữa các tập mờ trong phân cụm dữ liệu nhờ SOM thử nghiệm phân cụm sinh viên - Pdf 34

LỜI CẢM ƠN
Trƣớc hết, tôi xin gửi lời cảm ơn chân thành nhất tới thầy Nguyễn Tân
Ân, ngƣời đã hƣớng dẫn, tận tình chỉ bảo, giúp đỡ tôi hoàn thành luận văn tốt
nghiệp này.
Tôi xin chân thành cảm ơn tất cả các thầy cô giáo trƣờng Đại học Sƣ
phạm Hà Nội, những ngƣời đã cung cấp cho tôi những kiến thức quý báu,
cảm ơn Bộ môn Khoa học Máy tính và khoa Công nghệ Thông tin trƣờng
ĐHSP Hà Nội đã tạo những điều kiện tốt nhất để tôi có thể học tập và nghiên
cứu.
Tôi xin chân thành cảm ơn các đồng nghiệp trong phòng Thiết bị - Công
nghệ và Ban giám hiệu trƣờng Cao đẳng Sơn La đã tạo mọi điều kiện giúp tôi
hoàn thành tốt nhiệm vụ học tập.
Mặc dù đã có gắng hoàn thành luận văn với tất cả sự nỗ lực của bản thân,
nhƣng luận văn vẵn còn những thiếu sót. Kính mong nhận đƣợc sự góp ý của
các thầy cô và các bạn.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày......tháng .......năm 2011
Tác giả

Nguyễn Thu Huyền

i

MỤC LỤC
MỞ ĐẦU ............................................................................................................................... 1
1. Lý do chọn đề tài .............................................................................................................. 1
2. Mục đích nghiên cứu........................................................................................................ 2
3. Nhiệm vụ nghiên cứu ....................................................................................................... 3
4. Phƣơng pháp nghiên cứu ................................................................................................ 3
5. Nội dung đề tài: ................................................................................................................ 3

2.2.2 Các biến thể của SOM ........................................................................................... 27
2.2.3 Các thuật toán liên quan ....................................................................................... 29
2.2.4 Phân tích dữ liệu sử dụng SOM........................................................................... 31
2.2.4.1 Lượng tử hoá........................................................................................................ 31
2.2.4.2 Phép chiếu............................................................................................................ 33
2.2.4.3 Lợi ích và rủi ro ................................................................................................... 34
2.2.4.4 Độ co dãn ............................................................................................................. 35
2.3 Sử dụng SOM trong khai phá dữ liệu ........................................................................ 37
2.3.1 Sự chuẩn bị ............................................................................................................ 39
2.3.2 Nhận định dữ liệu. ................................................................................................. 40
2.3.3 Sự minh hoạ ........................................................................................................... 40
2.3.4 Tính trực quan của SOM....................................................................................... 43
2.3.5 Sự phân nhóm và sự tổng kết ................................................................................ 48
CHƢƠNG III. KHOẢNG CÁCH GIỮA CÁC TẬP MỜ .............................................. 58
3.1. Khoảng cách ................................................................................................................ 58
3.2. Lý thuyết mờ................................................................................................................ 58
3.2.1. Giới thiệu:.............................................................................................................. 58
3.2.2 Định nghĩa tập mờ ................................................................................................. 59
3.2.3. Quan hệ mờ ........................................................................................................... 59
3.2.3.1 Khái niệm về quan hệ mờ..................................................................................... 59
3.2.3.2 Các phép toán trên quan hệ mờ ........................................................................... 59
3.2.4 Những phép toán trên tập mờ ............................................................................... 60
3.3. Một số khoảng cách thƣờng gặp ................................................................................ 61
3.3.1 Khoảng cách Hamming ......................................................................................... 61
3.3.1.1 Trường hợp tập thông thuờng.............................................................................. 62
3.3.1.2 Trường hợp tập mờ .............................................................................................. 62
3.3.2 Khoảng cách Ơclid................................................................................................. 66
3.3.2.1 Trường hợp tập thông thường.............................................................................. 66
3.3.2.2 Trường hợp tập mờ:............................................................................................. 66
3.3.3 Khoảng cách giữa hai tập...................................................................................... 70

hơn các phần tử khác cụm, và các cụm giống nhau nhiều hơn phải gần nhau
hơn các cụm ít gần nhau hơn.
Phân lớp và phân cụm đều có nhiều phƣơng pháp. Mỗi phƣơng pháp đều
có những ƣu điểm, nhƣợc điểm của mình và mỗi phƣơng pháp đều có phạm
vi ứng dụng nhất định. Không có phuơng pháp nào đắc dụng trong tất cả các
trƣờng hợp.
Một trong những phƣơng pháp phân cụm là dùng sơ đồ tự tổ chức SOM.
SOM (Self Organized Map – sơ đồ tự tổ chức), còn đƣợc biết đến là
SOFM (Self Organized Feature Map) là một trong những mô hình mạng
nơron, đƣợc Kohonen phát triển vào đầu thập niên những năm 80, nên cũng

1

thƣờng đƣợc gọi là mạng Kohonen. SOM đƣợc dùng để gom cụm dữ liệu
(data clustering), nghĩa là học không giám sát (unsupervised learning).
Thuật toán phân cụm sử dụng SOM có thể đƣợc nêu tóm tắt nhƣ sau:
- Khởi tạo dữ liệu.
- Khởi động ma trận trọng số cho mạng nơron.
- Lựa chọn dữ liệu đầu vào.
- Tính toán các khoảng cách và xác định nút gần tâm tức thời của cụm nhất.
- Cập nhật trọng số đối với "chiến thắng" đó và các nút trong phạm vi
bán kính huấn luyện.
- Kiểm tra tỉ lệ hội tụ để tiếp tục hoặc kết thúc vòng lặp thao tác.
- Kiểm tra chất lƣợng.
- Lƣu giữ các trọng số đã tính đƣợc nhƣ là nhãn lớp hoặc nhƣ là một
thuộc tính để xem xét.
- Sử dụng thuộc tính đã xem xét để phân loại bộ dữ liệu đầu vào.
- Kiểm tra tính hợp lệ của kết quả.
Khi phân cụm, một vấn đề đƣợc đặt ra là thế nào là hai phần tử gần

Chƣơng I: Phân cụm dữ liệu
Chƣơng II: Phân cụm dữ liệu nhờ SOM
Chƣơng III: Khoảng cách giữa các tập mờ
Chƣơng IV: Phân cụm dữ liệu sinh viên
Trong khuôn khổ thời gian và điều kiện, trình độ có hạn, luận văn chắc
chắn không tránh khỏi thiếu sót, rất mong sự góp ý của các thầy cô và các
bạn.

3

CHƢƠNG I. PHÂN CỤM DỮ LIỆU
1.1 Khai phá dữ liệu:
Do sự bùng nổ thông tin và sự tiến bộ vƣợt bậc về kỹ thuật lƣu trữ, thêm
vào đó hầu hết các máy tính đều đƣợc nối với internet, những kho dữ liệu
khổng lồ đã đƣợc tạo ra. Tuy nhiên, dữ liệu đƣợc bố trí khá phân tán. Với
những kỹ thuật đơn giản thì việc tìm kiếm, khai thác thông tin là rất khó khăn
và không chính xác, mất nhiều thời gian. Vấn đề đặt ra là làm thế nào để làm
chủ đƣợc công nghệ, tìm kiếm, khai thác thông tin từ các kho dữ liệu đƣợc
nhanh chóng và chính xác?
Ngày nay, nghiên cứu về kho dữ liệu, vấn đề không chỉ tập trung cải tiến
việc lƣu trữ mà ngƣời ta thƣờng dành nhiều thời gian, công sức vào việc quản
trị kho. Do lƣợng thông tin lƣu trữ trong kho là lớn, dữ liệu lƣu trữ trong kho
là đa dạng, đƣợc thu thập từ nhiều nguồn khác nhau, vấn đề tìm kiếm, rút
trích, khai thác thông tin, phát hiện tri thức từ kho đã vấp phải rất nhiều thách
thức. Nhìn chung qui trình khai phá dữ liệu thƣờng gồm các pha sau.
1.1.1 Xác định vấn đề
Đây là một quá trình mang tính định tính với mục đích xác định đƣợc
lĩnh vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng thể. Trong thực
tế, các cơ sở dữ liệu đƣợc chuyên môn hóa và phân chia theo các lĩnh vực

Trong quá khứ, thuật ngữ “Data mining” mang sắc thái tiêu cực. Ngày
nay từ chuyên môn này mang ý nghĩa tích cực. Đó là tìm kiếm các “quặng
vàng” trong cơ sở dữ liệu.
Tiến trình khai phá dữ liệu là một chu kỳ có những bƣớc rõ ràng và các
bƣớc có quan hệ với nhau. Các bƣớc đó thƣờng là: sự nhận định về công việc,
nhận định dữ liệu, chuẩn bị dữ liệu, tìm kiếm mô hình, đánh giá và triển khai.
Qui trình này đƣợc lặp lại bởi vì các bƣớc của tiến trình khai phá dữ liệu có
thể tạo ra những sự hiểu biết mới, cho phép một vài bƣớc đi đầu tiên làm việc

5

tốt hơn. Đây là điều rất quan trọng vì những bƣớc đi đầu làm nền móng cho
những bƣớc đi sau: Nếu nhƣ chúng làm không tốt, thì những bƣớc đi sau sẽ
trở nên khó khăn hơn rất nhiều.

Nhận định
công việc

Nhận định
dữ liệu

Chuẩn bị dữ
liệu
Triển khai
Mô hình

Đánh giá

a)

Đánh giá

Mô hình

c)
Hình 1.1: (a) Mô hình tiến trình khai phá cơ sở dữ liệu
(b) Tiến trình khai phá tri thức trong cơ sở dữ liệu của Brachman
(c) Xây dựng mô hình phác thảo của Pyle
Hình 1.1 là sơ đồ khối của quá trình khai phá dữ liệu và các bƣớc xây
dựng mô hình.

6

Sau đây ta sẽ xét kỹ hơn các khối:
1.1.3.1 Nhận định công việc.
Nhận định phạm vi bài toán là rất quan trọng trong tất cả các giai đoạn
của khai phá dữ liệu. Ngƣời khai thác quan sát một số lƣợng lớn thông tin dựa
vào đặc điểm thống kê (không đề cập tới bản thân dữ liệu nguyên thủy). Anh
ta hoặc cô ta phải đƣa ra quyết định về cái gì nên bỏ qua và cái gì nên theo xa
hơn nữa và nhƣ thế nào. Điều này không thể xảy ra nếu không có kiến thức
thích hợp để quyết định cái gì là thú vị, là bất ngờ, cái gì là cái liên quan tới
việc giải quyết bài toán đặt ra. Nếu không có kiến thức cần thiết thì ngƣời
khai thác sẽ không xác định đƣợc hƣớng đi đúng cho mình.
Bƣớc nhận định công việc có 3 mục đích chính :
 Để trao đổi nhận thức về phạm vi bài toán và khả năng khai phá dữ
liệu giữa những ngƣời tham gia. Trƣờng hợp tốt nhất là trƣờng hợp ngƣời
tham gia thành thạo cả 2 lĩnh vực: Lĩnh vực liên quan đến phạm vi mà bài
toán đề cập và lĩnh vực về các phƣơng pháp khai phá dữ liệu. Trong trƣờng

Dữ liệu là thành phần cốt lõi của khai phá dữ liệu nó luôn đƣợc chuẩn bị
khi bắt đầu dự án. Trong thực tế, dù sao việc thu thập dữ liệu (hoặc đợi dữ
liệu thu thập) là công đoạn tốn thời gian nhất của khai phá dữ liệu. Dữ liệu có
thể thu thập từ một số nguồn khác nhau hoặc từ một nguồn nhất định. Tập dữ
liệu ban đầu có thể không đầy đủ và chúng ta có thể phải quay lại để thu thập
nhiều dữ liệu hơn.
Bƣớc nhận định dữ liệu quan tâm tới việc thu thập dữ liệu và nhận định
tổng thể về dữ liệu. Bƣớc này thƣờng phải trả lời các câu hỏi sau: Dữ liệu có
giúp giải quyết đƣợc bài toán đã cho hay không? Dữ liệu gì có sẵn? Nguồn
gốc, hình mẫu, cấu trúc và độ tin cậy của dữ liệu đã có đó?
1.1.3.3 Chuẩn bị dữ liệu
Mục tiêu cơ bản của chuẩn bị dữ liệu là tạo ra công việc đơn giản để xây
dựng các mô hình chính xác và các mô hình có chất lƣợng. Tồn tại nhiều

8

thuật toán khác nhau cho phép xây dựng các mô hình từ dữ liệu. Mỗi thuật
toán có điểm mạnh và điểm yếu riêng. Trong khi một số phƣơng pháp xây
dựng mô hình đang dần có khả năng nắm bắt những thao tác có độ phức tạp
cao trong dữ liệu. Những thuật toán này chỉ có thể thực hiện đƣợc với một
lƣợng thời gian tính toán và đủ dữ liệu. Hơn thế nữa, những mô hình thông
dụng trong tự nhiên không thể dùng lĩnh vực tri thức. Chỉ những ngƣời khai
thác dữ liệu mới có thể biến đổi đa dạng lĩnh vực tri thức mơ hồ bên trong các
thủ tục chuẩn bị tạo ra thông tin cần thiết sẵn sàng đƣợc dùng bởi mô hình
công cụ. Sự chuẩn bị tốt cho phép nó tạo ra chính xác hơn và các mô hình dễ
hiểu hơn và dữ liệu ít hơn.
Đôi khi dữ liệu ban đầu là không có lỗi. Ở đây không có những lỗi về
đánh máy lỗi về phép đo đạc sai hoặc những nguồn mang lỗi. Nhƣng đôi khi
dữ liệu có các giá trị lỗi buộc phải làm chính xác hoá để loại những lỗi đó

khách hàng hay không? Cách giải quyết có chắc chắn với dữ liệu mới hay
không? Có tồn tại những lĩnh vực quan trọng mà cách giải quyết là đặc thù
yếu hay không? Giải pháp có chắc chắn trong vài tháng từ bây giờ không? Nó
có phải nhƣ thế không? Có thể tồn tại một vài đánh giá phê phán cần đƣợc
kiểm tra hoặc nên kiểm tra. Mục đích cuối cùng của bƣớc đánh giá là để xác
định giải pháp tìm thấy có đủ tốt để phát triển hay không?
Ngoài giải pháp, tiến trình khai phá dữ liệu còn sinh ra các kết quả:
Kết quả = Mô hình + Sự tìm kiếm
Sự tìm kiếm là khả năng thấu hiểu bên trong, quan điểm, các mô hình thứ
cấp, bất cứ cái gì mà khác với giải pháp là quan trọng với bài toán. Nó cũng
cần đƣợc xen xét một cách cẩn thận.
Nếu không có giải pháp tìm kiếm nào chấp nhận thì nó sẽ xác định cái gì
đƣợc làm kế tiếp: tạo ra các mô hình tốt hơn, đƣa ra nhiều dữ liệu hơn hoặc
xác định lại giới hạn bài toán. Nếu mô hình có vẻ không làm tốt với dữ liệu
mới, hoặc tạo ra kết quả lạ hoặc các kết quả rất tồi thì có khả năng là dữ liệu

10

xây dựng đó bị thống kê sai lệch: nó thiếu thông tin quan trọng hoặc thậm trí
mất đi nội dung thông tin. Bƣớc tìm kiếm giúp tất cả bằng cách gợi ý để mở
ra các câu hỏi, hoặc các bƣớc tiếp sẽ làm tốt hơn.
1.1.3.6 Triển khai
Cuối cùng, nếu giải pháp đƣợc cho rằng là một giải pháp tốt thì nó sẽ
đƣợc triển khai. Trong khi điều này có thể là trách nhiệm của khách hàng, và
nhƣ vậy nó thuộc phạm vi bên ngoài của tiến trình khai phá dữ liệu, ngƣời
khai thác dữ liệu sẽ cung cấp kế hoạch ban đầu cho việc triển khai. Phần nào
của phần mềm có cần thiết để thực hiện, dữ liệu đƣợc thu thập và đƣợc xử lý
nhƣ thế nào và kết quả đƣợc làm sáng tỏ ra làm sao.
Một khía cạnh quan trọng cần cân nhắc là tính chính xác của bài toán.

phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc
cụm dữ liệu. Hơn nữa, các phƣơng pháp phân cụm cần có cách thức biểu diễn
cấu trúc của các cụm dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có
tƣơng ứng một thuật toán phân cụm phù hợp. Phân cụm là vấn đề cơ bản, bao
gồm: xây dựng hàm tính độ tƣơng tự, xây dựng mô hình cho cấu trúc cụm dữ
liệu, xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo, xây
dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm.
1.2.2. Các yêu cầu của phân cụm
Phân cụm dữ liệu là một thách thức trong lĩnh vực nghiên cứu ở chỗ
những ứng dụng của chúng đòi hỏi có những yêu cầu đặc biệt. Dƣới đây là
những yêu cầu cơ bản của phân cụm:
- Có khả năng mở rộng: Một số thuật toán phân cụm áp dụng tốt với
những tập dữ liệu nhỏ chứa ít hơn 200 đối tƣợng dữ liệu, tuy nhiên, một cơ sở
dữ liệu lớn có thể chứa tới hàng triệu đối tƣợng dữ liệu. Việc phân cụm với
một tập dữ liệu lớn có thể không hiệu quả. Vì vậy, khả năng mở rộng là một
trong những yêu cầu cần thiết đối với thuật toán phân cụm.

12

- Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật
toán đƣợc thiết kế cho việc phân cụm dữ liệu dựa trên khoảng cách (dữ liệu
kiểu số). Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều
kiểu dữ liệu khác nhau, nhƣ kiểu dữ liệu nhị phân, kiểu dữ liệu tuyển tập, và
kiểu dữ liệu có thứ tự hay dạng hỗn hợp của các kiểu dữ liệu trên.
- Khám phá các cụm với hình dạng bất kỳ: Một số thuật toán phân
cụm xác định các cụm dựa trên độ đo khoảng cách Euclidean hoặc khoảng
cách Manhattan. Các thuật toán dựa trên độ đo khoảng cách hƣớng tới việc
tìm kiếm các cụm hình cầu với mật độ và kích cỡ tƣơng tự nhau. Tuy nhiên,
một cụm có thể có hình thù bất kỳ. Vì vậy, việc phát triển các thuật toán có

- Dễ hiểu và dễ sử dụng: Ngƣời sử dụng mong đợi kết quả phân cụm
phải dễ hiểu và dễ sử dụng. Nghĩa là, phân cụm có thể gắn với sự giải thích rõ
ràng. Điều này rất quan trọng để nghiên cứu mục tiêu của ứng dụng có ảnh
hƣởng nhƣ thế nào đến việc lựa chọn thuật toán phân cụm.
1.2.3. Các kiểu dữ liệu
Ở đây chúng ta sẽ nghiên cứu một số kiểu dữ liệu trong phân cụm và làm
cách nào để xử lý các kiểu dữ liệu đó trong quá trình phân cụm.
Các thuật toán phân cụm dựa trên bộ nhớ chính thực hiện thao tác trên cả
hai cấu trúc dữ liệu sau đây:
- Ma trận dữ liệu (Oject-by-variable structure - cấu trúc biểu diễn đối
tượng bởi biến): Cấu trúc này biểu diễn n đối tƣợng bởi p biến. Ở đây, khái
niệm biến còn đƣợc gọi là độ đo hoặc thuộc tính. Ví dụ, nếu đối tƣợng là sinh
viên, các biến có thể là mã sinh viên, giới tính, quê quán … Cấu trúc dữ liệu
trong trƣờng hợp này là một bảng quan hệ, hay một ma trận cấp n x p. (n đối
tƣợng x p thuộc tính).

14

 x11


 xi1


 xn1


x1 p 







0 

Hình 1.3: Ma trận phi tương tự
Vậy làm thế nào để đánh giá đƣợc sự phi tƣơng tự (xác định d(i, j)). Một
số thuộc tính của các đối tƣợng mà dựa trên đó chúng ta tính toán sự phi
tƣơng tự giữa các đối tƣợng nhƣ: thuộc tính khoảng, thuộc tính nhị phân,
thuộc tính định danh, thuộc tính có thứ tự, thuộc tính tỉ lệ, thuộc tính kiểu hỗn
hợp.
1.2.4 Một số phương pháp phân cụm dữ liệu
Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong
thực tế, nó đều hƣớng tới hai mục tiêu chung đó là chất lƣợng của các cụm
khám phá đƣợc và tốc độ thực hiện của thuật toán. Hiện nay, các kỹ thuật
phân cụm có thể phân loại theo các cách tiếp cận chính sau :
1.2.4.1 Phương pháp phân cụm phân hoạch

15

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm
cho đến khi xác định số các cụm đƣợc thiết lập. Số các cụm đƣợc thiết lập là
các đặc trƣng đƣợc lựa chọn trƣớc. Phƣơng pháp này là tốt cho việc tìm các
cụm hình cầu trong không gian Euclidean.
Ngoài ra, phƣơng pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa
các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi
điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa

tƣơng ứng với các cụm riêng biệt, sau đó tiến hành nhóm các đối tƣợng theo
một độ đo tƣơng tự (nhƣ khoảng cách giữa hai trung tâm của hai nhóm), quá
trình này đƣợc thực hiện cho đến khi tất cả các nhóm đƣợc hòa nhập vào một
nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết
thúc thỏa mãn. Nhƣ vậy, cách tiếp cận này sử dụng chiến lƣợc ăn tham trong
quá trình phân cụm.
Thực tế áp dụng, có nhiều trƣờng hợp kết hợp cả hai phƣơng pháp phân
cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu đƣợc của phƣơng
pháp phân cấp có thể cải tiến thông qua bƣớc phân cụm phân hoạch. Phân
cụm phân hoạch và phân cụm phân cấp là hai phƣơng pháp phân cụm dữ liệu
cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phƣơng pháp này
đã đƣợc áp dụng phổ biến trong khai phá dữ liệu. Một số thuật toán phân cụm
phân

cấp

điển

hình

nhƣ:

CURE,

BIRCH,

ANGNES,

DIANA,

các cụm không dựa trên độ đo khoảng cách (hay còn gọi là độ đo tƣơng tự đối
với các dữ liệu không gian) mà nó đƣợc quyết định bởi tham số xác định
trƣớc. Ƣu điểm của phƣơng pháp phân cụm dựa trên lƣới là thời gian xử lí
nhanh và độc lập với số đối tƣợng dữ liệu trong tập dữ liệu ban đầu, thay vào
đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lƣới.
Một số thuật toán phân cụm dữ liệu dựa trên cấu trúc lƣới điển hình nhƣ:
STING, WaveCluster, CLIQUE,…
1.2.4.5 Phương pháp phân cụm dựa trên mô hình
Phƣơng pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số
mô hình sao cho khớp với dữ liệu một cách tốt nhất. Chúng có thể sử dụng

18

chiến lƣợc phân cụm phân hoạch hoặc chiến lƣợc phân cụm phân cấp, dựa
trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng
hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch. Phƣơng pháp
phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán
học, nó dựa trên giả định rằng dữ liệu đƣợc tạo ra bằng hỗn hợp phân phối
xác suất cơ bản. Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp
cận chính: mô hình thống kê và mạng nơron. Phƣơng pháp này gần giống với
phƣơng pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng
biệt nhằm cải tiến các mô hình đã đƣợc xác định trƣớc đó, nhƣng đôi khi nó
không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm
mật độ cho các cụm. Một số thuật toán điển hình nhƣ EM, COBWEB, …
1.2.4.6 Phân cụm dữ liệu mờ
Phân cụm dữ liệu mờ (FCM) là phƣơng pháp phân cụm dữ liệu cho phép
mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua bậc thành viên.
Ruspini(1969) giới thiệu khái quát khái niệm phân hoạch mờ để mô tả
cấu trúc cụm của tập dữ liệu và đề xuất một thuật toán để tính toán tối ƣu

Hình 2.1. Cấu trúc của một nơron
 Soma
 Các

là thân của nơron.

dendrites là các dây mảnh, dài, gắn liền với soma, chúng truyền dữ

liệu (dƣới dạng xung điện thế) đến cho soma xử lý. Bên trong soma các dữ
liệu đó đƣợc tổng hợp lại. Có thể xem gần đúng sự tổng hợp ấy nhƣ là một
phép lấy tổng tất cả các dữ liệu mà nơron nhận đƣợc.
 Một

loại dây dẫn tín hiệu khác cũng gắn với soma là các axon. Khác

với dendrites, axons có khả năng phát các xung điện thế, chúng là các dây dẫn
tín hiệu từ nơron đi các nơi khác. Chỉ khi nào điện thế trong soma vƣợt quá
một giá trị ngƣỡng nào đó (threshold) thì axon mới phát một xung điện thế,
còn nếu không thì nó ở trạng thái nghỉ.

21

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Khoảng cách giữa các tập mờ trong phân cụm dữ liệu nhờ SOM thử nghiệm phân cụm sinh viên - Pdf 34

Tài liệu, ebook tham khảo khác

Học thêm