Thuật toán phân cụm đồng thời và ứng dụng - Pdf 38

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
--------------------------------

LƯU XUÂN VĂN

THUẬT TOÁN PHÂN CỤM ĐỒNG THỜI
VÀ ỨNG DỤNG

Chuyên ngành: Cơ sở toán cho tin học
Mã số: 60460110

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Thị Hồng Minh

Hà Nội - 2015


LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu do chính tôi thực hiện.
Các số liệu, kết quả phân tích trong luận văn là hoàn toàn trung thực và chưa
từng được ai công bố trong bất kỳ công trình nghiên cứu nào trước đây.
Hà Nội, ngày 21 tháng 12 năm 2015
Tác giả

Lưu Xuân Văn


LỜI CẢM ƠN

1

Chương 1 - Tổng quan về phân cụm dữ liệu

3

1.1. Phân cụm dữ liệu

3

1.2. Ứng dụng và yêu cầu của thuật toán phân cụm dữ liệu

5

1.3. Các kiểu dữ liệu trong phân cụm

11

1.4. Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu

14

1.5. Một số thuật toán phân cụm

21

Chương 2 - Phân cụm đồng thời

25



60

Chương 3 - Ứng dụng của phân cụm đồng thời

66

3.1. Ứng dụng của phân cụm đồng thời

66

3.2. Hoạt động thực nghiệm

68

Kết luận

78

Danh mục tài liệu tham khảo

80


DANH MỤC CÁC HÌNH

Nội dung
Hình 1.1. Ví dụ về phân cụm dữ liệu

Số trang

46

Hình 2.7. Ví dụ một ma trận con (bicluster) nhất quán hoàn hảo

47

Hình 2.8. Biểu đồ biểu diễn mức độ biểu hiện của gen theo từng

48

điều kiện
Hình 2.9. Ví dụ ma trận biểu hiện biến đổi logarit

49

Hình 2.10. Biểu đồ biểu diễn mức độ biểu hiện của gen theo từng

50

điều kiện (theo dữ liệu ma trận logarit)
Hình 2.11. Biểu đồ biểu hiện gien và giá trị MSR tương ứng

54

Hình 2.12. Minh họa hai vectơ nghịch đảo nhau

57

Hình 2.13. Ví dụ một ma trận nhị phân


71

& Church
Hình 3.6. Hình ảnh Bicluster 33x20 tìm thấy bởi thuật toán Cheng

72

& Church
Hình 3.7. Thời gian chạy của một số thuật toán phân cụm đồng

72

thời
Hình 3.8. Thực nghiệm thuật toán Cheng & Church với

74

Hình 3.9. Thực nghiệm thuật toán Cheng & Church với

75

Hình 3.10. Thực nghiệm thuật toán Cheng & Church với

76

Hình 3.11. Thực nghiệm thuật toán Cheng & Church với

76



toán này thường tìm cách nhóm các gene có sự biểu hiện phụ thuộc nhau trên
toàn bộ các điều kiện thí nghiệm. Tuy nhiên, trên thực tế các gene thường chỉ
thể hiện phụ thuộc với nhau trên một số điều kiện nào đó và độc lập với nhau
trong điều kiện khác. Điều này dẫn đến một hạn chế rất lớn của các thuật toán
clustering là không thể tìm ra được các gene chỉ thể hiện giống nhau trên một
số điều kiện thí nghiệm. Để khắc phục hạn chế này, các nhà khoa học đã đề
xuất một phương pháp phân cụm mới có tên là biclustering (hoặc coclustering). Các thuật toán biclustering sẽ tìm cách phân cụm đồng thời trên
các hàng (gene) và cột (condition) của ma trận dữ liệu biểu hiện gene nhằm
tìm ra các ma trận con thoả mãn một số tiêu chí đặt ra, từ đó có thể giúp
chúng ta hiểu thêm các tiến trình sinh học giữa các gene trong các cá thể.
Nhưng gần như tất cả các phương pháp tiếp cận đến nay là heuristic và không
đảm bảo để tìm giải pháp tối ưu.
Trong trường hợp dữ liệu biểu hiện gene theo chuỗi thời gian, thì các
mẫu sinh học thường được đo theo một thời điểm nhất định nhằm quan sát
các tiến trình sinh học xảy ra trong các cá thể. Vì vậy, việc tìm ra các mẫu có
thể hiện giống nhau trong một khoảng thời gian liên tục nào đó, có thể hình
dung như chúng vừa hoàn thành một tiến trình sinh học, hoặc một giai đoạn
chức năng sinh học nào đó. Việc phân tích trên dữ liệu thể hiện gene cho phép
hiểu được cơ chế điều khiển gene và tương tác giữa chúng. Các mẫu dữ liệu
này có thể coi như là một bicluster gồm các hàng và các cột trong ma trận.
Vì lý do đó, tác giả lựa chọn đề tài: “Thuật toán phân cụm đồng thời và
ứng dụng” là hướng nghiên cứu cho luận văn của mình.

1


Trong luận văn này, tác giả đặt mục tiêu như sau:
- Nghiên cứu những nội dung liên quan tới phân cụm dữ liệu, một số tư
tưởng và thuật toán cơ bản,....
- Nghiên cứu một số thuật toán phân cụm đồng thời đã được công bố.


1.1. Phân cụm dữ liệu
Khai phá dữ liệu (Data mining) là quá trình trích xuất các thông tin có
giá trị tiềm ẩn bên trong tập dữ liệu lớn được lưu trữ trong các cơ sở dữ liệu,
kho dữ liệu. Các nhà khoa học xác định:
“Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu, nhằm tìm kiếm,
phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan trọng trong tập dữ
liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho việc ra quyết định”.
Phân cụm là quá trình nhóm các điểm dữ liệu trong cơ sở dữ liệu thành
các cụm sao cho những điểm dữ liệu trong cùng một cụm có độ tương đồng lớn
và những điểm không cùng một cụm có sự tương đồng là rất nhỏ. Một cụm các
đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng, ví dụ: mô
hình về phân cụm các trường dựa trên tiêu chuẩn về thu nhập và số nợ. Cụm 1
là cụm những người thu nhập cao, số nợ nhiều. Cụm 2 gồm những người thu
nhập cao nhưng nợ ít. Cụm 3 gồm những đối tượng thu nhập ít nhưng nợ nhiều.

Cụm 1
Cụm 3
Nợ

Cụm 2

Thu nhập

Hình 1.1. Ví dụ về phân cụm dữ liệu

3


DANH MỤC TÀI LIỆU THAM KHẢO


6.

Demirtas, H. (2006), “A method for multivariate ordinal data
generation given marginal distributions and correlations”, Journal of
Statistical Computation and Simulation 76(11), 1017-1025.

7.

Dolnicar, S. (2002), “A review of data-driven market segmentation in
tourism”, Journal of Travel and Tourism Marketing 12 (1), 1 - 22.

8.

Dolnicar, S., S. Kaiser, K. Lazarevski, and F. Leisch (2011),
“Biclustering overcoming data dimensionality problems in market
segmentation”, Journal of Travel Research.

9.

Eran Segal, Ben Taskar, Audrey Gasch, Nir Friedman, and Daphne
Koller.

Rich

probabilistic

models

for


13.

Haixun Wang, Wei Wang, Jiong Yang, and Philip S. Yu. Clustering by
pattern similarity in large data sets. In Proceedings of the 2002 ACM
SIGMOD International Conference on Management of Data, pages
394–405, 2002.

14.

Hartigan, J. A. (1972), “Direct clustering of a data matrix”, Journal of
the American Statistical Association 67(337), 123-129.

15.

Jinze Liu and Wei Wang. Op-cluster: Clustering by tendency in high
dimensional space. In Proceedings of the 3rd IEEE International
Conference on Data Mining, pages 187–194, 2003.

16.

Kluger, Y., R. Basri, J. T. Chang, and M. Gerstein (2003), “Spectral
biclustering of microarray data: Coclustering genes and conditions”,
Genome Research 13, 703-716.

17.

Lazzeroni, L. and A. Owen (2002), “Plaid models for gene expression
data”, Statistica Sinica 12, 61-86.



methods

for

the

analysis

of

DNA

microarray

data. Technical report, Department of Health Research and Policy,
Department of Genetics and Department of Biochemestry, Stanford
University, 1999.
23.

Sheng, Q., Y. Moreau, and B. D. Moor (2003), “Biclustering
microarray data by Gibbs sampling”, Bioinformatics 19.

24.

Smith, W. R. (1956), “Product differentiation and market segmentation
as alternative marketing strategies”, The Journal of Marketing 21 (1),
pp. 3-8.

25.

motifs from gene expression data. In Proceedings of the Pacific
Symposium on Biocomputing, volume 8, pages 77–88, 2003.

30.

Williams, G. J. (2009, December), “Rattle: A data mining gui for r”,
The R Journal 1 (2), 45-55.

31.

Wikipedia, “Biclustering”, http://en.wikipedia.org/wiki/Biclustering.

83




Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status