Quản lý và khai phá dữ liệu trên lưới Grid - pdf 15

Download miễn phí Quản lý và khai phá dữ liệu trên lưới Grid

Bài toán gom cụm (clustering) dữ liệu
Giải thuật gom cụm là giải thuật có nhiệm vụ phân loại các mẫu (samples) thành một tập các nhóm dựa trên một hàm đo khoảng cách nào đó (measurement of association) sao cho các phần tử trong cùng một nhóm sẽ giống nhau, các phần tử trong khác nhóm sẽ khác nhau [1].

Dữ liệu đầu vào của giải thuật gom cụm là tập hợp các mẫu dữ liệu và hàm đo khoảng cách. Đầu ra của giải thuật là một một cấu trúc phân vùng của tập dữ liệu mẫu. Hàm đó khoảng cách cho biết sự tương đồng giữa 2 mẫu. Có nhiều hàm đó khoảng cách khác nhau như khoảng cách euclide, city block, Minkowski, cosine-correlation, neighbor distance (tham khảo thêm [1]). Trong hiện thực, chúng tôi sử dụng hàm đo khoảng cách rất thông dụng là hàm đo khoảng cách Euclide.

Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

phù hợp sẽ sử dụng ProActive để đẩy các công việc lên các tài nguyên tình toán đó thực thi.
Lớp dưới cùng là lớp Grid Infrastructure là hạ tầng tính toán lưới kết nối nhiều tài nguyên tính toán với nhau. Ta lưu ý rằng các tài nguyên tính toán này là không đồng nhất và sự kết nối giữa chúng là lỏng lẻo.
Bài toán phân loại đất rừng
Bài toán: Xây dựng mô hình để nhận dạng loại rừng dựa trên các thông tin địa lý của đất. Dữ liệu dùng để training là Forest Cover Type mô tả bên dưới.
Môtả dữ liệu: Dữ liệu được lấy từ UCI KDD Archive website [5]. Website này cung cấp nhiều datasets lớn, thực tế, thuộc nhiều lĩnh vực. Các dữ liệu này được chia sẻ phục vụ cho việc thử nghiệm trong các nghiên cứu về Knowledge Dicovery & Data Mining.
Tập dữ liệu chọn sử dụng là dữ liệu: Forest Cover Type [5]. Tập dữ liệu chứa thông tin về loại rừng (forest cover type) của từng ô đất (cell). Mỗi ô có kích thước (30mx30m). Đối với mỗi ô đất, dữ liệu còn cung cấp kèm theo các thông về điều kiện tính chất & vị trí địa lý (cartographic) của cell đó.
Nguồn gốc dữ liệu: Thông tin về loại rừng các cell được được lấy từ US Forest Service (USFS) Region 2 Resource Information System (RIS) data. Thông tin về địa lý của cell được lấy từ nguồn US Geological Survey (USGS) and USFS data.
Tính chất dữ liệu:
Kích thước dữ liệu: 71MB
Số hàng dữ liệu: 581012
Số cột thuộc tính: 12 thuộc tính địa lý (10 cột thuộc tính quantitative, 2 cột qualitative) và 1 cột thuộc tính phân loại.
Tổng quan giải thuật: Giải thuật chia làm 2 giai đoạn
Giai đoạn 1: dùng giải thuật cluster để tìm nén dữ liệu của từng loại rừng thành một số ít các tâm. Giải thuật song song 2Phase-KMean chạy trên Grid
Giai đoạn 2: dùng ANN để xây dựng bộ phân loại rừng dựa trên kết quả nén dữ liệu thu được ở giai đoạn 1. Giải thuật này chạy tuần tự trên máy cục bộ
Ý nghĩa các cột thuộc tính dữ liệu:
Hình 8: Các cột thuộc tính dữ liệu rừng
Để minh họa cho ý nghĩa của GDM và hệ thống hạ tầng GRID được xây dựng, bài toán này đã được hiện thực và chạy thử nghiệm thành công trên hệ thống GDM và GRID trong dự án EDAGRID. Xem phần phụ lục để có thông tin chi tiết về cách cài đặt và vận hành hệ thống thử nghiệm.
Ngoài ra, với những kết quả khả quan ban đầu, đã có một số công ty đặt vấn đề chuyển giao công nghệ kết quả của dự án này để xử lý các các tập dữ liệu kinh doanh của họ.
Tổng kết
Nhóm nghiên cứu phần “quản lý và khai phá dữ liệu trên lưới” đã hoàn thành các nhiệm vụ nghiên cứu của dự án ươm tạo công nghệ theo như bản thuyết minh đã đăng ký. Tổng kết tóm tắt các kết quả chính đã đạt được như sau:
Tim hiểu, nghiên cứu và đề xuất giải thuật gom cụm dữ liệu phù hợp với tính chất của môi trường lưới: giải thuật phân bố 2-Phase K-Mean. Đặc biệt, giải thuật 2-Phase K-Mean có tính co dãn (scalability) tốt kết hợp với nguồn tài nguyên lớn được cung cấp từ môi trường lưới có khả năng khai phá được một khối lượng dữ liệu lớn trong thực tế nên có tính áp dụng cao.
Hiện thực và triển khai giải thuật 2-Phase K-Mean triển khai trên ProActive và Globus Toolkit.
Tích hợp ứng dụng khai phá dữ liệu trên Grid với hạ tầng Grid được xây dựng bởi một nhóm nghiên cứu khác trong dự án này tại ĐHBK-ĐHQG Tp. HCM
Phát triển hệ thống GDM dựa trên các grid services với các chức năng như đã trình bày trong phần nhiệm vụ bên trên. Đây là một hệ thống quản lý dữ liệu trên lưới rất mạnh, có khả năng hỗ trợ nhiều ứng dụng về CSDL trên lưới.
Phát triển một ứng dụng thực tế: “bài toán phân loại đất rừng” để minh họa cho hoạt động ổn định và các công nghệ đã được lựa chọn của hệ thống.
Viết và đăng 3 bài báo khoa học: Đã báo cáo 2 bài báo tại hội nghị quốc tế ACOMP07, 1 bài đã đăng trong tại tạp chí khoa học và công nghệ, ĐHQG Tp. HCM (xem phần phụ lục để có thêm thông tin chi tiết)
Ngoài ra, có rất nhiều công ty quan tâm đến kết quả nghiên cứu của đề tài và đã có 3 công ty ký thỏa thuận sẽ hợp tác để đầu tư vào quá trình chuyển giao công nghệ liên quan đến kết quả của đề tài (phần quản lý và khai phá dữ liệu).
Tài liệu tham khảo
[1]
Jiawei Han, Micheline Kamber: “Data Mining-Concepts and Techniques”, Morgan Kaufmann, first edition, 2000
[2]
Nguyễn Đức Cường: “Flexible information management strategies in Machinel learning and Data mining”, PhD Thesis, Cardiff University, UK, 2004.
[3]
Dương Ngọc Hiếu: “Báo cáo nghiệm thu đề tài NCKH cấp trường 2007: Thư viện cho các ứng dụng Dâtmining”, 2007
[4]
Proactive:
[5]
UCI:
[6]
DANG Tran Khanh, PHAN Thi Thanh Huyen, VO Hoang Tam: A Comprehensive Framework for Grid Data Management. In Proceedings of International Workshop on Advanced Computing and Applications, Ho Chi Minh City, March 14-16, 2007
[7]
DANG Tran Khanh, PHAN Thi Thanh Huyen, VO Hoang Tam: A Comprehensive Framework for Grid Data Management. Special Issue of Science & Technology Journal, Vietnam National University-Ho Chi Minh City, ISSN 1859-0128, Vol. 10, No. 13, Dec 2007, pp. 97-108
[8]
The Globus Toolkit: www.globus.org/toolkit, 2006
[9]
The OGSA-DAI project: www.ogsadai.org.uk, 2006
[10]
Anil L. Pereira, Vineela Muppavarapu, and Soon M. Chung, “Role-Based Access Control for Grid Database Services Using the Community Authorization Service”, IEEE Transactions on Dependable and Secure Computing, Vol. 3, No. 2, pp. 156-166, 2006
[11]
IBM OGSA-DAI Data Replication website: www.aiai.ed.ac.uk/~ychen/ibm_ogsadai/ibm-ogsadai-index.html, 2006
[12]
Philip A. Bernstein, “Middleware: A Model for Distributed System Services”, Communication of ACM, Vol. 39, No. 2, pp. 86-98, 1996
[13]
Michael Di Stefano, “Distributed Data Management for Grid Computing”, John Wiley & Sons, Inc., 2005
[14]
Borja Sotomayor, Lisa Childers, “Globus Toolkit 4: Programming Java Services”, Morgan Kaufmann Publishers, 2006
[15]
LY Hoang Hai, DUONG Ngoc Hieu, DANG Tran Khanh, NGUYEN Duc Cuong, TRAN Van Hoai, THOAI Nam: Parallelizing Data Mining Algorithms on the Grid. In Proceedings of International Workshop on Advanced Computing and Applications, Ho Chi Minh City, March 14-16, 2007
[16]
A Min Tjoa, Ivan Janciak, Alexander Woehrer and Peter Brezany. “Providing an Integrated Framework for Knowledge Discovery on Computational Grids”, 5th International Conference on Knowledge Management, Graz, 2005
[17]
SIMDAT website: www.simdat.org, 2006
[18]
The EU Provenance project: www.gridprovenance.org, 2006.
[19]
Secure Data Grid website: www.cs.wright.edu/%7Eschung/SDG/sdg.htm, 2006.
Luis Ferreira, et al, “Introduction to Grid Computing with Globus”, IBM Corp, 2002.
[20]
Ian Foster, “Globus Toolkit phiên bản 4: Software for Service-Oriented Systems”, IFIP International Federation for Information Processing, pp. 2-13, 2005.
[21]
Phan Nhat Hai, Nguyen Hoang Anh, Tran Minh Quang, Ly Hoang Hai, Dang Tran Khanh: Towards an Extensible Library System for Data Mining. In Proceedings of International Workshop on Advanced Computing and Applications, Ho Chi Minh City, March 12-14, 2008, pp. 121-131
[22]
Jaideep Vaidya, Chris Clifton, Michael Zhu: Privacy Preserving Data Mining, Springer Verlag, 2006
[23]
R. Elmasri, S.B. Navathe: Fundamentals of Database Systems, 5th Edition, Pearson Addison-Wesley, 2007
[24]
S. Castano, M. Fugini, G. Martella, and P. Samarati: Database Security, ACM Press & A-W, 1995
[25]
W. Mao: Modern Cryptography - Theory and Practice, 3rd Ed., Prentice Hall, 2003
[26]
R.B. Natan: Implementing Database Security and Auditing, Elsevier Digital Press, 2005
[27]
Bing Liu: Web Data mining, Springer Verlag, 2007
Phụ lục A: GDM-API
Các chức năng mà GDM hỗ trợ được phân loại thành 2 nhóm chính:
Các chức năn...

Tham khảo trích đoạn

Tài liệu, ebook tham khảo khác

Quản lý và khai phá dữ liệu trên lưới Grid - pdf 15

Tóm tắt nội dung tài liệu:

Tài liệu, ebook tham khảo khác

Học thêm