Khai phá dữ liệu bằng luật kết hợp - pdf 18

Download miễn phí Đề tài Khai phá dữ liệu bằng luật kết hợp

TÓM TẮT ĐỒ ÁN
Nội dung của đồ án là những kiến thức về khai phá dữ liệu sử dụng luật kết hợp, các thuật toán kinh điển trong quá trình sử dụng luật kết hợp, cách áp dụng thuật toán Apriori vào một phần nhỏ trong bài toán Quản lý bán hàng tại siêu thị .
Mục đích của đồ án là:
Phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu thông tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong muốn.
Đưa ra các thuật toán cơ bản như Apriori, thuật toán tìm luật kết hợp không phát sinh ứng viên dựa vào cấu trúc cây FP- Tree, v.v.trong việc sử dụng luật kết hợp để phân tích một cơ sở dữ liệu nào đó.
Phân tích cơ sở dữ liệu và cài đặt thuật toán Apriori để áp dụng một phần nhỏ vào bài toán Quản lý bán hàng tại siêu thị .
Đồ án bao gồm có 3 chương, với các nội dung như sau:
Chương I: Tổng quan về khai phá dữ liệu. Nội dung trong chương này sẽ được trình bày bao gồm: Khai phá dữ liệu và phát hiện tri thức, quá trình phát hiện tri thức từ cơ sở dữ liệu, khai phá dữ liệu có lợi ích gì? Các kỹ thuật khai phá dữ liệu, nhiêm vụ chính của khai phá dữ liệu, các phương pháp khai phá dữ liệu, ứng dụng của khai phá dữ liệu và một số thách thức đặt ra cho việc khai phá dữ liệu.
Chương II: Tập phổ biến và luật kết hợp: Nội dung đuợc trình bày bao gồm: Một số khái niệm, tính chất cơ bản của tập phổ biến và luật kết hợp, tìm tập phổ biến, một số thuật toán cơ bản về luật kết hợp, một số ví dụ minh họa các thuật toán.
Chương III: Cách cài đặt và thử nghiệm thuật toán tìm tập phổ biến và luật kết hợp: Phân tích một cơ sở dữ liệu, trình bày về cách cài đặt chương trình khai thác luật kết hợp trong việc quản lý bán hàng tại siêu thị. Dựa vào kết quả này mà người quản lý bán hàng tại thị siêu nắm bắt được những nhóm mặt hàng nào có liên quan tới nhau, phục vụ cho mục đích quản lý và lựa chọn các mặt hàng để kinh doanh.







SUMMARY OF THE PROJECT
This project’s content is the knowledge of data mining which uses association rules, the classical algorithms in the proccess of using association rules, how to apply Apriori Algorithms to a small part on Sales Management Problem in supermarket.
The purposes of this project are:
Analysing data and using technique to find out sample informations, actions which have regular nature in data files that users want.
Bringing out the classical algorithms such as Apriori, the algorithms of finding association rules without arising subsets (candidates) which base on FP- Tree Structure...etc in using association rules to analyse any database.
Analysing database and installing Apriori Algorithms to apply partly to Sales Management Task in supermarket.
The project has 3 chapters, with main content as follows:
Chapter I: Overview of data mining. The contents of this chapter which will be presented consist of: Data Mining and Knowledge Discovery in database, the advantages of data mining? Techniques of data mining, main task of data mining, methods of data mining, application of data mining and some challenges which are set up for data mining.
Chapter II: Frequent- Itemset and Association Rules. This chapter’s content includes in: some concepts, basic property of Frequent- Itemset and Association Rules, searching for Frequent- Itemset, some basic algorithms of Association Rules, some examples which illustrates algorithms.
Chapter III: How to càiand test The Algorithms of finding Frequent Itemset and Association Rules. They are: Analysing one database, presenting the way to càiprogram “ Exploiting Frequent Itemset in Sales Management in supermarket”. Sales Manager bases on this result to know gather of related product to statisfy the purpose of management and choice products to do bussiness.


NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN 1
LỜI NÓI ĐẦU 2
TÓM TẮT ĐỒ ÁN 4
SUMMARY OF THE PROJECT 5
DANH SÁCH HÌNH VẼ 9
ANH SÁCH BẢNG BIỂU 10
DANH SÁCH CÁC TỪ VIẾT TẮT 11
MỞ ĐẦU 12
Chương I: TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU 13
1.1. Đặt vấn đề. 13
1.2. Khai phá dữ liệu và phát hiện tri thức. 14
1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu. 14
1.3.1. Xác định bài toán. 15
1.3.2. Thu thập và tiền xử lý. 15
1.3.2.1. Gom dữ liệu. 16
1.3.2.2. Chọn lọc dữ liệu. 16
1.3.2.3. Làm sạch. 16
1.3.2.4. Làm giàu dữ liệu. 17
1.3.2.5. Mã hoá dữ liệu. 17
1.3.2.6. Đánh giá và trình diễn. 17
1.3.3 Khai phá dữ liệu. 18
1.3.4. Phát biểu và đánh giá kết quả. 18
1.3.5. Sử dụng tri thức đã phát hiện. 18
1.4. Khai phá dữ liệu có những lợi ích gì 18
1.5. Các kỹ thuật khai phá dữ liệu. 19
1.5.1. Kỹ thuật khai phá dữ liệu mô tả. 19
1.5.2. Kỹ thuật khai phá dữ liệu dự đoán. 19
1.6. Nhiêm vụ chính của khai phá dữ liệu. 19
1.6.1. Phân lớp (Classification). 20
1.6.2. Hồi quy (Regression). 20
1.6.3. Gom nhóm (Clustering). 20
1.6.4. Tổng hợp (Summarization). 20
1.6.5. Mô hình ràng buộc (Dependency modeling). 20
1.6.6. Dò tìm biến đổi và độ lệch (Change and Deviation Dectection). 21
1.7. Các phương pháp khai phá dữ liệu. 21
1.7.1. Các thành phần của giải thuật khai phá dữ liệu. 21
1.7.2. Một số phương pháp khai thác dữ liệu phổ biến. 22
1.7.2.1. Phương pháp quy nạp (Induction). 22
1.7.2.2. Cây quyết định và luật. 22
1.7.2.3. Phát hiện các luật kết hợp. 22
1.7.2.4. Mạng Neuron. 23
1.7.2.5. Giải thuật di truyền. 24
1.8. Ứng dụng của khai phá dữ liệu. 24
1.9. Một số thách thức đặt ra cho việc khai phá dữ liệu. 25
Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 27
2.1. Mở đầu. 27
2.2. Các khái niệm cơ bản. 27
2.2.1. Định nghĩa 2. 2.1: Ngữ cảnh khai phá dữ liệu. 27
2.2.2. Định nghĩa 2. 2. 2: Các kết nối Galois. 27
2.2.3. Định nghĩa 2.2.3: Độ hỗ trợ (Support). 27
2.2.4. Định nghĩa 2 2.4: Độ tin cậy ( Confidence). 28
2.2.5. Định nghĩa 2.2.5: Tập mặt hàng phổ biến. 29
2.2.6. Định nghĩa 2.2.6: Luật kết hợp. 29
2.3. Tìm tập phổ biến. 30
2.3.1. Một số khái niệm. 30
2.3.2. Thuật toán Apriori. 31
2.4. Tìm luật kết hợp. 36
2.4.1. Phát biểu bài toán khai phá luật kết hợp. 36
2.4.2. Phát triển giải pháp hiệu quả trong khai thác luật kết hợp. 38
2.5. Quy trình khai thác luật kết hợp. 40
2.6. Một số thuật toán khác. 41
2.6.1. Thuật toán khai phá song song cho luật kết hợp mờ. 41
2.6.2. Thuật toán FP-Growth 42
Chương III: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN TÌM TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 52
3.1. Phát biểu bài toán. 52
3.2. Lựa chọn thuật toán để cài đặt phần mềm. 52
3.3. Yêu cầu khi cài đặt thuật toán. 52
3.4. Cơ sở dữ liệu. 53
3.4.1. Giao diện chính của cơ sở dữ liệu. 53
3.4.2. Bảng danh mục các Nhà cung cấp hàng hóa. 54
3.4.2. Bảng danh mục các Hàng Hoá. 55
3.4.4. Bảng danh mục các Khách Hàng. 56
3.4.5. Bảng danh mục các Hoá Đơn. 57
3.4.6. Bảng danh mục chi tiết Hoá Đơn. 58
3.4.7. Ghi XML. 59
3.5. Giao diện chính chương trình. 59
3.6. Kết nối dữ liệu. 60
3.7. Thêm dư liệu XML 60
3.8. Kết quả phân tích 61
3.9. Kết quả lọc MinSup = 10 61
3.10. Kết quả lọc MinCon = 40% 62
KẾT LUẬN CHUNG 63
HƯỚNG PHÁT TRIỂN ĐỀ TÀI 64


O031Gxq0EJUtu0h

TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status