Data Mining
Final Report
Classification – Ebook Store
Member of Group
•
Lê Hoàng Việt
•
Lê Anh Văn
Outline
•
Tìm hiểu đề tài
•
Các giải thuật Data Mining
•
Giải thuật Classification
•
Thực hiện chương trình
•
Tổng kết
•
Reference
Tìm hiểu đề tài
•
Requirement:
Cho CSDL bán hàng của cửa hàng sách trực
tuyến, phân loại khách hàng thành các dạng
khách hàng tiềm năng khác nhau.
Tìm hiểu đề tài
•
Cần lấy được cơ sở dữ liệu về khách hàng đã
mua sách của cửa hàng và làm sạch dữ liệu.
nguồn hàng nào cần tăng, nguồn hàng nào cần giảm bớt…).
•
Quản lý dữ liệu một cách hiệu quả hơn.
•
Kết quả đạt được(dự định của sinh viên):
•
Nắm vững lý thuyết, giải thuật phân lớp(Classification).
•
Xây dựng phần mềm thực hiện được các chức năng:
–
Đọc dữ liệu đầu vào(kết nối CSDL hoặc đọc từ file)
–
Máy học(huấn luyện)
–
Chạy giải thuật đúng đắn.
–
Đưa ra kết quả + dự báo + gợi ý(nếu có thể).
–
Kết xuất trực quan kết quả.
•
Hoàn thành mục tiêu môn học với phần mềm thực hiện chức năng
cụ thể.
Outline
•
Tìm hiểu đề tài
•
Các giải thuật Data Mining
•
Giải thuật Classification
•
Gom cụm:
•
•
Không như quá trình phân loại, mà phân tích các
nhãn(class label), gom cụm(clustering) phân tích dữ
liệu mà cần quan tâm đến các nhãn lớp đã được biết.
Nói chung các nhãn lớp không được biểu diễn thông
qua dữ liệu huấn luyện, đơn giản vì chúng không biết
bắt đầu như thế nào. Việc gom cụm có thể được
dùng để tạo nhãn lớp…
•
Phân tích xu hướng
•
Phân tích độ lệch và phần tử biên
•
Phân tích độ tương tự
•
…
•
Kiến trúc của hệ thống khai phá dữ liệu:
Outline
•
Tìm hiểu đề tài
•
Các giải thuật Data Mining
•
Giải thuật Classification
•
Thực hiện chương trình