Bài tập lớn – Data Mining
Nhóm 01C – 103C6
Lê Hoàng Việt – 50602984
Lê Anh Văn – 50602939
Đề tài: Cho CSDL bán hàng của cửa hàng sách trực tuyến, phân
loại khách hàng thành các dạng khách hàng tiềm năng khác
nhau.
Tìm hiểu đề tài :
Cửa hàng sách trực tuyến: là một website trình bày các loại sách cho phép người
mua thông qua mạng Internet để xem, chọn mua, thanh toán qua mạng và được
giao tận nơi. CSDL của cửa hàng bán sách như vậy sẽ lưu trữ lại các thông tin, dữ
liệu chi tiết về các loại sách, những khách hàng đã đặt mua, đã chọn xem(có thể có
hoặc không) và các thông tin liên quan….
Một số cửa hàng sách trực tuyến:
saharavn.com, amazon.com,
www.nationalbookstore.com.ph,
www.booksamillion.com....
Công việc: Dựa trên CSDL cùng các kiến thức được cung cấp(và tự học), sinh viên
sẽ hiện thực quá trình khai phá dữ liệu(classification) để đưa ra được sự hỗ trợ cho
người dùng, là các gợi ý về thể loại sách nào đang bán chạy, nên bổ sung, hay khi
một người dùng mới vào hệ thống để xem hay để mua, thì thông qua các hoạt động
của người dùng, hệ thống sẽ phân loại người dùng đó, rồi đưa ra các gợi ý về sách
mà người dùng đó có thể đang tìm kiếm….
Lợi ích(kết quả) của cửa hàng(End User):
- Giảm chi phí mua không hiệu quả(ví dụ sách ít người đọc, ít người mua,
bán chậm hoặc tồn kho…).
- Lợi nhuận tăng(nhiều người mua nhiều độ tuổi, nhiều thể loại, nhiều
người vào website tham khảo…do đưa ra những gợi ý liên quan hiệu quả
cho người dùng phù hợp).
- Hiển thị kết quả(thống kê, dự báo), gợi ý trực quan góp phần vào quyết
định hướng đi đúng đắn(chiến lược kinh doanh thời gian tới, nguồn hàng
• Từ lược đồ ERD ánh xạ wa các bảng(table) và đưa vào cơ sở dữ liệu…
• Dùng các hệ quản trị cơ sở dữ liệu để tạo bảng và lưu trữ…
• Thu thập dữ liệu cần thiết để giải quyết bài toán(dữ liệu càng lớn càng tốt)…
dữ liệu ở đâu???(dữ liệu mẫu do các thầy cô cung cấp???)
• Làm sạch dữ liệu(nếu có nhiễu).
• Xác định các thuộc tính của khác hàng cần thiết cho quá trình phân loại. VD
age, profession…
• Dựa vào các thuộc tính đã xác định dùng một giải thuật phân loại cụ thể để
giải quyết bài toán: decision tree induction, Bayesian classification, rule base
classification, associative classification.
• Kiểm tra tính đúng đắn.
• Dùng một ngôn ngữ cụ thể để xuất ra màn hình một cách trực
quan(C#.NET)