Data Mining Concepts
LÊ VINH HIỆP 51001048
TRẦN ĐƯỜNG TÚ 51003857
Nội dung
•
Giới thiệu khai phá dữ liệu và khám phá tri thức
•
Mục tiêu của khám phá tri thức
•
Các kĩ thuật khai phá dữ liệu:
•
Association rules
•
Classification
•
Clustering
Dữ liệu và tri thức
•
Sự bùng nổ của dữ liệu:
•
Mạng xã hội, world wide web,…
•
Dữ liệu trong kinh doanh, khoa học, xã hội,…
•
Lên tới mức terabytes thậm chí petabytes.
•
Chúng ta có dữ liệu nhưng cần tri thức.
•
Khai phá dữ liệu: khám phá tri thức từ kho dữ liệu rất lớn.
Ứng dụng khai phá tri thức
•
•
Dự đoán: ví dụ dự đoán những mặt hàng mà một khách hàng có
thể sẽ quan tâm dựa trên những thứ mà người ấy đã cho vào
giỏ hàng.
•
Nhận diện: ví dụ nhận diện cấu trúc gene
•
Phân lớp: dựa vào thông tin sử dụng tài khoảng tín dụng, phân
lớp họ
•
Tối ưu: tối ưu lợi nhuận từ một tập giới hạn tài nguyên như thời
gian, không gian, nhân lực,…
Các kiểu tri thức
•
Không có cấu trúc:
•
Dạng các luật hoặc logic mệnh đề
•
Ví dụ từ một dữ liệu của một ngân hàng, sau quá trình khai phá ta
có kết quả: những tài khoản chưa kết hôn và nhỏ hơn 20 tuổi có
mức nguy cơ cao.
•
Có cấu trúc:
•
Dạng cây ra quyết định, mạng ngữ nghĩa, mạng neuron,…
Các luật kết hợp
(Association rules)
Bài toán giỏ thị trường
Click to edit Master text styles
Second level
•
Confidence = support(LHS RHS)/support(LHS)∪
•
Minimum confidence threshold (ngưỡng tin cậy tối thiểu).
•
Giá trị support , confidence nhỏ nhất được chỉ định bởi người dùng.