KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
BÀI 1
TỔNG QUAN
3
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu (KTDL) là gì ?
3. Qui trình Khám phá tri thức (KDD)
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các thách thức của KTDL
4
SỰ CẦN THIẾT CỦA KTDL –
Khía cạnh thương mại
Khối lượng lớn dữ liệu
được thu thập và lưu trữ
o Web data, e-commerce
o Hóa đơn mua hàng tại siêu thị
/ trung tâm mua sắm
o Giao dịch ngân hàng /
thẻ tin dụng
Máy tính mạnh hơn, rẻ hơn
Áp lực cạnh tranh rất mạnh
o Cung cấp các dịch vụ đa dạng, chất lượng tốt ( CRM –
Customer Relationship Management)
5
SỰ CẦN THIẾT CỦA KTDL –
Không bao giờ có
thể nhìn thấy một
cách đầy đủ tập
dữ liệu hoặc đưa
vào bộ nhớ của
máy tính
7
SỰ CẦN THIẾT CỦA KTDL
0
500,000
1,000,000
1,500,000
2,000,000
2,500,000
3,000,000
3,500,000
4,000,000
1995 1996 1997 1998 1999
Hố sâu dữ liệu
Số DL thu thập (TeraB) từ năm 1995
Số DL được
phân tích
8
SỰ RA ĐỜI CỦA KTDL
• KTDL ra đời trong bối
cảnh : GIÀU DL –
NGHÈO TRI THỨC
“We are drowning in
data, but starving for
knowledge!”
đất
…
Thông tin cá nhân
11
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các thách thức của KTDL
12
THẾ NÀO LÀ KTDL
“Khai thác dữ liệu là q trình khơng tầm thường của việc xác
định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có
thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)
Quá trình không tầm thường
Đa xử lý
Hợp lệ
Chứng minh tính đúng
Của mẫu / Mô hình
Mới lạ
Không biết trước
Có ích
Có thể sử dụng được
Có thể hiểu được
Bởi con người và máy
13
KHAI THÁC DL …
Thế nào là mẫu tiềm ẩn ?
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình Khám phá tri thức
(KDD)
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các thách thức của KTDL
16
QUI TRÌNH KHÁM PHÁ TRI THỨC
KTDL : Một bước
quan trọng trong qui
trình KDD (knowledge
discovery in DB)
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
1
2
3
4
5
17
QUI TRÌNH KDD
Dữ liệu được tổ chức theo chức
năng
kiểu kết hợp và lập dãy
Data warehousing
1
2
3
4
5
18
KIẾN TRÚC HỆ THỐNG KTDL
TIÊU BIỂU
Data
Warehouse
Data cleaning & data integration
Filtering
Databases
Database or data
warehouse server
Data mining engine
Pattern evaluation
Graphical user interface
Knowledge-base
19
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình khám phá tri thức (KDD)
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các thách thức của KTDL
20