KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG
Nguyễn Thị Hương GiangNội dung
Chương I. Tổng quan về khám phá tri thức
(KDD) và khai phá dữ liệu (DM)
Chương II. Tiền xử lý dữ liệu
Chương III. Một số phương pháp khai phá dữ
liệu
Chương IV. Lượng giá và sử dụng tri thức
được khám phá
Chương V. Ứng dụngI. Tổng quan về khám phá tri thức (KDD) và khai phá
dữ liệu (DM)
I.1. Khám phá tri thức và khai phá dữ liệu là gì?
- Giáo sư Tom Mitchell [4] đã đưa ra định nghĩa của KPDL
như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá
những qui tắc và cải thiện những quyết định trong tương lai.”
- Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [3] đã
phát biểu: “KPDL, thường được xem là việc khám phá tri thức
t
,
.
In
t
e
r
n
e
t
,
.
Hình 1. Quá trình khai phá dữ liệu II. Tiến trình khai phá tri thức
Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1 :
1. Gom dữ liệu (Gathering)
- Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước
được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ
các nguồn ứng dụng Web.
2. Trích lọc dữ liệu (Selection)
- Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn
nào đó, ví dụ chọn tất cả những người có tuổi đời từ 25 – 35 và có trình độ đại học.
những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất
ra.
Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là giai
đoạn được quan tâm nhiều nhất hay còn gọi đó là Data Mining. II. Tiến trình KDD
The KDD Process
Data organized by
function (accounting. etc.)
Create/select
target database
Select sampling
technique and
sample data
Supply missing
values
Normalize
values
Select DM
task (s)
Transform to
different
representation
Eliminate
noisy data
Transform
values
Income
have defaulted
on their loans
good status
with the bank
-
Lớp bài toán Dự đoán sẽ học ra các bộ dự
đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ
dựa trên thông tin đang có để đưa ra một giá trị
số học cho hàm cần dự đoán.
- Ví dụ: Bài toán tiêu biểu của phương pháp này
là dự đoán giá sản phẩm để lập kế hoạch trong
kinh doanh.
2. Phân loại:
- Ánh xạ (phân loại) một mục dữ liệu vào trong một
trong nhiều lớp được định nghĩa trước.
- Với một tập các dữ liệu huấn luyện cho trước và sự
huấn luyện của con người, các giải thuật phân loại sẽ
học ra bộ phân loại (classifier) dùng để phân các dữ
liệu mới vào một trong những lớp (còn gọi là loại) đã
được xác định trước. Nhận dạng cũng là một bài toán
thuộc kiểu Phân loại.
Ví dụ: nhận dạng tự động các đối tượng trong CSDL
ảnh lớn
III. Các phương pháp KPDL (DM) (tt)
sơ bộ các dữ liệu.
III. Các phương pháp KPDL (DM) (tt)
6. Tổng hợp (Summarization)
- Các phương pháp tìm kiếm một mô tả
tóm tắt cho một tập con dữ liệu.
- Các kỹ thuật tóm tắt thường được áp
dụng cho các phân tích dữ liệu tương tác
có tính thăm dò và tạo báo cáo tự động.
III. Các phương pháp KPDL (DM) (tt)
7. Mô hình ràng buộc (Dependency
modeling)
-
Tìm mô hình mô tả các ràng buộc quan trọng,
có nghĩa giữa các biến.
-
Mô hình ràng buộc có 2 mức: mức cấu trúc
xác định các biến ràng buộc cục bộ với nhau
như thế nào, trong khi mức định lượng xác
định độ lớn của ràng buộc sử dụng tỷ lệ số.
III. Các phương pháp KPDL (DM) (tt)
8. Dò tìm và biến đổi độ lệch (Change and
Không nhất quán (mâu thuẫn): chứa các mã hoặc các tên
mâu thuẫn nhau
Dữ liệu không đảm bảo chất lượng thì kết quả khai
phá không hiệu quả
Chất lượng các quyết định phải dựa trên chất lượng dữ liệu
Kho dữ liệu cần dữ liệu cần sự tích hợp nhất quán của dữ
liệu có chất lượng. b. Lệch
Lệch là các đối tượng dữ liệu có các đặc
tính khác đáng kể với phần lớn các đối
tượng dữ liệu khác trong tập dữ liệu. c. Các giá trị bị mất
Lý do bị mất giá trị dữ liệu
Không thu thập được thông tin
Ví dụ: người được điều tra từ chối không
cung cấp thông tin tuổi và cân nặng của họ
Các thuộc tính không phù hợp trong mọi
trường hợp
Ví dụ: thu nhập hàng năm không áp dụng cho
Tính có thể hiểu được
Tính có thể truy cập được5. Nhiệm vụ chính trong tiền xử lý
dữ liệu
Làm sạch dữ liệu:
Bổ sung các giá trị bị mất, làm trơn nhiễu, nhận dạng hoặc khử lệch,
giải quyết các vấn đề không nhất quán
Tích hợp dữ liệu
Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file
Biến đổi dữ liệu
Chuẩn hóa hoặc kết hợp
Thu nhỏ dữ liệu
Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới
kết quả phân tích
Rời rạc hóa dữ liệu
Một phần của thu nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu
Các giao thức ODBC, JDBC
Dữ liệu trong file:
Định dạng các cột cố định
Định dạng phân cách: tab, dấu “,”,
Phân biệt số lượng các trường trước khi
làm sạch và sau khi làm sạch