KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG - Pdf 24


KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG
Nguyễn Thị Hương GiangNội dung

Chương I. Tổng quan về khám phá tri thức
(KDD) và khai phá dữ liệu (DM)

Chương II. Tiền xử lý dữ liệu

Chương III. Một số phương pháp khai phá dữ
liệu

Chương IV. Lượng giá và sử dụng tri thức
được khám phá

Chương V. Ứng dụngI. Tổng quan về khám phá tri thức (KDD) và khai phá
dữ liệu (DM)

I.1. Khám phá tri thức và khai phá dữ liệu là gì?
- Giáo sư Tom Mitchell [4] đã đưa ra định nghĩa của KPDL
như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá
những qui tắc và cải thiện những quyết định trong tương lai.”
- Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [3] đã
phát biểu: “KPDL, thường được xem là việc khám phá tri thức

t
,

.
In
t
e
r
n
e
t
,

.
Hình 1. Quá trình khai phá dữ liệu II. Tiến trình khai phá tri thức

Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1 :

1. Gom dữ liệu (Gathering)
- Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước
được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ
các nguồn ứng dụng Web.

2. Trích lọc dữ liệu (Selection)
- Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn
nào đó, ví dụ chọn tất cả những người có tuổi đời từ 25 – 35 và có trình độ đại học.


những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất
ra.

Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là giai
đoạn được quan tâm nhiều nhất hay còn gọi đó là Data Mining. II. Tiến trình KDD

The KDD Process
Data organized by
function (accounting. etc.)
Create/select
target database
Select sampling
technique and
sample data
Supply missing
values
Normalize
values
Select DM
task (s)
Transform to
different
representation
Eliminate
noisy data
Transform
values

Income
have defaulted
on their loans
good status
with the bank
-
Lớp bài toán Dự đoán sẽ học ra các bộ dự
đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ
dựa trên thông tin đang có để đưa ra một giá trị
số học cho hàm cần dự đoán.
- Ví dụ: Bài toán tiêu biểu của phương pháp này
là dự đoán giá sản phẩm để lập kế hoạch trong
kinh doanh.
2. Phân loại:
- Ánh xạ (phân loại) một mục dữ liệu vào trong một
trong nhiều lớp được định nghĩa trước.
- Với một tập các dữ liệu huấn luyện cho trước và sự
huấn luyện của con người, các giải thuật phân loại sẽ
học ra bộ phân loại (classifier) dùng để phân các dữ
liệu mới vào một trong những lớp (còn gọi là loại) đã
được xác định trước. Nhận dạng cũng là một bài toán
thuộc kiểu Phân loại.
Ví dụ: nhận dạng tự động các đối tượng trong CSDL
ảnh lớn
III. Các phương pháp KPDL (DM) (tt)
sơ bộ các dữ liệu.
III. Các phương pháp KPDL (DM) (tt)
6. Tổng hợp (Summarization)
- Các phương pháp tìm kiếm một mô tả
tóm tắt cho một tập con dữ liệu.
- Các kỹ thuật tóm tắt thường được áp
dụng cho các phân tích dữ liệu tương tác
có tính thăm dò và tạo báo cáo tự động.
III. Các phương pháp KPDL (DM) (tt)
7. Mô hình ràng buộc (Dependency
modeling)
-
Tìm mô hình mô tả các ràng buộc quan trọng,
có nghĩa giữa các biến.
-
Mô hình ràng buộc có 2 mức: mức cấu trúc
xác định các biến ràng buộc cục bộ với nhau
như thế nào, trong khi mức định lượng xác
định độ lớn của ràng buộc sử dụng tỷ lệ số.
III. Các phương pháp KPDL (DM) (tt)
8. Dò tìm và biến đổi độ lệch (Change and

Không nhất quán (mâu thuẫn): chứa các mã hoặc các tên
mâu thuẫn nhau

Dữ liệu không đảm bảo chất lượng thì kết quả khai
phá không hiệu quả

Chất lượng các quyết định phải dựa trên chất lượng dữ liệu

Kho dữ liệu cần dữ liệu cần sự tích hợp nhất quán của dữ
liệu có chất lượng. b. Lệch

Lệch là các đối tượng dữ liệu có các đặc
tính khác đáng kể với phần lớn các đối
tượng dữ liệu khác trong tập dữ liệu. c. Các giá trị bị mất

Lý do bị mất giá trị dữ liệu

Không thu thập được thông tin
Ví dụ: người được điều tra từ chối không
cung cấp thông tin tuổi và cân nặng của họ

Các thuộc tính không phù hợp trong mọi
trường hợp
Ví dụ: thu nhập hàng năm không áp dụng cho


Tính có thể hiểu được

Tính có thể truy cập được5. Nhiệm vụ chính trong tiền xử lý
dữ liệu

Làm sạch dữ liệu:

Bổ sung các giá trị bị mất, làm trơn nhiễu, nhận dạng hoặc khử lệch,
giải quyết các vấn đề không nhất quán

Tích hợp dữ liệu

Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file

Biến đổi dữ liệu

Chuẩn hóa hoặc kết hợp

Thu nhỏ dữ liệu

Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới
kết quả phân tích

Rời rạc hóa dữ liệu

Một phần của thu nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu


Các giao thức ODBC, JDBC

Dữ liệu trong file:

Định dạng các cột cố định

Định dạng phân cách: tab, dấu “,”,

Phân biệt số lượng các trường trước khi
làm sạch và sau khi làm sạch


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status