Ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động phân loại, chăm sóc khách hàng tại công ty cổ phần khoáng sản gạch men thừa thiên huế - Pdf 39

tế
H

uế

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ
--------ooo--------

in

h

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Đ
ại

họ

cK

ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU VÀO
HOẠT ĐỘNG PHÂN LOẠI, CHĂM SÓC KHÁCH
HÀNG TẠI CÔNG TY CỔ PHẦN KHOÁNG SẢN
GẠCH MEN THỪA THIÊN HUẾ

Giảng viên hướng dẫn:
ThS. Dương Thò Hải Phương


h

tế
H

uế

Để hoàn thành khóa luận àny, bên cạnh sự nỗ lực của bản thân
tôi đã nhận được rất nhiều sự giúp đỡ từ các thầy ình,
cô giáo, gia đ
bạn èbvà cán bộ nhân viên của công ty cổ phần khoáng sản gạch men
Thừa Thi
ên Huế .
Trư
ớc hết,tôi xin gửi lời ơn
cảmế
đ n quý thầy cô trường Đại
học Kinh tế Huế, đặc àbiệt
cô giáo
l hư
ớng dẫn ThS. Dương Thị Hải
Phươngã đquan tâm và hư
ớng dẫn tôi trong suốt quá
ìnhtrthực hiện
khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn Banãnhl đạo ùng
c toàn thể nhân viên
trong công ty cổ phần khoáng sản gạch men Thừa
ên Huế
Thi ãđ tạo

Khóa luận tốt nghiệp

MỤC LỤC
MỤC LỤC .......................................................................................................................i
THUẬT NGỮ VIẾT TẮT.............................................................................................v
CÁC KÝ HIỆU SỬ DỤNG TRONG KHÓA LUẬN.................................................vi

uế

DANH MỤC HÌNH VẼ.............................................................................................. vii
DANH MỤC BẢNG BIỂU ..........................................................................................ix

tế
H

TÓM TẮT NGHIÊN CỨU ...........................................................................................x
MỞ ĐẦU.........................................................................................................................1
1. Lý do chọn đề tài......................................................................................................1
2. Mục tiêu của đề tài ...................................................................................................2

h

3. Đối tượng và phạm vi nghiên cứu............................................................................2

in

4. Phương pháp nghiên cứu..........................................................................................3

cK


1.2.6.2 Phát hiện luật kết hợp ..............................................................................15
1.2.6.3 Các phương pháp phân lớp và hồi quy phi tuyến tính ............................16
1.2.6.4 Phương pháp quy nạp..............................................................................16
1.2.6.5 Phân nhóm và phân đoạn ........................................................................16

SVTH: Hoàng Thị Hoa

i


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

1.2.6.6 Các phương pháp dựa trên mẫu...............................................................17
1.2.6.7 Mô hình phụ thuộc dựa trên đồ thị xác suất ............................................17
1.2.6.8 Mô hình học quan hệ ...............................................................................18
1.2.6.9 Khai phá dữ liệu dạng văn bản................................................................18

uế

1.2.6.10 Mạng neuron..........................................................................................18
1.2.6.11 Giải thuật di truyền................................................................................19

tế
H

1.2.6.12 Tổng hợp hóa.........................................................................................20
1.2.7 Những ứng dụng của khai phá dữ liệu...........................................................20
1.2.8 Những thách thức trong khai phá dữ liệu ......................................................21

2.1.4.1 Giới thiệu thuật toán................................................................................27

ườ

2.1.4.2 Bài toán 1: xác định các tập mục phổ biến..............................................28
2.1.4.3 Bài toán 2: sinh các luật kết hợp từ tập mục phổ biến ............................30

Tr

2.2. Phân cụm dữ liệu.................................................................................................33
2.2.1 Khái niệm.......................................................................................................33
2.2.2 Các yêu cầu về thuật toán phân cụm dữ liệu .................................................36
2.2.3 Các kiểu dữ liệu trong phân cụm...................................................................37
2.2.4 Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu ......................38
2.2.5 Thuật toán K-means trong phân cụm dữ liệu ................................................41

SVTH: Hoàng Thị Hoa

ii


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

2.2.5.1 Giới thiệu bài toán ...................................................................................41
2.2.5.2 Thuật toán K-means ................................................................................42
Chương III ỨNG DỤNG KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ
PHÂN CỤM VÀO HOẠT ĐỘNG PHÂN LOẠI, CHĂM SÓC KHÁCH



Đ
ại

3.2.1 Giới thiệu chung ............................................................................................56
3.2.2 Xây dựng luật kết hợp trong RapidMiner......................................................57
3.2.3 Xây dựng phân cụm dữ liệu trong RapidMiner.............................................59

ng

3.3. Ứng dụng khai phá luật kết hợp và phân cụm trong RapidMiner vào cơ sở dữ liệu
quản lý khách hàng tại công ty cổ phần khoáng sản gạch men Thừa Thiên Huế.............60

ườ

3.3.1 Xác định nội dung cần khai phá ....................................................................60

3.3.2 Lựa chọn dữ liệu ............................................................................................60

Tr

3.3.3 Tiền xử lý dữ liệu bài toán.............................................................................61
3.3.4 Khai phá dữ liệu với luật kết hợp bằng thuật toán Apriori............................75
3.3.4.1 Đặt tham số cho mô hình.........................................................................75
3.3.4.2 Kết quả phân tích ................................................................................... 76
3.3.4.3 Ý nghĩa của các luật kết hợp tạo được ....................................................79
3.3.5 Khai thác phân cụm dữ liệu bằng thuật toán K-means..................................84

SVTH: Hoàng Thị Hoa



Đ
ại

họ

cK

in

h

PHỤ LỤC

SVTH: Hoàng Thị Hoa

iv


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

THUẬT NGỮ VIẾT TẮT
Các chữ viết tắt

Ý nhgĩa
Bảo hiểm xã hội

BHYT

H

h

in

Khai phá dữ liệu
Support

Sản xuất kinh doanh

họ

SXKD

cK

KPDL

uế

BHXH

Ủy ban nhân dân

Tr

ườ

ng



Không thuộc



Nhỏ hơn hoặc bằng



Lớn hơn hoặc bằng



Khác



Phép lấy giao của tập hợp

tế
H

h

in

cK

Phép lấy hợp của tập hợp

uế

Hình 1.2: Quy trình khai phá dữ liệu.............................................................................10

tế
H

Hình 2.1: Mô tả thuật toán Apriori ................................................................................32
Hình 2.2: Gom cụm ảnh. ...............................................................................................34
Hình 2.3: Ví dụ phân cụm. ............................................................................................34
Hình 2.4: Quá trình gom cụm........................................................................................35

h

Hình 2.5: Số cụm. ..........................................................................................................35

in

Hình 2.6: Quá trình phân cụm .......................................................................................35

cK

Hình 2.7: Sơ đồ thuật toán K-means .............................................................................42
Hình 2.8: Ví dụ minh họa thuật toán K-means..............................................................43
Hình 2.9: Khởi tạo trọng tâm.........................................................................................44

họ

Hình 2.10: Xác định tọa độ các tâm cho các nhóm mới................................................45
Hình 2.11: Lặp lại bước 5_ Xác định tọa độ các tâm cho các nhóm mới .....................46



GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

Hình 3.14: Chú thích các thuộc tính..............................................................................65
Hình 3.15: Xác định các loại dữ liệu thuộc tính............................................................66
Hình 3.16: Lưu tên cho kho dữ liệu...............................................................................67
Hình 3.17: Cơ sở dữ liệu. ..............................................................................................68

uế

Hình 3.18: Thêm dữ liệu vào mô hình. .........................................................................68
Hình 3.19: Thông tin dữ liệu. ........................................................................................69

tế
H

Hình 3.20: Thay thế thuộc tính 1...................................................................................70
Hình 2.21: Thay thế thuộc tính 2...................................................................................70
Hình 3.22: Chia khoảng của miền giá trị.......................................................................70
Hình 3.23: Thực hiện câu lệnh if chia ra làm 3 khoảng của miền

giá trị

in

h



Tr

Hình 3.36: Kết quả phân cụm theo cụm 2. ....................................................................88

SVTH: Hoàng Thị Hoa

viii


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

DANH MỤC BẢNG BIỂU
Bảng 2.1: Cơ sở dữ liệu giao dịch .................................................................................32

uế

Bảng 2.2: Các luật được tạo ra ......................................................................................33

tế
H

Bảng 2.3: Bảng tham số thuộc tính nhị phân ................................................................39

Tr

ườ


ngày càng trở thành mục tiêu quan trọng của các công ty. Khai phá dữ liệu dần trở
thành công cụ chính để thực thi nhiệm vụ đó, từ cơ sở dữ liệu sẵn có phải tìm ra những

tế
H

thông tin tiềm ẩn một cách nhanh chóng có giá trị. Công ty cổ phần khoáng sản gạch
men Thừa Thiên Huế chuyên sản xuất các loại gạch men sứ nhằm phục vụ nhu cầu cho
khách hàng trên thị trường, muốn lưu trữ và khai thác những thông tin hữu ích từ

h

CSDL khách hàng đó để công ty hiểu hơn về khách hàng nhằm có những chính sách

in

chăm sóc khách hàng. Từ lý do đó, đề tài “Ứng dụng kĩ thuật khai phá dữ liệu vào hoạt
động phân loại, chăm sóc khách hàng tại công ty cổ phần khoáng sản gạch men Thừa

cK

Thiên Huế” được chọn triển khai thực hiện.

Khóa luận đã trình bày các kiến thức cơ bản nhất của lý thuyết khai phá dữ liệu,
lý thuyết về luật kết hợp; thuật toán Apriori trong khai phá luật kết hợp và lý thuyết về

họ

phân cụm dữ liệu; Thuật toán K-means trong phân cụm dữ liệu. Khóa luận lấy thông
tin của khách hàng tại công ty cổ phần khoáng sản gạch men Thừa Thiên Huế để giải

Ngày nay, khi xã hội ngày càng phát triển thì lượng thông tin càng tăng lên với

uế

tốc độ bùng nổ. Lượng dữ liệu khổng lồ ấy là một nguồn tài nguyên vô giá nếu như

chúng ta biết cách phát hiện và khai thác những thông tin hữu ích có trong đó. Như

tế
H

vậy vấn đề đặt ra với dữ liệu của chúng ta là việc lưu trữ và khai thác chúng. Các

phương pháp khai thác dữ liệu truyền thống ngày càng không đáp ứng được nhu cầu
thực tế. Một khuynh hướng kỹ thuật mới ra đời đó là Kỹ thuật Khai phá dữ liệu và

h

khám phá tri thức. Công nghệ khai phá dữ liệu ra đời đã cho phép ta khai thác được

in

những tri thức hữu dụng bằng việc trích xuất những thông tin có mối quan hệ hoặc mối
tương quan nhất định từ một kho dữ liệu lớn (cực lớn) mà bình thường không thể nhận

cK

diện được từ đó giải quyết các bài toán tìm kiếm, phân loại, dự báo các xu thế, các
hành vi trong tương lai, và nhiều tính năng thông minh khác. Ngày nay, các công nghệ


phù hợp với những biến động về hành vi nhu cầu của khách hàng. Công ty với bề dày
hoạt động lâu năm thì lượng thông tin về khách hàng vô cùng lớn. Với lượng lớn thông

SVTH: Hoàng Thị Hoa

1


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

tin như vậy muốn lưu trữ và khai thác được những thông tin hữu ích từ CSDL khách
hàng đó cần khai phá dữ liệu và phân tích để phân cụm khách hàng, các phân đoạn
khách hàng cho phép xác định và mô tả đặc điểm các nhóm khách hàng điển hình.
Nhiệm vụ này rất có ích để phát triển các sản phẩm phù hợp với yêu cầu của khách

uế

hàng cụ thể (kích thước gạch men, cung cách đóng gói, mẫu mã, hình dáng…), giúp
hiểu hơn về những nhu cầu khác nhau của từng nhóm khách hàng này. Từ đó giúp
người quản lý đưa ra những chính sách, kế hoạch, giải pháp hỗ trợ chăm sóc từng

tế
H

nhóm khách hàng giúp công ty thu hút khách hàng và nâng cao được vị trí cạnh tranh.

Trước thực tế đó, em chọn thực hiện đề tài: “Ứng dụng kĩ thuật khai phá dữ liệu
vào hoạt động phân loại, chăm sóc khách hàng tại công ty cổ phần khoáng sản gạch


ng

- Nghiên cứu vận dụng kỹ thuật phân cụm và luật kết hợp trong RapidMiner

vào CSDL khách hàng tại công ty cổ phần- khoáng sản gạch men Thừa Thiên Huế để

ườ

phân nhóm và dự đoán hành vi khách hàng.
3. Đối tượng và phạm vi nghiên cứu

Tr

3.1. Đối tượng nghiên cứu
 Lý thuyết khai phá dữ liệu.
 Thuật toán K-means trong phân cụm và thuật toán Apriori trong luật kết hợp.
 Phần mềm RapidMiner.
 Thông tin khách hàng của Công ty cổ phần- khoáng sản gạch men Thừa Thiên Huế.

SVTH: Hoàng Thị Hoa

2


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

3.2 Phạm vi nghiên cứu

doanh thu bán hàng.

Ngoài phần mở đầu và kết luận, khóa luận bao gồm 3 chương được tổ chức như sau:

họ

Chương I: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
Trình bày tổng quan về khám phá tri thức và khai phá dữ liệu.
Chương II: KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ PHÂN CỤM

Đ
ại

Nội dung chính của chương này bao gồm: Tìm hiểu luật kết hợp; thuật toán
Apriori trong khai phá luật kết hợp; Tìm hiểu phân cụm dữ liệu; Thuật toán K-means
trong phân cụm dữ liệu.

Chương III: ỨNG DỤNG KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ

ng

PHÂN CỤM VÀO HOẠT ĐỘNG PHÂN LOẠI, CHĂM SÓC KHÁCH HÀNG TẠI
CÔNG TY CỔ PHẦN KHOÁNG SẢN GẠCH MEN THỪA THIÊN HUẾ

ườ

Trình bày tổng quan về Công ty cổ phần- khoáng sản gạch men Thừa Thiên Huế;
tìm hiểu phần mềm khai phá dữ liệu RapidMiner; kết quả khai phá dữ liệu bằng thuật

Tr


h

thể coi tri thức như là các thông tin được tích hợp, bao gồm các sự kiện và các mối

in

quan hệ giữa chúng. Các mối quan hệ này có thể được nhận biết, phát hiện hay học

cK

được. Nói cách khác tri thức có thể được coi là dữ liệu có độ trừu tượng và tổ chức
cao. Nếu xét trong ngữ cảnh của ngôn ngữ thì có thể hiểu tri thức là một biểu thức
trong một ngôn ngữ nào đó diễn tả một (hoặc nhiều) mối quan hệ giữa các thuộc tính

họ

trong các dữ liệu đó. Các ngôn ngữ thường được dùng để biểu diễn tri thức (trong việc
phát hiện tri thức từ các CSDL) là các khung (frames), các cây và đồ thị, các luật

Đ
ại

(rules), các công thức trong ngôn ngữ logic mệnh đề hoặc tân từ cấp một, các hệ thống
phương trình,… Ví dụ như ta có các luật mô tả các thuộc tính của dữ liệu, các mẫu
thường xuyên xảy ra, các nhóm đối tượng trong CSDL…
Khám phá tri thức – một lĩnh vực học thuật đang phát triển nhanh chóng kết hợp

ng



ưu nhất phục vụ cho mục đích cải tiến quy trình và giải quyết các sự cố.

uế

về khách hàng. Trong sản xuất, cần thu thập các dữ liệu về thời điểm hiệu quả và tối

tế
H

- Chỉ có một phần nhỏ dữ liệu (khoảng 5 đến 10%) là luôn được phân tích.
- Sự gia tăng của dữ liệu cản trở các phương pháp phân tích truyền thống.

- Giá trị dữ liệu là quá lớn đối với cách thức phân tích cổ điển. Chúng ta có thể
không bao giờ nhìn thấy chúng một cách trọn vẹn hoặc không thể lưu trữ trong bộ nhớ.

cấu trúc, trong các quy luật tiềm ẩn.

in

h

- Dữ liệu cần tìm kiếm không tồn tại dưới dạng tường minh mà dưới dạng phi

cK

- Sự phát triển của mạng máy tính đã gia tăng khả năng truy cập vào dữ liệu.
- Người sử dụng cuối không phải là nhà thống kê đơn thuần, họ cần biết tri thức
CSDL mà họ đang lưu trữ.



5


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

1.1.3 Tiến trình khai phá tri thức
Mục đích của quá trình khai phá tri thức: Từ những cơ sở dữ liệu ngoài cuộc sống
thực tế sau một hoặc một số bước của quá trình sẽ rút ra được những tri thức mới. Các

2

h

Chuẩn bị dữ liệu,
thu thập dữ liệu

tế
H

1

3

cK

Tiền xử lý dữ liệu


Triển khai tri thức

Tr

ườ

ng

Đ
ại

họ

Lựa chọn chức
năng KPDL

Hình 1.1: Tiến trình khai phá tri thức

SVTH: Hoàng Thị Hoa

6

8


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên

Làm giảm chiều: Các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt.

họ

Biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết: bước này thường chiếm nhiều
thời gian nhất trong toàn bộ qui trình phát hiện tri thức. Do DL được lấy từ nhiều

Đ
ại

nguồn khác nhau, không đồng nhất, có thể gây ra các nhầm lẫn. Sau bước này, DL sẽ
nhất quán, đầy đủ, được rút gọn và rời rạc hóa.
Mục đích của bước này là xử lý DL sao cho giải thuật khai phá hiểu được.

ng

(4) Lựa chọn chức năng khai phá dữ liệu: Tóm tắt hóa (summarization), phân

loại/phân lớp, hồi quy/dự đoán, kết hợp, phân cụm.

ườ

(5) Lựa chọn giải thuật khai phá dữ liệu: Trong giai đoạn này, chọn thuật toán

KPDL thích hợp cho ứng dụng. Đây là một công việc không kém phần quan trọng.

Tr

Một ứng dụng chạy tốt, kết quả chính xác là nhờ thuật toán hiệu quả.
(6) Khai phá dữ liệu, rút ra các tri thức: Là KPDL hay nói cách khác là trích ra

Các quy trình trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được

h

lấy trung bình trên tất cả các lần thực hiện. Các kết quả của quá trình phát hiện tri thức

in

có thể được đưa và ứng dụng trong các lĩnh vực khác nhau. Do các kết quả có thể là

cK

các dự đoán hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra
quyết định nhằm tự động hóa quá trình này. Tham gia chính trong quá trình KPDL là
các nhà tư vấn và nhà phát triển chuyên nghiệp trong lĩnh vực KPDL.

1.2.1 Khái niệm

họ

1.2. Khai phá dữ liệu

Đ
ại

Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của
thập kỷ 1980. Cụm từ “khai phá dữ liệu” nó bao hàm một loạt các kỹ thuật nhằm phát
hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn.

ng

uế

dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các

tế
H

mẫu chưa biết bên trong dữ liệu”

Định nghĩa của Parsaye: “khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”
Với cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu; “khai phá dữ liệu

h

thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình

in

trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng

cK

các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”

Còn các nhà Thống kê thì xem “Khai phá dữ liệu như là một quá trình phân tích
được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích

họ



Khóa luận tốt nghiệp

Interpretation
/Evaluation
Data mining

uế

Transformation

tế
H

Preprocessing

Patterns/
Models

Selection

Kn
ow
led
ge

Transformed
data
Preprocessed
data

ng

đó, ví dụ chọn tất cả những người có giới tính là Nữ và có chiều cao từ 1m6 trở lên.
Bước 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing,

ườ

Preprocessing and Preparation)
Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước

Tr

rất quan trọng trong quá trình KPDL. Một số lỗi thường mắc phải trong khi gom dữ
liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa
và không có khả năng kết nối dữ liệu. Giai đoạn này sẽ tiến hành xử lý những dạng dữ
liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như là thông tin dư
thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu

SVTH: Hoàng Thị Hoa

10


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

không được “làm sạch – tiền xử lý – chuẩn bị trước” thì sẽ gây nên những kết quả sai
lệch nghiêm trọng.
Bước 4: Chuyển đổi dữ liệu (Transformation)

được quan tâm nhiều nhất.

họ

Trên đây là 6 giai đoạn trong quá trình KPDL, trong đó giai đoạn 5 là giai đoạn

Đ
ại

1.2.3 Các dạng dữ liệu có thể khai phá
Như chúng ta đã biết, tri thức của nhân loại là tổng hòa của các mối quan hệ, liên
quan mật thiết, logic với nhau và được lưu trữ dưới các dạng dữ liệu này hay dữ liệu

ng

kia. Trong thực tế có rất nhiều mô hình CSDL, tuy nhiên, trong các lĩnh vực ứng dụng
cụ thể khác nhau, chúng ta có thể có thể định nghĩa và phân biệt ra rất nhiều dạng dữ

ườ

liệu sao cho thuận lợi nhất trong quá trình sử dụng. Khai phá dữ liệu có khả năng chấp
nhận một số kiểu dữ liệu như sau:

Tr

- Cơ sở dữ liệu quan hệ (relational databases): là các dữ liệu tác nghiệp được tổ

chức theo mô hình dữ liệu quan hệ rất phổ biến trong nhiều ngành, có giá trị lịch sử
cũng như thực tiễn rất to lớn, do đó, hầu hết các hệ quản trị CSDL đều được hỗ trợ
dạng cơ sở dữ liệu quan hệ như Oracle, MS SQL Sever, MS Access…

in

h

số chứng khoán…

- Cơ sở dữ liệu đa phương tiện (multimedia databases): là dạng dữ liệu âm

cK

thanh (audio), hình ảnh (video),Text & WWW, …dạng dữ liệu này đang rất phong
phú, đa dạng và được phổ biến rộng rãi nhất là trên internet.
1.2.4 Các thành phần của giải thuật khai phá dữ liệu

họ

Giải thuật khai phá dữ liệu gồm ba thành phần chính:
Biểu diễn mô hình: Mô hình được biểu diễn bằng một ngôn ngữ L để mô tả

Đ
ại

các mẫu có thể khai thác được. Nếu mô hình mô tả quá hạn chế thì sẽ không thể học
được hoặc sẽ không có các mẫu tạo ra được một mô hình chính xác cho dữ liệu. Tuy
nhiên, khả năng mô tả của mô hình càng lớn thì càng tăng mức độ nguy hiểm do bị

ng

học quá và làm giảm khả năng dự đoán của các dữ liệu chưa biết. Do đó, việc quan
trọng là người phân tích dữ liệu và thiết kế giải thuật cần phải hiểu đầy đủ các giả thiết

kiếm tham số, miêu tả mô hình bị thay đổi tạo nên một họ các mô hình. Với mỗi một
miêu tả mô hình, phương pháp tìm kiếm tham số được thực hiện để đánh giá chất

tế
H

lượng mô hình. Các phương pháp tìm kiếm mô hình thường sử dụng các phương pháp

tìm kiếm heuristic vì kích thước của không gian tìm kiếm các mô hình thường ngăn
cản các kỹ thuật tìm kiếm tổng thể.
1.2.5 Nhiệm vụ chính của khai phá dữ liệu

in

h

Đối với khai phá dữ liệu, có hai bài toán chính là:

nhất của dữ liệu mẫu.

cK

- Bài toán mô tả (description): Đưa ra mô hình biểu thị những tính chất chung

- Bài toán khai phá dự báo (Prediction): Suy diễn dựa trên dữ liệu mẫu hiện có
để đưa ra một kết quả nào đó.

họ

Như vậy, có thể coi mục đích chính của khai phá dữ liệu là mô tả và dự báo.


13



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status