ĐAI HỌC QUỐC GIA HÀ NỘI
KHOA CÒNG NGHÊ
ĐOÀN NHẬT MINH
NGHIÊN CỨU MỘT số PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
VÀ THIẾT KỂ, XÂY DỰNG ỨNG DỤNG KHAI PHÁ DỮ LIÊU
TRÊN KHO Dữ LIỆU KHÁCH HANG CỦA Bưu ĐIỆN TP HÀ NỒI
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SÔ: 1.01.10
L U Ậ N V Ă N T H Ạ C SI
NGƯỜI HƯỚMỈ DÂN KHOA HỌC:
P(ỈS, TS VŨ ĐỨC THI
Ị Iỉ-L O /o lo ir
ỈA NÔI - Năm 2003
M Ü C LÜC
Chương l: So lược về xu hướng nghiên cứu và phát trien kluii phá dù liệu 6
h iệ n n a y
Chương 2: Kho (lũ liệu và cõng nghệ khám phá tri thức 8
2.1. Kho dữ liệu (Datawarehouse) . 8
2.1 1. Tons quan về kho dữ liệu 8
2. ỉ 2. iMột số đặc điếm của kho dữ liệu 10
2.1 3. Vai trò và các mục tiêu chính của kho dữ liệu I 1
2.1 4. Kho dữ liệu với công nghệ Data mining (khai phá dữ liệu) ỉ 2
2.1 5. Môi trườn
2
hoạt động của kho dữ liệu I 2
2.1 6.Một số hướng tiếp cận DWH và KDD trong ngành Bưu chính Vién 13
thôn«
2.2. Còn
2
112
Pilan mochín 6
4
3.4. Các kv thuật khai phá dữ liệu
3.4.1. Cây quyết định
3.4.1.1. Một số khái niệm chính
3.4.1. 2. Thuật toán Hunt
3.4.1. 3. Thuạt toán 1133 Lặp
1*0
dổi
3.4.1. 4. Thuật toán C4.5
3.4.1.5. Thuật toán rút
2
ọn các luật quyél định
3.4.1.6. Loại bỏ các luật khône cán thiết
3.4.2. Suy diễn và qui nạp
3.4.3. Phát hiện cấc luật kết hợp
3.4.4. Phân nhóm và phân loại
3.4.5. Mans neural
3.4.6. Gicii thuật di truyền
3.4.7. Lựa chọn các kỹ thuật khai phá
Chương 4:
Công nghệ khai phá dữ liệu của hãng Oracle với phiên ban 9i release 2
4.1. Các chức năng và đặc điểm mới:
4.2. Các thành phần của Oracle Dataminins (O D M )
4.3. Các chức năng chính của ODM
4.3.1. Phân loại
4.3.2. Phân nhóm
4.3.3. Luật kết hợp
4.3.4. Thuộc tính quan trọim
4.4. Các thuật toán khai phá dữ liệu của ODM
58
60
60
60
6!
61
63
64
64
65
66
67
6<s
68
69
70
70
71
72
72
74
74
74
74
75
75
75
76
76
4.7. C;.c LI i á trị thiếu và sự rời rạc 77
Khai pha dữ liệu khừng tluiộc mộl nỵành côim nũhiệp nào. nó sử dưng các kỹ
thuật và thuật toán thông minh đê khai phá tri thức tiềm ẩn trong dữ liệu, đặc hiệt
trons các lĩnh vực về tài chính. V học. viễn thông, báo hiếm, hànti khôn o
Trong tương lai gíìn. khai phá dữ liệu sẽ mana lại nhiều lợi ích to lớn cho con
naười nói chung và cho các lĩnh vực quan lý. kinh doanh nói riênũ.
Cnonụ 1: So lu'o'c VC XU huoim imhiỏn cứu v à phát trien khai jjhá
clL lien jijen n av
Trong nhữim thap ky ũãn ctãv. với sự phái trien mạnh mẽ cua côn li nsihệ diện lử.
sự Hr dò'i cua các bộ nhớ có đun« lượn« lớn. bộ xứ lý tốc độ cao cùn« với cúc
các hệ thống mạng viễn thỏim. người ta đã xav dime các hệ thonsz thôim tin
nhăm tự độns hoá mọi hoạt độns kinh doanh và quan lý của mình. Điều này đã
tạc IM một đòn" dừ liệu tãne lên không nsừna vì ngay từ các giao dịch đơn «ian
nhất nhu' một cuộc gọi điện thoại, kiểm tra sức khoẻ. sử dựng thé tín chins, v.v.
đểi được iỉhi vào trons máy lính. Cho đến nay. con số này đã trở nên khốn» lò
4— J J J v_
bao gồm các cơ sớ dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes Ill'll trữ các
chì lieu kinh doanh ví dụ nhơ dữ liệu thôns tin khách hàng, dữ liệu lịch sử các
ma) dịch, dữ liệu hán harm, dữ liêu các tài khoán, các khoán vay, sử cỉunũ vốn.
v.v. Nhiều hệ quan Irị cơ sỏ'dữ liệu (CSDL) mạnh với các cỏns cụ phonsz phú và
thu;m tiện đã iiiúp cho con nmrời khai Ihác có hiệu qua các nuuổn tài nmiyên dữ
liệu.
Cùr.g với chức nail o khai thác có tính chất tác nghiệp, việc khai thác các CSDL
phu; vụ các yêu cầu trợ giúp quyết định neày càn« có ý nghĩa quan trọns và là
nhu cầu to lớn troiiii mọi lình vực hoạt động kinh doanh, quan lý. Dữ liệu được
thu Ihập \'à Ill'll trữ níZctv càn Í2 nhiồu nhung n ill rời ra quyêt định troim quan lý.
kinh doanh lai cân nhũn« ihôna tin bố ích. nhũn« “tri thức” rút ra từ những
c? o 7 <— C-
nguón dữ liệu đó hơn là chính những dữ liệu đó cho việc ra quyết định cua mình.
Các nhu cầu đó đã được biết đốn tù' láu nhưnsỉ mới thực sự hùng nổ lừ thập niên
p.iáp kỹ thuật và được đặt tên là Data YVarehoushins - kỹ thuật xay ilựini các
kho (lữ liệu. Data Warehouse hav DVV1I (kho dữ lieu) (tược (lịnh Iiíihìa nhu'
một lập hợp các phương tiện cho phép hình tlunũ dữ liệu một cách tona the.
hướng đối tượng để giúp cho việc phan tích và ra quyết định.
Niĩrrm nsirời đầu tiên đưa ra V tướng về DVVH xác dinh run« liến hành phán
tích trực tiếp trên dữ liệu cùa các hệ xứ lý íiiao dịch và khỏnỉi hiệu C]uá và do
đr khônii dược khuyên khích. Thay vào đó dữ liệu từ một vài hệ XII' lý iiiao lác
trưc tuyến (Online Transaction Processing - OLTP) được biến đổi và sau đó
đua vào một nguồn dữ liệu duy nhất là DVVH. Quá trình này ctươc iiọi là đua
do liêu vào DVVH. ũổm các công đoan chính sau:
+ Làm sạch (Bo các dữ liệu khóim cán thiết hoặc quá chuvẽn duna)
+ Liên kết các số liệu (Tính trước số liệu lích. ton”. I run il bình )
+ Biến đổi dữ liệu: so liệu được hiên dõi llìành dạniỉ thích hợp. lõ cluíc lại phù
hợp với DWH
+ TÍCỈ
1
hop so liệu tù'các
11
Üuốn khác nhau.
+ Đonu hô ho;i so liệu ()' mộl thời (tiêm \;ii' dinh.
Khoo> dữ I LI là mól lie tlioni! dữ liệu nhám chuán hị đẽ XUY (lưi)íi hệ lio irợ
t|U\yết din (DSS-Decision Support Svstcms) và hộ phan lích lrục luyến
(O L LA P -O line Analỵsis Processing). Nó chứa mol tập hựp đừ liêu khổn« lổ.
ctiKực thiốtvé hLi'ónÜ theo chứ đề. man« các thuộc tính vổ Ihòi oịan vù hau nhu'
khcràg bị hay đổi. Dữ liệu tron« datawarehou.se được lưu trữ dưới dạn
2
imiiyên tínoặc clạns tốna hợp phục vu cho các ứns dụns phát hiện tri thức \'à
trự eĩúp qi/ết định.
Troing thàikV đầu định nshĩa DYVH tương đối đơn gián. Đến hiện nay DVVH
vần được hếu là tập hợp dữ liệu thoá mãn 4 điều kiện cơ ban:
năn.
Các ilữ liệu này được xử lv một cách ihốn« nhát tronsz DWH đế phục vụ cho
CỊIU. t inh khai thác sau này.
Cúc cặc tính này là chun« cho mọi DWH. Tron tỉ V nsihĩa đó. mọi DWH đéu có
cấu trúc như nhau. Tuy vậy các DYVH trong các lĩnh vực khác nhau đểu có các
Hình 2.1: Mó hình tổng th ế hệ t h ố n g kho dữ liệu
2.1.2. M ót so dàc cticm cúa kho dữ lien:
Mane các thuộc tính vé thời tiian: đãv là đặc diêm hết sức quan trọn í! cua kho
dữ liệu nhằm đáp ứnu các yêu cầu của siai đoạn khai phá dữ liệu. Mỗi loại dữ
liệu sẽ được tổ chức và lưu trữ và có gán nhãn thòi gian theo từng chư kỳ hoạt
động nghiệp vụ.
Tính ổn định: Dữ liệu trorui kho đữ liệu háu như khòntỉ bị thay đối. chú yêu đế
phục vụ các yêu cáu truy vấn thôn» Ún. dam báo tính bén vữntỉ vé mậl thì liệu
tron” quá trình thu thập thôim tin.
Hướim chu đổ: Đay la thuộc lính căn ban cua kho dữ liệu vì trước khi phan
tích ihict kê hẹ thoiiii. phủi xác định rõ ràne mục tiòii nííhiệp VỊI (chu etc) cán
(Jal được cua kho dử lícu. Ví (lu Iilur ban (lau khi \a\ ilựnii kho dữ liệu, ilnéi ké
viel chi đưa ra mục tiêu là xâv tỉựnĩi kho dữ liêu vé hán lé. sau đó do nhu cáu
ph;l trien có thê cập nhai ihêm vào kho dứ lieu các chu đõ khác như hán hàn Li
qu; mạn tỉ. chứne khoán
Tím lích hợp: T hó nũ tin Ironíi kho dữ liệu phai phan ánh được tho n ũ Illicit dưa
tròi các nsìuỏn thons tin khác nhau vù có the cùntỉ phan ánh tươnii lự m ột vàn
đề lào đó.
2.1. ỷ Vai trò và các m ue ùèu chinh cua kho dữ lieu:
Kho cữ liệu được tạo ra nhằm đạt dược 2 yêu cầu chính là :
- Phin tích báo cáo
- Hỗ rợ quyết định
Các rạic tiêu chính:
- Tĩct hợp dữ liệu và siêu dữ liệu (metadata) từ nhiều nguồn khác nhau
- Nârg cao chất lượng dữ liệu thông qua các phươim pháp chuán hóa, làm sạch
cune cấp từ các hệ C S D L trên.
2.1.4. Kho dữ liêu với công nghê Data mimiìu (khai phá dữ liêu)
K h o d ĩ liệu ( D W H ) với côn g nũhệ khai phá dữ liệu là các biến thế cùa các kho
dữ liệt truyền thống. Nhữ ng DVVH này sứ dụ ng đê’ thực hiệ n các hiệu chính các
dữ liệi. thống kê lớn. Nhữ ng đặc đièrn cua D W H loại này ià :
Rã: chi tiết
- Có quan hệ lịch SƯ sâu xa
- Được thiết kế tối ưu đê phân tích th ốn s kê
N goà i ra các D W H này còn đ ịn h hướn« tới m ộ t dự án nào đó. Đ ié u đó có nũhĩa
là khác với các DYVH khác nó được sứ (hum ntỉay lập tức đế thực hiện các phan
tích cần th iếl cho dự án.
M ộ t khác biệt quan trọng nữa cùa D W H với côn g nshệ Data m in in o là c lu inti ral
thường xuyê n lấy thêm các dữ liệu bên Iiíioài. N h ũn g dữ liệ u đó lát có ích XÓI
theo quan điếm đám báo tiểm năn» kinh doanh m à điêu nàv rất k hó neu thiêu
các dữ liệu mới nhất.
2.1.5. M ỏ i trườnu hoat do ne.cua kho dữ ỈICU bao iiổm các thành phàn sau:
- Các nmiổn (.lữ liệu: dữ liêu tác niihiộp lùiiìii I
1
ÜÜY (Operation dala), ti ũ liệu
phân tán (Dislribulcđ dala). các nuuon dữ liệu bén nuoài (ihoim liu vé IV uiií.
thị Irườnũ. thời tiết, chI NO chớnÜ khoán). Nhữnu nmiõn dữ liệu nàv được Iã\
VC lìr các hệ thôn Lí (lue I;11> \ à lio;III li';m IKIIII IÌLM ',|| kho clữ I iỌu.
Các côn il cil chuyến đói. chuàn hóa. làm sạch và làm iiiìui (lữ liệu ctiín li \';ii
irò tánII Irm m chuyến (.lữ lieu.
kho chứa m etadata (rep os itory): Ill'll trữ các thònũ till din h nizhîa vẽ ihìm h
phán \’à đối urợim cua kho dữ liệu
Các cỏ niỉ cụ quán trị kho (.lữ liệu
Các côn« cu kh ai phá dữ liêu, phân tích trực tu vốn. hỗ trợ qu y ết định.
MÔ HÌNH KHO DU LIỆU
Data Marts
2.1. Cong nghệ khám phá tri thức (KDD)
2.2. L T ổng quan vé K D D
H.U11Z nghìn năm nay các vấn dê về tô chức và khai thác dừ liệu là vấn dê mà
con người phai siải quyết. Đen nay vân đề này vần chưa eiai q u yết được triệ t dê.
C á; chuyên gia tron g các lĩn h vực khác nhau tro ns quá trình hoạt đ ộng của m ình
th i thập được m ột k hô i lượn o k iến thức k h ôn s lô như ng tô chức cơ sơ dừ liệu đó
thành m ột hệ th ốns đê phân tích đưa ra n hữn s thô ng tin cần thiế t trên cơ sỏ' dữ
liệu đã được tập hợp là m ộ t vân đề rât phức tạp.
Các hệ thôn« tồn tại m ột cách chồn« chéo kh iế n các th ôntỉ tin thừa \a \ ra nhièu
và /ân đề xử lý số liệu lớn là rất phức tạp. C ó m ộ t n ehịch lý là chúng; ta thu thập
thcns tin nhanh hơn rât nhiêu việc xử lv th ô n ” tin.
Cuoi thê k \ 20. phu'0'n« pháp phàn lích sô liệu m ột cách tri tuệ (là phư ơnu pháp
khai thác thô ng tin trực tiế p từ dữ liệu thô) đan s các nhà kh oa học danạ tập
tru rg g ia i quyel. N hữ ng thứ ns hiệm dã dược áp d ụn a thứ khi phân tích thị
irư cnu tài chính, ngân hàng, danh giá kha năn ti cho vay. phân tích đánh ũiá
nhùrm m ạo hiêm trono cìâu tLI' dược tiên hành rât nhiêu. Đâv là vân đê dặc hiệt
khó k h i ta cỏ một lượnII thônu tin kh ôn g lò. Hài toán càn 2 Ìai quy êt ớ dây là
phân tích sô liệu ra sao? C on nsười và máy tính sẽ kêt hợp vớ i nhau đê aiài
quyèt vân dê như thế nào. con nm rời sẽ làm n hừ ns ai và nhĩrn a RÌ sẽ aiao cho
m á) m óc. D ự đoán các vân dê trên trona tuxrnu lai là rât khó n hư ns quan trọ nu
nhà', là hiêu dược tzió'i hạn con nm rờ i và giới hạn cua các th iết bị m áy m óc. Theo
John N cu m al thỉ số lượn ũ neun.ll cua m ộ t nsu'ó'i la 10: " bits m ặc dù c hún g ta
kliônu thê sư đụn» hôt sô lượ n2 nàv. M ộ t sò nhà bác học dã m ô p honũ các hành
vi m ậ n dạn« cua não bộ (v í dụ m ạnu 1 ỈD p licld ) cho ta kha năn« nhận d ạiiíi
ILIOTU tự' nlur não nmró'i. Cae m àu đà điạrc huân lu\ ện ele nhận clạnu sè kích
thích ()' m ột viin y dã dược xác định trước. NüU'ó'i ta dà tính cliro'c rănu nêu m ột hộ
th ũiụ clu'o’c lỉiict lập tù' 10 N cura ỉ ihi uhi nhận tlin.ic 5 . I( )IX mầu khác nhau.
bnL sụ lirnu Neural. Oớiy cnu chớnh la sụ ln <2 mn lún nhõt m con
n ti i co thũ nhú'd irc. I)ú l con sụ kh ụnu lụ m thiờt h din l khụn cú kha
nn ỡ: dt diro'c. I L1\ nhiờn, tục d cua cỏc N eural sinh hc quỏ chm so vi cỏc
hợp 1(11 dữ liệu, lín h toán sonii sonti \'à hiệu nãnii cao. thu nhạn in ihúv cho
nhữnL>hẹ t hôn ti chuyên iiia. và trực quan hóa dữ liệu. Các lãnh vực nùv đêu có
m ộ t rrục đích chu n a là rút ra tri thức từ dữ liệ u cua nhữrm cơ sớ dữ liệu lớn.
Nhữní: ITnh vực học máy và nhận đạniỉ có cùnsi với K D D m ục đ ích n shiè n cứu
nhữna lý thuyết và 2 KII thuãt nhăm Iã\ ra các mầu và m ô hình từ dữ liòu (là
mỉ J <w . -/
n hữ n gk v thuật khai phá dữ liệu ), hu'ó'ns tới việc m ớ ròn« nh ữ ns lý th uyết \ a ìíiai
thu ật uìv để có thể tìm k iế m cĩuực những m ầ u đặc biệt (n hũn « thứ m à có thế
được rọi là tri thức hữu ích hoặc thú v ị) tron« n h ĩíns tập hợp lớn dữ liệu cua thê
giới th-1'c tế.
K D D cũnơ có nhiều điểm chuna so với phương pháp thốn g kê. phàn tích dữ liệu.
Nhữ ne hệ thốn« K D D thườn« được nhiíns vào bôn trong nhỡn« thú tục thông ké
đặc biet đê m ó hình hóa dữ liệu và quan lý nhiễu, nhữrm thu tục này đónu vai 1 rò
nhu' mót thành phán tron tỉ kết càu tổnsi the cua hệ khám phá tri thức.
M ộ t lĩnh vực liên quan khác đốn K D D là kho dứ liệu. đ ónu U()p \ ai Irò llu i í hập
và làm sạch tlữ liệu, lạo ra m ột kho dữ liệu có dây đu lính n áiiũ sán sàim và irực
tuyến. Cách liế p cận thõnsi thườn« đè phàn tích kh o dữ liệu dược uọi O L A P (XU'
lý phân lích trực tuyên). N hữ na cô nti cu O L A P cu niỉ cấp kha nãns phân tích dữ
liệu đa chicu/đa khía cạnh (m u lli-tlim e n sio n a l). dây là côn« cụ cấp cao hơn NO
với ngón ngữ truy vãn chuán S Q L tro nii việc lỏ m lược và lính loán theo nhiêu
ch ié u dữ liệu.
M ộ t câu hoi rất hav dược dặl ra là phân hiệt uiừ a c ôníi cụ K D I ) và O L A P . C ô im
cụ phân tích trực tu y ến (O L A P ) cũ n 2 là còntĩ ntihệ hỗ trự cho quá trình ra quyêt
định . M ột sự khác biệt cơ han íiiừa K O I) và O L A P là O L A P cho ta câu tra lòi
dối với các tình huonü mà im ư ời clặl càu hoi dã chuân bị irước. Con K D D thì
khác hãn. nó tụ' phát hiện ra các qu \ luậl đê lù' dó nm rời n eh icn cứu rút ra các
kết luận cần Ihici. N m iài ra K l) l ) dưa ra cae uia th ici mó'i cỏ thè dìnm cỏ n e cụ
O L A P dê xác nhận hoặc loại bo. Nlur \ ậ\ K l) l ) và O i.A P có quan hệ t i r o n a hô.
hỗ trơ nhau. C húníi ta co ihê coi ca cò nu nuhệ khám phá iri thức lãn ( )l A I ’ la
I(>
LO
• Cae di' liệu có the chira hao siiờ tlu'çyc phân tích vần tiêp tục dưọc thu
thập nl tôn kém \ (Vi \ iiQhĩ lo xa răHLĩ sau này sẽ có m ột cái ÜI dó rát
quan t'ọnu có thê dã bị ho qua.
• L ư ợ n etlừ liệu quá lớn dôi \ ó'i cách thức phân tích cô dièn. D ôi khi. ta
khôn g thê xem được hoặc chứa được tât ca trono hộ nhó'.
- c Line cấ p côns cụ cho nhừna nsườ i SU' dụna khôna chuvên về tho ns kê.
- Cân phai rhanh ch ón s phát hiện và dira ra quvêt định tron g các tình huôrm
kiỗn câp trons m ôi trườno cạnh tranh.
ỉvhi các cơ sở dừ liệu càng ngày càim to lên thì kha nănn hồ trợ phân tích và
ra quyết định ban s cách hỏ i đáp truyền tho ns (kiê u S Q L) sẽ kh ôn g thê thực
h ện được. H oặc nhiêu yêu càu m à nsườ i sử d uns quan tâm rất khó có thô
rrô tả được bãns m ột ngôn naừ hỏi dáp. chăna hạn như "hãy tìm cho tòi tất
ca các ban shi chửnũ tỏ ră ns có sự sian lận trona dó ", hoặc hãy tỉm tat ca
cac bàn gh: tươns tụ' như các ban ehi tro na ban<¿ X ".
2.2.4. C)uá nì a ì nhát lucn tri ihức:
Q u á trinh phát hiện tri thức bao sòm m ột sô bưức như được vẽ tron ti hình sau.
o
I Sừ d ung
ị h*ong thu c te i
ĩlm hieu rinh
vưc ứng dung
ĩh u ứ tap v à b ẽn
xữ lý dí> liêu
• Các m au
v à m ò hình
«
Hìuli 2.4: Quá trình KDD
[9] Bước thứ nhàt là tìm hiêu lĩnh \ LIC irruí dụnu \ à hình thành bài toán. Bước
nà\ l ì I'll ne là m ộ i dieu tiên quvêi cho \ iộc rút ra được các tri thức hữu ích và
hv vọ n i rãnu tri thức dã tim được có thê clirọc dira vào các má\ tính vu dirọc
khai th.ic bo1: m ột sò clu ronũ trình. Dưa các kẽt qua dà tim dược \à o sư dụns
tro n e tlự c tè chính la mục dich cuôi cìm e cua một qui trình K D D .
Cần Ill'll ý rana k hôn s sian cua các m ầu thư ờ n2 là vô hạn. và dê liệt kê ra được
các mầu này ta Cline can phai tiên hành ntĩhiên cứu rât nhiêu nữa. Thành phân
khai thac dữ liệu tron g qui trinh K D D chù yê u liên quan den việc phát hiện và
liệt kê ra các mầu từ dừ liệu. Bộ phận phát h iện tri thức quan tâm đến việc đánh
giá va phân tích V nehĩa cua các mau đê đi tới các qu yêt đ ịn h m au nào có ý
nghĩa VÀ mầu nào không. Nó còn bao 2 Ôm việc lựa chọn các lược đô mà hóa,
tiên xử lý dữ liệu, rút m ẫu. và các phép dự đoán dữ liệu trước khi tiên hành íiiai
(loạn khai phá dừ liệu.
C húng t.ì sẽ xem xét cụ thê một sò côn e đoạn sau:
*
T ìm h êu rỏ phạm \ i ÚTIÜ dụim: nhữnu tri thức cỏ liên quan uưov dâ_\. cúc
111
Lie
dich CUE nm rời sư dụnti.
* Tạo lập tập dữ liệu dich: chọn ra m ột tập dữ liệu, hoặc lập tru ne vào một tập
con các bien hoặc các mẫu dừ liệu mà Iren dó cân phai phát hiện ra các tri thức.
* Q uá trinh làm sạch dữ liệu: các phép CO' han như loại ho nhiều hoặc các aiá trị
k> dị nôn họp Iv. XU' lý các uiá trị bị thiêu, sưa các lôi manu tính hộ thônũ.
: i
o n T R ÌN ÍI KDD
Mình 2.5: Qui trình KDD
R út jọn và dụ' doán dừ liệu: phát hiện ra các đặc d iê m hữu ích dê biêu diễn lại
dữ liệu sao cho phù hợp nhât v ói mục tiêu cân dạt tới. Có thê sứ d ụnu phư ơnti
pháp rút bớt sô chiêu hoặc biên dôi dữ liệu dê uiám hớt sỏ lưọ'nu các biên.
* Lụa chọn n hiệm VỊI cua khai phá dữ liệu: quyêt địn h xcm mục dic h cua qui
trìn h K D D này là íĩì: phân loại, hồi qui. hay aộp nh ó m . Y.Y.
* Lụa chọn phưcms pháp khai phá dừ liệu: chọn các plurorm pháp sẽ sư dụ nti dê
- Khai phá dữ liệu bao £ổm mộ t tập hợp các kỹ thuật tiế p cận tự động nhàm
kháo sát. phân tích ti m í và đua ra các m ối liên hệ phức tạp. nhũng thôn« tin
có ích bên Iro im các tập hợp dữ liệu khốn s lổ.
- Khai phá dữ liệu sử dụ im các kv thuật và các khái niệm cua các lĩnh vực
nghiên cứu trước đây như: máy học. nhộn dạne. thốn e kê, hồi quy. phân
nhóm .V.V Khai phá dữ liệu dược sử đụna đê tạo ra các 2 Ía thuyết, đê làm
dược điêu này khai phá dừ liệu sư dụna các thôna tin trono, quá khứ dê học
và sư dụne chúrm đê tim ra các mau đán ti quan tâm sau dỏ dụ' đoán dược các
mầu mới.
Các nhà thònu kê thì xem khai phá dữ liệu như la một qui trình phàn tích
được thiêt kẻ dê thăm dò một lượna cực lớn các dừ liệu nhăm phát hiện ra
các mau thích hợp và/hoặc các m ôi quan hệ m ana tính hộ thônạ uiữa các
biên. \à sau dó sẽ h ọ p thức hoá các kct qua tìm đưực bãnu cách áp dụna các
mâu đã phát hiện được cho các tập con m ới cua dừ liệu. Q ui trình này bao
tiỏm ba uiai doạn cư ban: thăm dò, xây dự im m ô hình hoặc định nuhĩa mầu.
và hựp thứ c/kiêm chứnu.
3.1.2. Phân m èm khai phá dữ liêu là các cônti cụ phân tích dữ liệu cho phép
người sử dụn« phán tích theo nhicn chiểu và nhiéu íỉóc cạnh, đặc trưng hóa và
tontz hợp lại thành các m ố i quan hệ riõnu.
3 .1.3. Các thành phán cua MUÚ n inh khai nhá dữ lieu:
a. Dữ liệu: là bãl kỳ các Yêu lô. con số. \ ’ăn bán mà có thô được XII' IÝ bới
m á) lính. D ữ liêu có ihé co nhicu khuôn clan*:, ilu iộ c Iihicu c o 'so'(.lữ liệu khác
nhau. h;io ũổm :
• C;k (lữ liệu xu' lv IUOI1Ü liic nhu' (lữ liệu h;in ỈKÌiìíi. ui;í c;I. ké loiin
'Chươi u 3: Khai phá dữ jjcu
24
• Các dư liệu khôn « xứ IÝ 1 ư ơ n *: lá c như dữ liệu lo n LI hợp đa qua xử lý ,
clữ liệu dự háo. kin h lố vĩ m ò
• Siêu dữ liệu (inetaclata): là đữ liệu lự định nẹhĩa clữ liệu n hu'cá c thiết
ke vé cơ sớ dũ' liệ u hay các định nsihĩa từ điên dữ liệu.
• )
10
' )
0.5
■ )
Tacan phili quvC't định (lựa (ren CO'so' nhữ n” hicu bíêt ve nhữntỉ chiêu cao và
In nu liroìm con 11*: ười. V í du. tỉa số nhỡ n” nu ười mà ta nhìn thã\ hoãc hict
c • c . V- V*. „
tới mà cao lm 7 8 vù cán nặn" <S5 k <2 cléu là đàn òníi. Bơi vậy. cỏ thẽ cho rãiiũ
mót nu ười kh ôn« biết chiều cao và trọn« lượn” mà thuộc cùne sự phàn loai
dó thì cũrm là đàn ôna.
Tuy nhiên cán phai lưu ý rãna tri thức khôn « chi là nhữna 21 mà ta có thê
phan loại được m à còn là ca nh ũn” tỉ ì mà ta khô n« thế phàn loại đuực dưa
trên dữ liệu có sán. Háu nhu' m ọi người đều cho răn« kh ôns có cách nào có
thê phàn loại trẻ em dựa trên cơ sớ chí đon gian về chiều cao và trọng lượng.
Bans phàn loại ở hình trên có thế được thê hiện bans kết qua dưới đày. mức
độ tin cậy tru ng bình đ ố i với n hũ n2 phụ nữ nặn« 1 10 pou n d và cao 5 ’3” . mức
độ không tin cậy đ ối với trẻ em từ 10 tuổi trở xu ốns
ID Chiều cao Cân nặng Tuổi Giói tính Đò tin cậv
Trong ví dụ trên, ta sử tkiiiü kỹ ih u ậl phàn loại dò thử khá m phá nluìim đặc
tính đặc hiệt về m ỗ i cá nhãn. Bằn» việc đưa ra I tập hợp nhữiiũ (lữ liệu nhất
đinh, la phái xác đ in h ui á tri cho m ột Irườiiii Lrốuii Iron a mui bail lili i. Đỏnt>
thời ta có thê xác đ ịn h mức độ tin cậy trong khi dự đoán.
Ta có thê sử dụng cùnũ cỉữ liệu và cìinti kv thuật đó. kh ỏníi phái chi đô điển
ih ôn s tin bị thiếu hụt. mà thú vị hơn là đẽ đưa ra các ứng xử phù hop Irons’
tươns lai đổi với tìm « cá nhân.
V í tlụ có hon người, có the ta m uốn biêt Iiüii'o'i nào sẽ can m ộ i hộ (tons’ phục
bóng đá chuyên nũhiệp?
H oặc, tiia ihiẽì m ỏi cá nhan đòn tù một Li¡a dinh khác nhau, lili nhữiiLi Líiii
cíình nào là Iihữnii khách hñnü ln'o'nü lai (loi \ (V| Iihữiii2 cataloũ (lõ che vi và
• Dư háo : N íiày mai co phán X sẽ hán được CHO nhát là hao nhiêu?
• Dự đoán: c ổ phần X sẽ lên. X uốn Ü hay ctứnỵ tro ng nü à y mai ?
PhuơriH pháp phân nh óm là khác hán với phươnũ pháp phân loại. Kh i phàn
loại cái gì đó. ta sẽ gán ch o nó cho m ộ l tien địn h nühîa ve lớp.
Sụ' phân nhóm thực hiện tìm nhỡn« nhóm han uhi L’io n " nhan một cách tự
nhiên khỏnũ theo m ột định hướnũ vé nhó m đó phai nhu' thè nào. V iệc phân
nhỏm hữu ích cho việc nhũn« việc kháo sát dữ liệu han đàu. đô chia m ột
khối lili liệu (hành nhữnií phán nhỏ hon.
3 .2 . V a ị trò và các m u e tien ch ín h cua k h ai |)lia dữ [[eu