ðẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ðẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TOÀN
NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
CHO BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG
Nguyễn Văn Toàn
NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
CHO BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG Ngành: Công nghệ thông tin
Mã số: 1.01.10 LUẬN VĂN THẠC SĨ
2.1. Bài toán dự ñoán rủi ro tín dụng 21
2.2. Thông tin về một khoản vay 22
2.2.1. Thông tin về khách hàng vay vốn 22
2.2.2. Thông tin về phương án sản xuất kinh doanh 23
2.2.3. Thông tin liên quan ñến tài sản bảo ñảm (TSBD) 24
2.2.4. Thông tin khác 24
2.3. Dữ liệu sử dụng cho bài toán 24
CHƯƠNG 3 - XỬ LÝ DỮ LIỆU DỰ ðOÁN RỦI RO TÍN DỤNG 25
3.1. Tiền xử lý dữ liệu 25
3.1.1. Công việc tiền xử lý dữ liệu 25
3.1.2. Tiền xử lý dữ liệu dự ñoán rủi ro tín dụng 30
3.2. Phương pháp lấy mẫu dữ liệu (Data sampling) 35
3.2.1. Phương pháp lấy mẫu dữ liệu 35
3.2.2. Lấy mẫu lên (Oversampling) 35
3.2.3. Lấy mẫu xuống (undersampling) 36
3.2.4. Kết hợp hai chiến lược trên 36
3.3. Hợp nhất các lớp của tập dữ liệu (Data merged) 36
CHƯƠNG 4 - DỰ ðOÁN RỦI RO TÍN DỤNG SỬ DỤNG 38
CÂY QUYẾT ðỊNH (C4.5) 38
4.1. Giới thiệu cây quyết ñịnh 38
4.1.1. Khái niệm 38
4.1.2. Các loại cây quyết ñịnh 38
4.1.3. Ví dụ thực hành 39
4.1.4. Xây dựng cây quyết ñịnh 40
4.2. Thuật toán C4.5 và ñặc ñiểm cây quyết ñịnh 41
4.2.1. Thuật toán C4.5 [17] 41 10
BẢNG CÁC TỪ VIẾT TẮT
Thuật ngữ
Ý nghĩa
CBA Classification Based on Association – Phân loại dựa vào sự kết
hợp
CSDL Cơ sở dữ liệu
DM Data mining (Khai phá dữ liệu)
D1 Tập dữ liệu sau khi tiền xử lý
D2 Tập dữ liệu hợp nhất lớp thành 02 lớp A_B và C_D_E từ tập D1
KDD Knowledge Discovery in Database
(Khai phá tri thức từ dữ liệu)
SVM Support Vector Machine (máy véc-tơ hỗ trợ)
TSBD Tài sản bảo ñảm
11
BẢNG CÁC THUẬT NGỮ ANH-VIỆT
Tiếng Anh Tiếng Việt
Association Kết hợp
Classification And Regression
Oversampling Lấy mẫu lên
Pattern evaluation ðánh giá các mẫu
Prediction Dự ñoán
Prediction Model Mô hình dự báo
Random oversampling Lấy mẫu lên ngẫu nhiên
Relative absolute error sai số tương ñối tuyệt ñối
Relative squared error Sai số bình phương tương ñối
Root mean-squared error Căn bậc hai sai số bình phương trung bình
Root relative squared error căn bậc hai sai số bình phương tương ñối
Synthetic Minority Over-
sampling Technique - SMOTE
Kỹ thuật lấy mẫu lên lớp thiểu số nhân tạo
Undersampling Lấy mẫu dưới
12
Chương 1 - TỔNG QUAN KHAI PHÁ TRI THỨC TỪ DỮ LIỆU
VÀ KHAI PHÁ DỮ LIỆU
1.1 Giới thiệu khai phá tri thức từ dữ liệu và khai phá dữ liệu
Hiện nay có nhiều ñịnh nghĩa về khai phá dữ liệu: theo Witten [2] khai phá dữ
liệu là quá trình khai phá các mẫu trong dữ liệu. Quá trình phải là tự ñộng hoặc bán tự
ñộng. Các mẫu khám phá phải có ý nghĩa. Còn theo Dunham[3] thì khai phá dữ liệu là
quá trình tìm kiếm thông tin ẩn chứa trong dữ liệu. Hay ñịnh nghĩa của Roiger thì khai
phá dữ liệu là quá trình tận dụng một hay một số kỹ thuật học máy ñể tự ñộng phân
tích và trích chọn tri thức từ dữ liệu bên trong CSDL.
Tựu chung lại thì khai phá dữ liệu (DM) là phân tích tập dữ liệu quan sát lớn ñể
tìm ra các mối liên hệ hiển nhiên và tổng quát hóa dữ liệu theo các cách ñể hiểu ñược
và có ý nghĩa cho chính dữ liệu. DM là một quá trình khai phá các tri thức mới và các
tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu ñã có. DM chỉ là một bước của
Thông thường một số bước ñược gộp lại với nhau. Ví dụ làm sạch dữ liệu (data
cleaning) và tích hợp dữ liệu có thể ñược gộp với nhau thành giai ñoạn tiền xử lý dữ
liệu (preprocessing) ñể sinh ra một kho dữ liệu (data warehouse). Lựa chọn dữ liệu
(data selection) và biến ñổi dữ liệu (data transformation) có thể ñược gộp lại thành giai
ñoạn hợp nhất dữ liệu, các dữ liệu ñược lựa chọn sẽ ñược biến ñổi ñể tạo thành tập dữ
liệu có ñịnh dạng thống nhất.
KDD là một quá trình lặp. Mỗi khi tri thức khai phá ñược biểu diễn cho người
dùng, các ñộ ño ñánh giá có thể ñược nâng cao, khai phá có thể ñược cải tiến trong
tương lai, dữ liệu mới có thể ñược chọn hoặc biến ñổi trong tương lai, hoặc các nguồn
dữ liệu mới có thể ñược tích hợp nhằm thu ñược các kết quả khác, thích hợp hơn.
Quá trình Data mining
Quá trình khai phá dữ liệu chỉ là một giai ñoạn của khai phá tri thức trong
CSDL. Quá trình này phải ñáng tin cậy và có thể dùng lại ñối với người dùng ít hiểu
biết về Data mining. Do ñó quy trình chuẩn công nghiệp Cross cho khai phá dữ liệu
(CRISP-DM: CRoss Industry Standard Process for Data mining) ñã ñược một số tổ
chức, công ty (SPSS/ISL, NCR, Daimler-Benz, OHRA) hợp tác phát triển và công bố 14
năm 1996. CRISP là một tiến trình chuẩn miễn phí, ñược sử dụng ñể xử lý vấn ñề khai
phá dữ liệu trong thương mại và nghiên cứu [5].
CRISP-DM là một vòng ñời bao gồm 6 giai ñoạn, ñược biểu diễn như hình sau:
Hình 1.2 – Quá trình CRISP-DM.
• Tìm hiểu nghiệp vụ (Business understanding): ñây là giai ñoạn ñầu tiên của quá
trình chuẩn CRISP-DM, cũng có thể ñược hiểu là giai ñoạn tìm hiểu nghiên cứu.
Phát biểu các mục tiêu của dự án và các yêu cầu rõ ràng trong phạm vi yêu
cầu nghiệp vụ hoặc nghiên cứu.
Biến ñổi các mục tiêu và các giới hạn vào các mẫu phát biểu ñịnh nghĩa vấn
ñề của data mining. Chuẩn bị ñưa ra các chiến lược ñể ñạt ñược những mục
ñiểm triển khai phức tạp hơn: thực hiện quá trì khai phá dữ liệu song song trong bộ
phận khác.
1.2 Nhiệm vụ(task) khai phá dữ liệu
Một số bài toán chính mà khai phá dữ liệu thường thực hiện là [6]:
• Mô tả (Description)
• Ước lượng (Estimation)
• Dự ñoán (Prediction)
• Phân lớp (Classification)
• Phân cụm (Clustering)
• Kết hợp (Association)
Bài toán thông dụng nhất trong KPDL là Phân lớp (Classification). Với một tập
các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân
loại sẽ học ra bộ phân loại (classifier) dùng ñể phân các dữ liệu mới vào một trong 16
những lớp (còn gọi là loại) ñã ñược xác ñịnh trước. Nhận dạng cũng là một bài toán
thuộc kiểu Phân loại.
Các giải thuật Tìm luật liên kết (Association Rule) tìm kiếm các mối liên kết
giữa các phần tử dữ liệu, ví dụ như nhóm các món hàng thường ñược mua kèm với
nhau trong siêu thị.
Các kỹ thuật Phân cụm (Clustering) sẽ nhóm các ñối tượng dữ liệu có tính chất
giống nhau vào cùng một nhóm. Mỗi cụm là một tập hợp các ñối tượng dữ liệu giống
nhau và khác với các ñối tượng cụm khác. Phân cụm khác với phân lớp ở chỗ không
có biến ñích cho phân cụm. Phân cụm không cố gắng phân lớp, ước lượng, dự ñoán
giá trị của một biến ñích. Thay vào ñó, các thuật toán phân cụm sẽ tìm các mảng dữ
liệu có quan hệ với nhau tạo thành các nhóm hoặc các cụm.
Mô tả dữ liệu (Description): ñôi khi các nhà nghiên cứu và phân tích thường tìm
các cách ñể mô tả các mẫu và xu hướng của dữ liệu. Các mô hình khai phá dữ liệu có
thể trong suốt. Vì vậy kết quả của mô hình khai phá dữ liệu phải mô tả các mẫu rõ ràng
)( )( −++−
root mean-squared error
n
apap
nn
2
11
)( )( −++−
mean absolute error
n
apap
nn
22
11
|| || −++−
relative squared error
∑
=
−++−
−++−
i
i
n
nn
a
n
a
aaaa
apap
n
nn
−++−
−
+
+
−
correlatinon coeffcient
1
))((
,
−
−−
=
∑
n
aapp
S
SS
S
i
ii
PA
AP
PA
1
ñ
o
ñ
ánh giá mô hình d
ự
ñ
oán.
Trong
ñ
ó,
p
i
là các giá tr
ị
d
ự
ñ
oán c
ủ
a mô hình và
a
i
là các giá tr
ị
th
ự
c t
ế
n b
ậ
c hai sai s
ố
bình ph
ươ
ng trung bình
•
Relative absolute error - sai s
ố
t
ươ
ng
ñố
i tuy
ệ
t
ñố
i
•
Root relative squared error - c
ă
n b
ậ
c hai sai s
ố
bình ph
ươ
ã xây d
ự
ng nh
ư
sau:
Ma tr
ậ
n Confusion:
D
ự
ñ
oán là m
ẫ
u tích
c
ự
c
D
ự
ñ
oán là m
ẫ
u không
tích c
ự
c
M
ẫ
u tích c
ự
c sai (FP) M
ẫ
u tích c
ự
c
ñ
úng (TN) 18
•
T
ỷ
l
ệ
m
ẫ
u tích c
ự
c(Positive)
ñ
úng: TPrate = TP/(TP + FN)
•
T
ỷ
l
•
Giá tr
ị
d
ự
ñ
oán m
ẫ
u tích c
ự
c: PPvalue = TP/(TP + FP)
•
Giá tr
ị
d
ự
ñ
oán m
ẫ
u không tích c
ự
c: NPvalue = TN/(TN + FN)
M
ộ
t s
ố
ĩ
a là recall (R): R = TPrate = TP/(TP + FN)
Giá tr
ị
d
ự
ñ
oán m
ẫ
u tích c
ự
c
ñượ
c
ñị
nh ngh
ĩ
a là precision (P): P =
PPvalue = TP/ (TP + FP). F-measure (F)
ñượ
c
ñề
xu
ấ
t
ñể
k
ế
t h
ộ
t F-measure có giá tr
ị
cao s
ẽ
b
ả
o
ñả
m c
ả
hai giá tr
ị
recall và precision
ñề
u cao.
•
ROC Area: di
ệ
n tích c
ủ
a vùng ROC (Receiver Operating Characteristic)
1.4 Ứng dụng KDD và Datamining
Khai phá d
ữ
li
ệ
u
ñượ
ố
ng thông tin. Tùy theo
b
ả
n ch
ấ
t c
ủ
a t
ừ
ng l
ĩ
nh v
ự
c, vi
ệ
c v
ậ
n d
ụ
ng khai phá d
ữ
li
ệ
u có nh
ữ
ng cách ti
ế
p c
ậ
thu
ậ
t cao [10], nh
ư
tìm ki
ế
m m
ỏ
d
ầ
u t
ừ
ả
nh vi
ễ
n thám, xác
ñị
nh
các vùng gãy trong
ả
nh
ñị
a ch
ấ
t
ñể
d
ự
t
nh
ậ
n d
ạ
ng hay xác su
ấ
t nh
ư
ng
ñượ
c gi
ả
i quy
ế
t v
ớ
i yêu c
ầ
u cao h
ơ
n b
ở
i các k
ỹ
thu
ậ
t
c
ủ
ấ
t trong th
ự
c t
ế
. Các k
ỹ
thu
ậ
t DM
ñ
ã
ñượ
c áp
d
ụ
ng thành công trong vi
ệ
c d
ự
ñ
oán t
ả
i s
ử
d
ụ
ng
ñ
n ph
ẩ
m cho
các nhà s
ả
n xu
ấ
t, giá tr
ị
c
ủ
a s
ả
n ph
ẩ
m trên th
ị
tr
ườ
ng cho các công ty tài chính hay
phân nhóm các khách hàng ti
ề
m n
ă
ng, [10] Ngoài ra, KPDL còn
ñượ
c áp d
ụ
ng cho
ñ
ã mang l
ạ
i nh
ữ
ng hi
ệ
u qu
ả
thi
ế
t th
ự
c cho các ho
ạ
t
ñộ
ng di
ễ
n ra hàng
ngày trong
ñờ
i s
ố
ng [11].
Trong l
ĩ
nh v
ự
c tài chính ngân hàng, data mining
ả
n lý r
ủ
i ro tác nghi
ệ
p, làm s
ạ
ch d
ữ
li
ệ
u, ví d
ụ
[8, 12, 13]:
•
H
ệ
th
ố
ng
ñ
ánh giá r
ủ
i ro tín d
ụ
ng Falcon c
ủ
a HNC inc., s
ử
ng Skicat c
ủ
a JDL, các nhà thiên v
ă
n h
ọ
c s
ử
d
ụ
ng
ñể
xác
ñị
nh và
phân l
ớ
p các
ñố
i t
ượ
ng thiên v
ă
n.
•
H
ệ
th
ố
ñể
phát tri
ể
n các
ứ
ng
d
ụ
ng cho vi
ệ
c Marketing, r
ủ
i ro tín d
ụ
ng, qu
ả
n lý r
ủ
i ro và làm s
ạ
ch d
ữ
li
ệ
u;
•
Công ty StatSoft
ñ
ã s
ñể
t
ạ
o m
ộ
t mô hình cho vi
ệ
c bán
hàng chéo và nâng cao hi
ệ
u qu
ả
c
ủ
a vi
ệ
c bán hàng;
•
Ngân hàng HSBC c
ủ
a M
ỹ
ñ
ã s
ử
d
ụ
ng các công c
ñế
n v
ớ
i khách hàng nhanh h
ơ
n,
Theo k
ế
t qu
ả
th
ă
m dò c
ủ
a Kdnuggets, Data mining
ñượ
c
ứ
ng d
ụ
ng nhi
ề
u nh
ấ
t
trong l
ĩ
nh v
ự
c ngân hàng,
20
Hình 1.3 -
Th
ă
m dò
ứ
ng d
ụ
ng Data mining, 08/2004 c
ủ
a Kdnuggets.Hình 1.4 -
Th
ă
m dò
i vay không th
ể
tr
ả
ñượ
c g
ố
c và/ho
ặ
c lãi
ñ
úng th
ờ
i h
ạ
n quy
ñị
nh (v
ỡ
n
ợ
). Hi
ệ
n nay, các ngân hàng th
ươ
ng
m
ạ
i s
ạ
i n
ợ
hi
ệ
n hành c
ủ
a Ngân hàng Nhà N
ướ
c (NHNN): T
ổ
ch
ứ
c tín d
ụ
ng th
ự
c hi
ệ
n phân lo
ạ
i n
ợ
theo n
ă
m (05) nhóm nh
ư
sau:
a)
ng
thu h
ồ
i
ñầ
y
ñủ
c
ả
g
ố
c và lãi
ñ
úng h
ạ
n;
-
Các kho
ả
n n
ợ
quá h
ạ
n d
ướ
i 10 ngày và t
ổ
ch
ứ
c và lãi
ñ
úng th
ờ
i h
ạ
n còn l
ạ
i;
b)
Nhóm 2 (N
ợ
c
ầ
n chú ý):
-
Các kho
ả
n n
ợ
quá h
ạ
n t
ừ
10 ngày
ñế
n 90 ngày;
-
p, t
ổ
ch
ứ
c thì t
ổ
ch
ứ
c tín d
ụ
ng ph
ả
i có h
ồ
s
ơ
ñ
ánh giá
khách hàng v
ề
kh
ả
n
ă
ng tr
ả
n
ợ
d
ướ
i tiêu chu
ẩ
n):
-
Các kho
ả
n n
ợ
quá h
ạ
n t
ừ
91 ngày
ñế
n 180 ngày;
-
Các kho
ả
n n
ợ
c
ơ
c
ấ
u l
ạ
n
ợ
l
ầ
n
ñầ
u phân lo
ạ
i vào nhóm 2 theo quy
ñị
nh
t
ạ
i ph
ầ
n b
ở
trên;
-
Các kho
ả
n n
ợ
ñượ
c mi
ễ
n ho
ặ
Các kho
ả
n n
ợ
quá h
ạ
n t
ừ
181 ngày
ñế
n 360 ngày;
-
Các kho
ả
n n
ợ
c
ơ
c
ấ
u l
ạ
i th
ờ
i h
ạ
n tr
ả
ñầ
u;
-
Các kho
ả
n n
ợ
c
ơ
c
ấ
u l
ạ
i th
ờ
i h
ạ
n tr
ả
n
ợ
l
ầ
n th
ứ
hai; 22
c
ấ
u l
ạ
i th
ờ
i h
ạ
n tr
ả
n
ợ
l
ầ
n
ñầ
u quá h
ạ
n t
ừ
90 ngày
tr
ở
lên theo th
ờ
i h
ạ
n tr
ả
n
n tr
ả
n
ợ
l
ầ
n th
ứ
hai quá h
ạ
n theo th
ờ
i
h
ạ
n tr
ả
n
ợ
ñượ
c c
ơ
c
ấ
u l
ạ
i l
ầ
n th
c
ả
ch
ư
a
b
ị
quá h
ạ
n ho
ặ
c
ñ
ã quá h
ạ
n;
-
Các kho
ả
n n
ợ
khoanh, n
ợ
ch
ờ
x
ử
lý;
Các nhóm n
ñượ
c phân lo
ạ
i vào m
ộ
t trong
n
ă
m nhóm n
ợ
trên. M
ỗ
i nhóm n
ợ
bi
ể
u di
ễ
n m
ộ
t m
ứ
c
ñộ
r
ủ
i ro c
ủ
a kho
ả
ủ
i ro
c
ủ
a kho
ả
n vay
ñ
ó. Bài toán d
ự
ñ
oán r
ủ
i ro tín d
ụ
ng là vi
ệ
c d
ự
ñ
oán nhóm n
ợ
ñượ
c
phân lo
ạ
i sau ngày
n xu
ấ
t kinh doanh và các thông tin khác liên quan
ñế
n kho
ả
n vay. M
ụ
c
ñ
ích c
ủ
a bài toán là d
ự
a vào các thông tin
ñ
ó
ñể
ñư
a ra d
ự
ñ
oán
nhóm n
ợ
(nhóm 1 hay nhóm A, nhóm 2 hay nhóm B, nhóm 3 hay nhóm C, nhóm 4
hay nhóm D, ho
ặ
ệ
u c
ủ
a m
ộ
t l
ớ
p khách hàng là
doanh nghi
ệ
p và ch
ỉ
ch
ọ
n các kho
ả
n vay có tài s
ả
n b
ả
o
ñả
m c
ủ
a Ngân hàng cho m
ụ
c
ñ
ích nghiên c
ứ
ữ
ng thông tin này c
ủ
a m
ộ
t kho
ả
n vay là r
ấ
t nhi
ề
u. Tuy nhiên tôi ch
ỉ
l
ự
a ch
ọ
n
nh
ữ
ng thông có th
ể
ả
nh h
ưở
ng
ñế
n r
ủ
ả
n vay
ñượ
c s
ử
d
ụ
ng cho bài toán bao g
ồ
m:
2.2.1. Thông tin về khách hàng vay vốn
Nh
ữ
ng thông tin liên quan
ñế
n khách hàng vay v
ố
n bao g
ồ
m: 23
•
Lo
ạ
i hình doanh nghi
ệ
p c
nh/thành ph
ố
khách hàng, ví d
ụ
: thành ph
ố
H
ồ
Chí
Minh, thành ph
ố
Hà n
ộ
i, …
•
Thành ph
ầ
n kinh t
ế
: là thành ph
ầ
n kinh t
ế
c
ủ
a khách hàng, nh
ư
: Kinh t
ế
ð
ánh giá khách hàng: là
ñ
ánh giá c
ủ
a Ngân hàng v
ề
khách hàng, nh
ư
: Khách
hàng
ñặ
c bi
ệ
t, Khách hàng t
ố
t, Khách hàng trung bình,…
•
Khách hàng chi
ế
n l
ượ
c c
ủ
a ngân hàng: là khách hàng chi
ế
n l
ượ
c c
ng:
ñể
phân bi
ệ
t khách hàng có
quan h
ệ
v
ớ
i nhi
ề
u t
ổ
ch
ứ
c tín d
ụ
ng (“Yes”) hay ch
ỉ
có quan h
ệ
tín d
ụ
ng v
ớ
i
Ngân hàng (“No”).
•
Khách hàng v
n
m
ứ
c cho phép c
ủ
a khách hàng (“No”).
2.2.2. Thông tin về phương án sản xuất kinh doanh
Thông tin v
ề
ph
ươ
ng án s
ả
n xu
ấ
t kinh doanh c
ủ
a m
ỗ
i kho
ả
n vay bao g
ồ
m:
•
S
ả
n ph
ứ
ng khoán, cho vay
ñầ
u t
ư
b
ấ
t
ñộ
ng s
ả
n,…
•
Th
ờ
i h
ạ
n c
ủ
a kho
ả
n vay: là th
ờ
i h
ạ
n c
ủ
a kho
ả
ạ
i
ñồ
ng ti
ề
n c
ủ
a kho
ả
n vay: là lo
ạ
i ti
ề
n mà khách hàng nh
ậ
n vay t
ừ
Ngân
hàng, nh
ư
: VN
ð
, USD, EUR, …
•
S
ố
ti
ề
n xin vay: là s
ố
n c
ủ
a khách hàng, nh
ư
chi phí ph
ụ
c v
ụ
s
ả
n xu
ấ
t, tiêu dùng, kinh doanh, … 24
•
Kho
ả
n vay tu
ầ
n hoàn: kho
ả
n vay có ph
ả
i là kho
ả
ñế
n tài s
ả
n b
ả
o
ñả
m bao g
ồ
m:
•
Nhóm TSBD: là nhóm tài s
ả
n
ñượ
c quy
ñị
nh trong h
ệ
th
ố
ng Ngân hàng, nh
ư
:
nhóm máy móc dây chuy
ề
n, nhóm tài s
ả
n b
o
ñả
m
cho kho
ả
n vay nh
ư
: 50%, 70%, 100%.
2.2.4. Thông tin khác
Ngoài các thông tin trên, m
ỗ
i kho
ả
n vay còn có m
ộ
t s
ố
thông tin khác có th
ể
ả
nh h
ưở
ng
ñế
n m
ứ
c
ñộ
r
ã
ñượ
c phân lo
ạ
i sau
ngày
ñ
áo h
ạ
n trong d
ữ
li
ệ
u c
ủ
a Ngân hàng. T
ậ
p d
ữ
li
ệ
u này không ph
ả
n ánh chính xác
toàn b
ộ
d
ữ
li
ệ
ệ
u.
ðặ
c
ñ
i
ể
m c
ủ
a d
ữ
li
ệ
u: T
ỷ
l
ệ
n
ợ
x
ấ
u (n
ợ
nhóm 3, 4 và 5) c
ủ
a Ngân hàng công
th
ươ
ng Vi
ệ
ủ
a t
ừ
ng kho
ả
n vay là khác nhau, nh
ư
ng v
ớ
i
ñặ
c
ñ
i
ể
m trên ta có
th
ể
nh
ậ
n th
ấ
y r
ằ
ng s
ố
kho
ả
n vay có nhóm n
ợ
ậ
p d
ữ
li
ệ
u c
ủ
a bài toán s
ẽ
là
d
ữ
li
ệ
u không cân b
ằ
ng (imbalanced data).
Bài toán d
ự
ñ
oán r
ủ
i ro tín d
ụ
ng ph
ả
i x
ử
lý trên t
ệ
u không cân b
ằ
ng.
25
Chương 3 - XỬ LÝ DỮ LIỆU DỰ ðOÁN RỦI RO TÍN DỤNG
3.1. Tiền xử lý dữ liệu
D
ữ
li
ệ
u
ñượ
c s
ử
d
ụ
ng
ñể
khai phá d
ữ
li
ệ
u th
ườ
ng
ñượ
ệ
u có
th
ể
khác nhau.
ð
i
ề
u
ñ
ó d
ẫ
n
ñế
n d
ữ
li
ệ
u có th
ể
không
ñầ
y
ñủ
, nhi
ễ
u ho
ặ
c mâu thu
ẫ
a,
•
Các giá tr
ị
thi
ế
u,
•
Outliers,
•
D
ữ
li
ệ
u trong m
ộ
t bi
ể
u m
ẫ
u không thích h
ợ
p cho các mô hình khai phá d
ữ
li
ệ
u,
ệ
u.
Vì v
ậ
y
ñể
nâng cao
ñộ
chính xác c
ủ
a khai phá d
ữ
li
ệ
u, chúng ta ph
ả
i th
ự
c hi
ệ
n ti
ề
n x
ử
lý d
ữ
li
ệ
u nh
ử
lý d
ữ
li
ệ
u chi
ế
m kho
ả
ng 60% trên t
ổ
ng th
ờ
i gian c
ủ
a c
ả
quá trình khai phá d
ữ
li
ệ
u [16].
3.1.1. Công việc tiền xử lý dữ liệu
Quá trình ti
ề
n x
ử
lý d
ữ
ờ
i r
ạ
c hóa d
ữ
li
ệ
u (Data discretization).
Hình 3.1 –
Mô ph
ỏ
ng các công vi
ệ
c ti
ề
n x
ử
lý d
ữ
li
ệ
u.
26
•
Làm sạch dữ liệu
Trong th
a d
ữ
li
ệ
u k
ế
t h
ợ
p l
ạ
i; d
ữ
li
ệ
u nhi
ễ
u g
ồ
m l
ỗ
i ho
ặ
c outlier; d
ữ
li
ệ
u mâu
thu
ẫ
n nh
ch d
ữ
li
ệ
u bao g
ồ
m m
ộ
t s
ố
các công vi
ệ
c nh
ư
sau:
Xử lý các giá trị thiếu
: có r
ấ
t nhi
ề
u ph
ươ
ng pháp
ñể
x
ử
lý các giá tr
ị
thi
ế
ị
trung bình c
ủ
a thu
ộ
c tính cho t
ấ
t c
ả
các ví d
ụ
thu
ộ
c cùng m
ộ
t
l
ớ
p
•
S
ử
d
ụ
ng giá tr
ị
có th
ể
x
ộ
c tính l
ươ
ng
c
ủ
a ng
ườ
i có
ñộ
tu
ổ
i x và trình
ñộ
y d
ự
a trên các d
ữ
li
ệ
u khác hi
ệ
n có?
Tìm ra dữ liệu nhiễu:
•
S
ử
d
ụ
ả
n ghi n
ằ
m ngoài m
ộ
t c
ụ
m
b
ấ
t k
ỳ
c
ủ
a t
ậ
p d
ữ
li
ệ
u.
•
H
ồ
i quy: s
ử
d
ụ
ng các hàm h
ế
p vào 3 bin có kích th
ướ
c b
ằ
ng
nhau.
B
ướ
c 2: làm ph
ẳ
ng b
ằ
ng các giá tr
ị
trung bình/
ñườ
ng biên c
ủ
a bin
gi
ả
m các giá tr
ị
riêng bi
ệ
t và tránh outlier
ñườ
ng biên ta có:
Bin 1: 4, 4, 15
Bin 2: 21, 21, 24
Bin 3: 25, 25, 34
•
Concept Hierarchy: ví d
ụ
bi
ể
u di
ễ
n các giá tr
ị
s
ố
c
ủ
a tr
ườ
ng tu
ổ
i là tr
ẻ
, trung
niên và già.
ự
c vi
ệ
c lo
ạ
i b
ỏ
các outlier, ng
ườ
i ta th
ườ
ng s
ử
d
ụ
ng các
ph
ươ
ng pháp:
S
ử
d
ụ
ng bi
ể
u
ñồ
d
ữ
ñ
ây:
Hình 3.2 -
Minh h
ọ
a phân c
ụ
m d
ữ
li
ệ
u
H
ồ
i quy: tìm
ñườ
ng
ñ
i
ề
u ch
ỉ
nh t
ố
t nh
ấ
t cho các
ñườ
ng
ñ
i
ề
u ch
ỉ
nh t
ố
t nh
ấ
t cho d
ữ
li
ệ
u hi
ệ
n t
ạ
i, t
ừ
ñ
ó s
ẽ
nh
ậ
n th
ấ
y 3
ng các ph
ụ
thu
ộ
c hàm
ñ
ã bi
ế
t: ví d
ụ
item# -> Item
-
Duy
ệ
t l
ạ
i tích h
ợ
p d
ữ
li
ệ
u, vì có th
ể
m
ộ
t s
ố
mâu thu
y t
ừ
nhi
ề
u ngu
ồ
n khác nhau, nên có th
ể
:
-
Cùng khái ni
ệ
m nh
ư
ng khác tên thu
ộ
c tính
-
Cùng giá tr
ị
nh
ư
ng bi
ể
u di
ễ
n khác nhau
-
i tích h
ợ
p d
ữ
li
ệ
u
ñể
h
ợ
p nh
ấ
t các ngu
ồ
n khác nhau vào m
ộ
t kho,
th
ườ
ng là data warehouse. Các ph
ươ
ng pháp th
ườ
ng
ñượ
c s
ử
d
ụ
ng là:
khác)
•
Bi
ế
n
ñổ
i d
ữ
li
ệ
u
-
Ph
ạ
m v
ị
các giá tr
ị
c
ủ
a các thu
ộ
c tính (
ñặ
c tính) khác nhau, d
ẫ
n
ñế
u trong m
ộ
t dãy nh
ư
[0
1], [-1 1] ng
ă
n c
ả
n các thu
ộ
c có nhi
ề
u giá tr
ị
h
ơ
n v
ớ
i m
ộ
t ph
ạ
m vi l
ớ
n. ví d
ụ
“l
ươ
ñượ
c s
ử
d
ụ
ng là:
-
Co dãn giá tr
ị
d
ữ
li
ệ
u vào m
ộ
t dãy b
ằ
ng vi
ệ
c s
ử
d
ụ
ng m
ộ
t s
ố
ph
ươ
li
ệ
u ch
ỉ
ñị
nh m
ớ
i (c
ụ
th
ể
0-1).
min')min'(max'
min
max
min
'
+−
−
−
=
y
y
Giá tr
ị
nh
ỏ
nh
ấ
ớ
i giá tr
ị
l
ớ
n nh
ấ
t m
ớ
i, max’; y là giá tr
ị
ban
ñầ
u và y’ là giá tr
ị
m
ớ
i
Ví d
ụ
: gi
ả
s
ử
giá tr
ị
c
ũ
ñượ
ẩ
n hóa d
ữ
li
ệ
u Z-Score: h
ữ
u ích khi min và max không bi
ế
t ho
ặ
c outlier tr
ộ
i
h
ơ
n giá tr
ị
min-max. M
ụ
c
ñ
ích là h
ầ
u h
ế
t d
ữ
li
ệ
ệ
u n
ằ
m kho
ả
ng 50
ñế
n 100, nh
ư
ng ta có m
ộ
t vài
ñ
i
ể
m d
ữ
li
ệ
u ngoài dãy
ñ
ó, z-score s
ẽ
nén h
ầ
u h
ế
t d
ữ
li
ố
ch
ữ
s
ố
c
ủ
a giá tr
ị
l
ớ
n nh
ấ
t
Y’=y/10
n
Ví d
ụ
: X=900 là giá tr
ị
l
ớ
n nh
ấ
t -> n=3 => 900 co l
ạ
i thành 0.009
•
u qu
ả
và phân tích khó.
-
Gi
ả
i pháp: Rút g
ọ
n d
ữ
li
ệ
u
ñể
rút g
ọ
n t
ậ
p d
ữ
li
ệ
u l
ớ
n thành bi
ể
u di
ễ
n nh
ễ
n nh
ỏ
h
ơ
n, m
ộ
t s
ố
ph
ươ
ng pháp th
ườ
ng
ñượ
c s
ử
d
ụ
ng là:
K
ế
t h
ợ
p d
ữ
li
ệ
u (cube d
30
-
Chuy
ể
n d
ữ
li
ệ
u s
ố
(liên t
ụ
c) thành các giá tr
ị
rõ ràng
-
M
ộ
t s
ố
thu
ậ
t toán data mining ch
ỉ
ch
ấ
p nh
li
ệ
u cho bài toán d
ự
ñ
oán r
ủ
i ro tín d
ụ
ng.
T
ậ
p d
ữ
li
ệ
u c
ủ
a bài toán
ñượ
c l
ấ
y t
ừ
m
ộ
t ngu
ồ
n (m
t b
ả
ng d
ữ
li
ệ
u g
ồ
m 32,393 b
ả
n ghi các
kho
ả
n vay. M
ỗ
i b
ả
n ghi g
ồ
m 19 tr
ườ
ng, trong
ñ
ó tr
ườ
ng
chỉ báo nợ
là thu
ộ
c tính c
ch
ứ
a r
ấ
t nhi
ề
u giá tr
ị
s
ố
khác nhau.
ð
i
ề
u này làm
ả
nh h
ưở
ng
ñế
n ch
ấ
t l
ượ
ng d
ữ
li
ệ
u và k
ế
ủ
a d
ự
li
ệ
u trong ho
ạ
t
ñộ
ng kinh
doanh c
ủ
a ngân hàng trong th
ự
c t
ế
, tôi
ñ
ã chuy
ể
n t
ậ
p giá tr
ị
s
ố
sang t
ậ
p giá tr
ị
n, TH – trung h
ạ
n và DH – dài h
ạ
n. Trong
ñ
ó,
NH là các kho
ả
n vay có th
ờ
i h
ạ
n d
ướ
i ho
ặ
c b
ằ
ng 12 tháng; TH là các kho
ả
n vay có
th
ờ
i h
ạ
n l
ớ
n h
ơ
khác
nhau trong t
ậ
p d
ữ
li
ệ
u và s
ố
b
ả
n ghi thi
ế
u giá tr
ị
là 7. Các b
ả
n ghi thi
ế
u giá tr
ị
thu
ộ
c
tính Thành ph
ầ
n kinh t
ế
ñề
ả
n ghi thi
ế
u giá tr
ị
thu
ộ
c tính này.
Hình 3.4 -
Giao di
ệ
n weka phân tích thu
ộ
c tính Thành ph
ầ
n kinh t
ế
(TPKT).