TRƯỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN
--------------
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
PHÂN LOẠI KHẢ NĂNG TIẾP CẬN
VỐN TÍN CHẤP CỦA KHÁCH HÀNG
TRÊN ĐỊA BÀN TỈNH HẬU GIANG
Giáo viên hướng dẫn
Ts. Võ Văn Tài
Sinh viên thực hiện
Nguyễn Thị Cẩm Linh
Mssv: 1117481
Ngành: Toán Ứng Dụng K37
Cần Thơ – 5/2015
LỜI CẢM ƠN
Trên thực tế không có sự thành công nào mà không gắn liền với những sự
hổ trợ, giúp đở dù ít hay nhiều, dù trực tiếp hay gián tiếp. Trong suốt quá trình
học tập trên giãng đường đại học em đã nhận được rất nhiều sự quan tâm, giúp đở
của quý Thầy Cô, gia đình và bạn bè.
Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý thầy cô ở khoa Khoa học
Tự Nhiên – Trường Đại học Cần Thơ đã cùng với tri thức và tâm huyết của mình
để truyền đạt vốn kiến thức quý báu cho chúng em trong suốt quá trình học tập tại
PHÁP FISHER ............................................................................................... 4
1.1 HỒI QUY LOGISTIC ĐƠN ......................................................................... 4
1.1.1 Số chênh và tỷ số của số chênh ............................................................... 4
1.1.2 Mô hình ................................................................................................... 4
1.1.3 Xây dựng mô hình hồi quy mẫu ............................................................. 5
1.2 HỒI QUY LOGISTIC BỘI ........................................................................... 6
1.2.1 Mô hình ................................................................................................... 6
1.2.2 Xây dựng mô hình hồi quy mẫu ............................................................. 6
1.2.3 Ý nghĩa hệ số của hồi quy ....................................................................... 7
1.2.4 Vấn đề phân loại ..................................................................................... 8
1.2.5 Vấn đề tính toán ...................................................................................... 8
1.2.6 Một số vấn đề khác trong xây dựng mô hình hồi quy logistic ................ 9
1.3 PHƯƠNG PHÁP FISHER .......................................................................... 11
1.3.1 Trường hợp hai tổng thể........................................................................ 11
1.3.2 Trường hợp nhiều hơn 2 tổng thể ......................................................... 12
1.3.3 Vấn đề tính toán .................................................................................... 14
Chương 2: PHÂN LOẠI BẰNG PHƯƠNG PHÁP BAYES ......................... 17
2.1 TRƯỜNG HỢP HAI TỔNG THỂ .............................................................. 17
2.1.1 Khi quan tâm đến xác suất tiên nghiệm ................................................ 17
2.1.2 Khi ta không quan tâm đến xác suất tiên nghiệm hoặc xác suất tiên
nghiệm bằng nhau .......................................................................................... 18
2.2 TRƯỜNG HỢP NHIỀU HƠN HAI TỔNG THỂ ....................................... 18
2.2.1 Khi quan tâm đến xác suất tiên nghiệm ................................................ 18
2.2.2 Hàm phân biệt khi biến quan sát có phân phối chuẩn .......................... 19
ii
2.3 SAI SỐ BAYES .......................................................................................... 19
2.3.1 Trường hợp hai tổng thể........................................................................ 19
2.3.2 Trường hợp nhiều hơn hai tổng thể ...................................................... 20
Bảng 3.3. Bảng phân tích hồi quy Logistic cho 9 biến. ........................................ 47
Bảng 3.4. Tổng hợp các trường hợp phân loại bằng phương pháp Logistic ........ 48
Bảng 3.5. Các bảng phân tích hồi quy Logistic cho 3 biến X2, X5, X7. ............. 48
Bảng3.6. Tổng hợp các trường hợp phân loại bằng phương pháp Fisher. ........... 52
Bảng 3.7. Phân loại bằng phương pháp Fisher cho 2 biến H và N. ...................... 53
Bảng 3.8. Bảng tổng hợp sai số các trường hợp phân loại. .................................. 56
Bảng 3.9. Bảng tổng hợp khả năng phân loại đúng của 3 phương pháp. ............. 57
iv
PHẦN MỞ ĐẦU
1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI
TRONG VÀ NGOÀI NƯỚC
1.1 Ngoài nước
Bài toán phân loại lần đầu tiên được đưa ra bởi Fisher (1936) giải quyết cho
trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher. Hàm phân biệt này
chỉ được thiết lập khi ma trận hiệp phương sai của hai tổng thể bằng nhau. Năm
1948, Rao đã mở rộng cho trường hợp nhiều hơn hai tổng thể, nhưng cũng trên cơ
sở giả thiết ma trận hiệp phương sai các tổng thể bằng nhau. Một phương pháp
khác, đó là phương pháp thống kê tuần tự do Kendall (1973) đề nghị. Nhưng đây
chỉ là phương pháp mang tính chất thủ công, rất phức tạp mà thực tế gần như
không thể thực hiện được. Một số khía cạnh liên quan của bài toán phân loại đề
cập cho đến 1970 khi mà máy tính chưa được phát triển. Rất nhiều tài liệu trong
đó có Fukunaga (1990), McLachlan (1992), Webb (2002), đã tổng kết những kết
quả đạt được của bài toán phân loại. Trong các tài liệu này hồi quy logistic được
đề cập như một phương pháp phân loại hiệu quả. Dựa vào thống kê Bayes,
phương pháp phân loại Bayes đã ra đời. Phương pháp này cho đến hiện tại được
xem có nhiều ưu điểm nhất vì đã giải quyết được yêu cầu đặt ra của bài toán phân
loại. Tìm ra thuật toán, đồng thời đưa ra biểu thức tính sai số phân loại. Hiện nay
đóng góp quan trọng đối với sự phát triển đội ngũ doanh nghiệp góp phần đẩy
nhanh tiến trình công nghiệp hóa hiện đại hóa đất nước. Trong cung cấp tín dụng
chúng ta có một hình thức vay có nhiều ưu điểm nhưng chưa được đẩy mạnh hiện
nay đó là vay tín chấp. Nhằm giúp ngân hàng có một cách nhìn tổng thể hơn các
yếu tố ảnh hưởng đến khả năng tiếp cận vốn vay tín chấp em chọn đề tài: Đánh
giá các yếu tố ảnh hưởng đến khả năng tiếp cận vốn vay tín chấp trên địa bàn
tỉnh Hậu Giang qua mô hình bài toán phân loại.
3. MỤC TIÊU ĐỀ TÀI
Tổng hợp các phương pháp phân loại, vấn đề tính toán với số liệu lớn để áp
dụng cụ thể trong lĩnh vực ngân hàng. Đánh giá các yếu tố ảnh hưởng đến khả
năng tiếp cận vốn vay tín chấp.
4. PHƯƠNG PHÁP NGHIÊN CỨU
Tổng hợp tài liệu về các phương pháp phân loại, phân tích, vận dụng
giải quyết vấn đề của thực tế với số liệu lớn.
Sử dụng phần mềm thống kê SPSS, phần mềm Matlab thực hiện việc
xử lý số liệu và tính toán.
Sử dụng các tiêu chuẩn xác suất sai lầm trong phân loại để lựa chọn
mô hình phù hợp nhất.
2
5. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
a) Đối tượng nghiên cứu
Các phương pháp phân loại và ứng dụng trong ngân hàng.
b) Phạm vi nghiên cứu
Vấn đề tính toán của các phương pháp phân loại và các số liệu thứ cấp
thu thập được về vấn đề vay tín chấp.
6. CẤU TRÚC CỦA LUẬN VĂN
Chương 1: Phân loại bằng phương pháp logistic và phương pháp Fisher
Trình bày các mô hình và các vấn đề liên quan đến phương pháp hồi quy
Hồi quy Logistic được xây dựng trên nền tảng các mô hình hồi quy phổ
biến, đặc biệt là hồi quy tuyến tính.
1.1.1 Số chênh và tỷ số của số chênh
Định nghĩa 1.1 Số chênh của một biến cố xảy ra được định nghĩa là tỷ số
giữa xác suất của biến cố xảy ra với xác suất của biến cố đó không xảy ra.
Kí hiệu: Số chênh của biến cố A được kí hiệu là odds A .
Như vậy odds A
P A
.
1 P A
Định nghĩa 1.2 Tỷ số của số chênh hai biến cố A và B đã xảy ra là tỷ số
của odds A và odds B . Kí hiệu: OR A, B .
Như vậy OR A, B
odds A
P A 1 P B
.
.
odds B 1 P A P B
Nhận xét: Số chênh của một biến cố đã xảy ra là con số so sánh số lần xác
suất xảy ra và không xảy ra của một biến cố. Trong khi đó OR A, B là số so
sánh số lần của odds A và odds B .
1.1.2 Mô hình
Xét hai biến X , Y trong đó Y là biến phụ thuộc chỉ nhận giá trị 0 và 1, X là
biến độc lập.
4
1.1.3 Xây dựng mô hình hồi quy mẫu
Giả sử ta có n mẫu quan sát ( xi , pi ), i 1, n, pi pi ( x) . Giả sử phân phối
điều kiện của
yi khi xi xảy ra là phân phối nhị thức B(1, pi ) với
p
ln i 0 1 xi .
1 pi
Gọi ˆ0 , ˆ1 lần lượt là ước lượng hợp lí cực đại của 0 , 1 . Đường hồi quy mẫu
p ( x) ˆ
ˆ
ln
0 1 x
1
p
(
x
)
Ta suy ra
ˆ
p( x)
ˆ
L( ˆ0 , ˆ1 ) p (1 pi )
i 1
n
i 1
n
ˆ
ˆ
e y x y
0 i
1 i i
1 e
i 1
ˆ ˆ x
0
1 i
yi
1 y
n
n
exp ˆ0 yi ˆ1 xi yi
i 1
i 1
n
ˆ
ˆ
1 e x
i 1
5
0
1 i
1 i
Suy ra để tìm ˆ0 , ˆ1 ta cần giải hệ
1 i
(1.3)
Việc giải hệ (1.3) rất phức tạp, nên thực tế tính toán người ta sử dụng phần
mềm hỗ trợ để tìm ˆ , ˆ .
0
1
1.2 HỒI QUY LOGISTIC BỘI
1.2.1 Mô hình
Xét biến phụ thuộc Y và k biến độc lập X1 , X 2 ,..., X k , trong đó Y chỉ nhận
hai giá trị 0 và 1 còn giá trị của X i ảnh hưởng đến giá trị của Y . Đặt
X X1 , X 2 ,..., X k , gọi P X P Y 1 X là xác suất điều kiện của Y 1 khi
X xảy ra. Giả sử P X có quan hệ tuyến tính với biến X bởi biểu thức
k
P X
ln
0 i X i
i 1
1 P X
hay
k
exp ˆ0 ˆij xij
1
j 1
,1 p
pi
i
k
k
1 exp ˆ0 ˆij xij
1 exp ˆ0 ˆij xij
j 1
j 1
Hàm hợp lý cho n quan sát trên là
y
k
ˆ
ˆ
ˆ
1 exp 0 ij xij
j 1
Suy ra ˆ j , j 0,1,..., k là nghiệm của hệ phương trình
1
n
n
k
ˆ
yi 1 exp 0 ˆij xij
i 1
j 1
i 1
0
i 1
j 1
i 1
1.2.3 Ý nghĩa hệ số của hồi quy
Xét mô hình
ln(Y ) 0 1 X 1 2 X 2 ... k X k
Thực hiện đạo hàm riêng theo biến x j trong mô hình (1.4) ta có
Y
ln Y
j
Y
X j
X j
Chúng ta có thể tính xấp xỉ như sau:
Y
j
ln Y
Y
X j
X j
exp( ˆ0 ˆ j x j )
j 1
k
1 exp( ˆ0 ˆ j x j )
j 1
k
1 p 1
exp( ˆ0 ˆ j x j )
j 1
k
1 exp( ˆ0 ˆ j x j )
j 1
1
k
1 exp( ˆ0 ˆ j x j )
.
j 1
nợ ta nhấp Predict value trong hộp thoai Save.
1.2.6 Một số vấn đề khác trong xây dựng mô hình hồi quy logistic
a) Lựa chọn biến
Việc lựa chọn biến để xây dựng mô hình hồi quy là rất quan trọng. Trong
một nghiên cứu thông thường với một biến số phụ thuộc, có nhiều biến số độc
lập, giữa một biến độc lập và một biến phụ thuộc cũng có thể có nhiều mô hình
hồi quy khác nhau được thiết lập. Như vậy một vấn đề dự báo bằng mô hình hồi
quy sẽ có nhiều mô hình khác nhau có thể được thiết lập. Trong các mô hình thiết
lập, mô hình nào được xem là phù hợp nhất? Mô hình đơn giản, ít biến và có một
hoặc nhiều tiêu chuẩn đánh giá đã trình bày ở trên tốt nhất sẽ được chọn. Để làm
việc này ta thường dùng phương pháp phân tích hồi quy bậc thang. Hai nguyên
tắc xây dựng hồi quy bậc thang thường được sử dụng là
Nguyên tắc lùi: Bắt đầu với mô hình hồi quy có chứa tất cả các biến độc
lập. Sau đó lần lượt loại trừ dần từng biến( dựa trên các tiêu chuẩn đánh giá) cho
đến khi tìm được mô hình thích hợp.
Nguyên tắc tiến: bắt đầu với mô hình một biến sau đó lần lượt thêm dần
từng biến một cho đến khi tìm được mô hình thích hợp.
Đề tài lựa chọn biến theo nguyên tắc lùi, biến bị loại khỏi mô hình khi
không có ý nghĩa thống kê.
9
b) Khắc phục đa cộng tuyến trong xây dựng mô hình hồi quy
i) Khái niệm
Khi xây dựng mô hình hồi quy, để đường hồi quy có kết quả cao chúng ta
phải giả sử các biến độc lập không có tương quan với nhau, nghĩa là mỗi biến
chứa đựng một số thông tin riêng về biến phụ thuộc Y và thông tin đó không có
trong biến độc lập khác. Khi đó mỗi hệ số hồi quy cho ta biết ảnh hưởng của từng
biến độc lập đối với biến phụ thuộc. Nếu như điều kiện này bị vi phạm ta sẽ được
ii) Cách phát hiện
Hiện tại có nhiều cách khác nhau để phát hiện đa công tuyến như sử dụng độ đo
Theil, sử dụng nhân tố phóng xạ phương sai, hồi quy phụ, hệ số tương quan cặp.
Chúng ta chưa thể khẳng định phương pháp nào là tốt hơn. Luận văn này sử dụng
phương pháp tính hệ số tương quan cặp, một phương pháp có thể nói phổ biến
nhất hiện nay. Thông thường nếu hệ số tương quan cặp giữa các biến giải thích
cao (thông thường lớn hơn 0.8 ) thì có khả năng tồn tại đa cộng tuyến là rất cao.
10
iii) Khắc phục hiện tượng đa cộng tuyến
Về mặt lý thuyết để khắc phục hiện tượng đa cộng tuyến ta có các phương
pháp: Sử dụng thông tin tiên nghiệm, loại trừ biến độc lập ra khỏi mô hình, thu
thập thêm số liệu hoặc lấy mẫu mới, lấy sai phân,… Các tài liệu cũng đã khẳng
định chưa có phương pháp nào được xem là tối ưu. Trong thực hành người ta
thường sử dụng phương pháp đơn giản: loại trừ biến độc lập ra khỏi mô hình.
Phương pháp này được thực hiện như sau:
Bước 1: Xem cặp biến độc lập nào có quan hệ chặt chẽ với nhau. Giả sử
X1 , X 3 ,..., X p là các biến độc lập, Y là biến phụ thuộc và X 2 , X 3 có tương quan
chặt chẽ với nhau.
Bước 2: Tính R 2 đối với các hàm hồi quy: có mặt cả hai biến và không có
mặt một trong hai biến.
Bước 3: Ta loại biến mà giá trị R 2 tính được khi không có mặt biến đó là
lớn hơn.
1.3 PHƯƠNG PHÁP FISHER
1.3.1 Trường hợp hai tổng thể
Xét trong trường hợp 2 tổng thể w1 và w2 với biến quan sát x có n chiều.
Gọi 1 và 2 là trung bình của w1 và w2 theo biến x .
Giả sử ma trận hiệp phương sai
l
T
1 l T 2
2
lT l
l T 1 2 1 2 l
.
lT l
T
đạt giá trị cực đại. Fisher đã đưa ra kết quả cụ thể l c 1 1 2 với c 0.
11
Chọn c 1 ta có hàm phân biệt tuyến tính Fisher:
y 1 2
T
m
1 k
i là véc tơ trung bình chung của các tổng thể theo biến x .
k i 1
Đặt y l T x , khi đó
μiy l T i là trung bình của wi theo biến y ,
y
1 k
iy l T là véc tơ trung bình chung của các tổng thể theo
k i 1
biến y , σ y2 l T l là phương sai giống nhau của các tổng thể theo biến y .
Tương tự như trường hợp 2 tổng thể, để tìm hàm phân biệt tuyến tính y ,
chúng ta tìm l để biểu thức sau đạt giá trị lớn nhất:
k
i 1
k
μ
iy
1
B0 . Với giá trị riêng i , Fisher chứng minh rằng biểu thức trên đạt
1
( Σ B0 λi I )li 0
giá trị lớn nhất khi vectơ li thỏa: T
li Σ li 1
Khi đó yi liT x , i s được gọi là hàm phân biệt thứ i .
Giả sử có r hàm phân biệt Fisher vừa tìm ở trên thì khoảng cách từ
Y y tới μiy là
s
hi ( y) ( y μiy )2 l Tj x i
2
j 1
Việc phân loại phần tử mới có giá trị y theo phương pháp Fisher được thực
hiện rất tự nhiên.
Xếp phần tử mới vào tổng thể w j nếu bình phương khoảng cách từ y tới
μ jy nhỏ hơn bình phương khoảng cách từ y tới μiy với mọi i j.
hay h j ( y) hi ( y) i j .
Gọi x là biến quan sát của phần tử mới, ta có
1.3.3 Vấn đề tính toán
Cho cặp biến ngẫu nhiên X i và X k có hàm mật độ xác suất đồng thời
fik xi , xk . Đại lượng đo lường mối liên hệ tuyến tính giữa X i và X k là hiệp
phương sai ik . Ta có
ik E ( X i i ) ( X k k )
Cụ thể:
i) Nếu X i , X k là biến ngẫu nhiên rời rạc có thể nhận các giá trị lần lượt là
xi1 , xi2 ,..., xin và xk1 , xk2 ,..., xkm thì
ik xij ij xkh kh pik xij , xkh
n
m
j 1 h 1
ii) Nếu X i , X k là biến ngẫu nhiên liên tục với hàm mật độ xác suất
fik xi , xk thì
ik
x x
i
p1 p 2 pp
Trong thực tế, ta chỉ có mẫu dữ liệu rời rạc của các tổng thể mà không có số liệu
tổng thể. Vì vậy các tham số của tổng thể được ước lượng bằng các tham số mẫu.
14
i) Giả sử chúng ta có một mẫu trong
n
với kích thước n . Trong đó, phần
tử mẫu thứ j là véc tơ cột x j , j 1, 2,..., n. Gọi x là véc tơ cột trung bình và S
là ma trận hiệp phương sai của số liệu mẫu. Ta có
x
1 n
1 n
x
,
S
k
iii) Trong thực hành, chúng ta sẽ thay thế trung bình tổng thể i bằng trung
bình mẫu x i ; ma trận hiệp phương sai
bởi ma trận hiệp phương sai gộp của
các tổng thể S .
Hiện tại các phần mềm thống kê như SPSS, R, Eview,… cũng có các gói
phân loại bằng phương pháp Fisher. Sử dụng phần mềm SPSS để thực hiện phân
loại theo phương pháp Fisher, chúng ta làm như sau:
Bước 1: Vào menu Analyze Classify Discriminant… Khi đó, hộp
thoại Discriminant Analysis sẽ xuất hiện.
Bước 2: Đưa biến phụ thuộc (y) vào khung Grouping Variable. Kích vào
nút Define Range, điền số 0 cho ô Minimum, và điền số 1 cho ô Maximum, xong
chọn Continue. Đưa tiếp 1 biến hay 1 khối biến cần xét vào ô Independents.
Bước 3: Vào tùy chọn Statistics check chọn các phần: Means, Fisher’s,
Within groups–covariance, Total covariance,… Để hiển thị các trung bình từng
tổng thể, các hệ số của các hàm phân biệt Fisher, các ma trận hiệp phương sai và
ma trận hiệp phương sai gộp. Xong ta chọn Continue.
Bước 4: Vào tùy chọn Classify chọn Summary table. Nếu muốn vẽ các
đồ thị thì độc giả kích chọn thêm các phần Plots. Xong ta chọn continue.
15
Bước 5: Vào tùy chọn Save check chọn các phần: Predicted group
qi fi x
, i 1, 2
f x
(2.2)
i 1
trong ú
qi P(wi ) l xỏc sut tiờn nghim ca tng th wi , q1 q2 1 ,
fi x f x | wi l hm mt xỏc sut ca tng th wi ,
f ( x) q1 f1 ( x) q2 f 2 ( x) l hm mt xỏc sut kt hp.
Th (2.2) vo (2.1) v do f ( x) ging nhau cho 2 v bt ng thc, nờn quy
lut (2.1) tr thnh:
Neỏu q1 f1 (x) > q2 f2 (x) thỡ xeỏp x vaứo w1 , ngửụùc laùi xeỏp x vaứo w2 .
(2.3)
Nguyờn tc (2.3) cú th vit li di dng:
Neỏu l x =
f1 x q2
> thỡ xeỏp x vaứo w1 , ngửụùc laùi xeỏp x vaứo w2 .
f2 x q1
x
s c xp vo tng th th i nu:
P(wi | x) P(w j | x) , i j
(2.5)
p dng nh lý Bayes thỡ (2.5) tr thnh
qi fi x q j f j x
fi x q j
f j x qi
trong ú
qi P(wi ) : Xỏc sut tiờn nghim ca tng th th i ,
fi x : Hm mt xỏc sut ca tng th th i .
18
(2.6)
2.2.2 Hàm phân biệt khi biến quan sát có phân phối chuẩn
là ma trận hiệp phương sai.
Khi đó hàm phân biệt di x được xác định như sau:
1
1
n
T
di x ln i x i i1 x i ln 2 ln qi
2
2
2
n
Vì ln 2 giống nhau cho các hàm phân biệt vì vậy ta có thể bỏ số hạng
2
này, khi đó hàm phân biệt trên trở thành:
1
1
T
di x ln i x i i1 x i ln qi
2
2
Trong trường hợp các tổng thể có ma trận hiệp phương sai giống nhau thì
hàm phân biệt trở thành:
1
di x Tj 1 x Tj 1 j ln qi
2
2.3 SAI SỐ BAYES
(2.7)
Khi quan tâm đến xác suất tiên nghiệm q của w1 thì 1 trở thành 1* và 2
trở thành 2* với
1*
qf1 ( x)dx và 2 (1 q) f2 ( x)dx
*
R2n*
R1n*
trong đó R1n* x | qf1 ( x) (1 q) f 2 ( x) , R2n* x | qf1 ( x) (1 q) f 2 ( x)
Đặt (q) (q, 1 q) , khi đó sai số Bayes xác định bởi
Pe( q ) τ1* 2*
(2.8)
*
*
1 và 2 ; 1 và 2 được gọi chung là hai thành phần của sai số Bayes.
2.3.2 Trường hợp nhiều hơn hai tổng thể
a) Định nghĩa
Sai số Bayes trong phân loại k tổng thể được định nghĩa bởi biểu thức
k
Pe1,2,...,
k 1 Pc1,2,..., k .
20