Thử nghiệm phân tích thống kê hoạt động kinh doanh của công ty tài chính việt - Pdf 10

Thử nghiệm phân tích thống kê hoạt động
kinh doanh của Công ty Tài Chính Việt

Chu Thị Hồng Đăng

Trường Đại học Khoa học Tự nhiên
Luận văn Thạc sĩ ngành: Lý thuyết xác suất và thống kê; Mã số: 60 46 15
Người hướng dẫn: PGS.TS Hồ Đăng Phúc
Năm bảo vệ: 2012

Abstract: Trình bày một số kiến thức chuẩn bị về xác suất: phần tử ngẫu nhiên và
phân phối xác suất; một số đặc trưng của đại lượng ngẫu nhiên; một số phân phối
thường gặp. Nghiên cứu quá trình ngẫu nhiên: một số quá trình ngẫu nhiên thường
gặp. Giới thiệu về hồi quy Poisson. Mô hình hồi quy Poisson tổng quát. Phân tích hoạt
động tín dụng tiêu dùng.

Keywords: Toán học; Phân tích thống kê; Hoạt động kinh doanh; Công ty Tài chính
Việt

Content
1. Một số kiến thức chuẩn bị về xác suất
1.1. Phần tử ngẫu nhiên và phân phối xác suất
Định nghĩa 1. Giả sử (

, A, P) là không gian xác suất cơ bản và (E, F) là không gian đo
được. Ta gọi X :


E là một biến ngẫu nhiên nếu nó là một ánh xạ đo được (tức là X
-1
(F)

(B) = P(X
-1
(B)
với mọi tập con B của R nằm trong

- đại số B.
Định nghĩa 3. Hàm phân phối xác suất của phân bố xác suất P
X
trên R của một biến ngẫu
nhiên X là hàm Fx: R

[0; 1] cho bởi công thức

: ( ) (( , ])
X
F P X x P x   
2
Định lý 1. Hàm phân phối F
X
của một phân bố xác suất tuỳ ý trên R thoả mãn 4 tính chất sau:
1. Đơn điệu không giảm: F
X
(x)

F
X
(y) với mọi x

là hàm liên tục trên R. Nó được gọi là liên tục tuyệt đối nếu như tồn tại một hàm
số
:
X
RR



khả tích và không âm, sao cho với mọi a

R ta có

( ) ( , ) ( )
a
X X X
F a P a x dx


  


Hàm
X

: R

R
+
thoả mãn như trên gọi là hàm mật độ của P
X


thì công thức tính giá trị kỳ
vọng của một biến ngẫu nhiên X là

( ) ( ) ( )
ii
i
E X X P



Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được viết dưới dạng phân
Lesbesgue của X trên không gian xác suất (

, R):


 XdPXE )(

Định nghĩa 7. Phương sai của biến ngẫu nhiên X là đại lượng:
D(X) = E[X-E(X)]
2

còn
()DX


được gọi là độ lệch tiêu chuẩn của X.

1.3. Một số phân phối thường gặp

Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều chiều: Không gian xác
suất là một miền của R
n
(n

2), và xác suất một miền con (n chiều) tỷ lệ thuận với thể tích (n
chiều) của miền con đó.
Định nghĩa 9. Phân bố xác suất chuẩn (hay phân bố Gauss) trên R với trung bình

và độ
lệch chuẩn

là phân bố liên tục với hàm mật độ sau:
.
2
2
1 ( )
( ) ( )
2
2
x
x e xp







Ký hiệu phân phối chuẩn trên đây là N(




Định nghĩa 11. Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với tham số n, p nếu
hàm phân bố xác suất của nó có dạng
( ) (1 ) ; 0,1,2 , ;0 1
k k n k
n
P X k C p p k n p

     

Giá trị kỳ vọng và phương sai của biến ngẫu nhiên có phân bố nhị thức lần lượt là np và
np (1-p)
Định nghĩa 12. Một biến ngẫu nhiên Y được gọi là phân phối Poisson với tham số

>0 nếu
nó nhận các giá trị nguyên y = 0, 1, 2,… với xác suất

 
!
y
e
P Y y
y




(1)

~ N(0, t - s) (với 0

s

t).
Ở đây
2
,(

N
) biểu thị phân phối chuẩn với giá trị trung bình

và phương sai
2

.
Điều kiện quá trình có số gia độc lập có nghĩa là nếu
2211
0 tsts 
thì W
t1
- W
s1
và W
t2
-
W
s2
là những biến ngẫu nhiên độc lập.
Một đại diện của quá trình ngẫu nhiên rời rạc chính là quá trình Poisson, sẽ được đề cập

i
Y
~
( ), 1; 2
i
Pi


thì
21
YY 
~
12
()P


. Kết quả này có thể mở rộng cho tổng nhiều hơn hai
biến ngẫu nhiên Poisson.
Giả sử ta có n
i
nhóm quan sát có cùng phương sai, ký hiệu Y
ij
là số lượng biến cố của
quan sát thứ j trong lớp nhóm thứ i. Trên các nhóm đó, Y
i
là toàn bộ các quan sát của nhóm
thứ i. Với giả thiết thông thường về tính độc lập và Y
ij
~ P(



k
k
e
ktNtNP
k




trong đó số

dương là một tham số cố định, được gọi là tham số cường độ, có nghĩa là, biến
ngẫu nhiên N(t+

) - N(t) mô tả số lần xuất hiện trong khoảng thời gian [t, t+

] tuân theo
một phân bố Poisson với tham số

.
3.3. Mô hình loga tuyến tính cho quá trình Poisson
Giả sử ta có một mẫu bao gồm n quan sát Y
1
, Y
2
,…,Y
n
là các biến ngẫu nhiên độc lập có
phân phối Poisson, Y

(4)
Trong mô hình này
j

biểu diễn sự thay đổi của loga giá trị trung bình ứng với mỗi
thay đổi của x
j
. Lấy luỹ thừa cơ số e hai vế của (4) ta thu được mô hình

 
jii
xxpe

'

(5)
Để ước lượng các tham số của phân phối Poisson trong mô hình trên, người ta dùng
phương pháp ước lượng hợp lý cực đại. Trước tiên ta xây dựng hàm hợp lý là tích các giá trị
của biểu thức (2) lấy trên n quan sát độc lập có phân phối Poisson với tham số
i

thoả mãn
(3), tức là

!
)(
1
i
yi
i

i

phục thuộc vào các biến độc lập x
i


là vecto gồm p tham số được cho ở
(3). Lấy đạo hàm riêng hai vế theo từng phần tử của

và cho chúng bằng 0. Nghiệm của các
phương trình đó cho ta ước lượng hợp lý cực đại của mô hình loga tuyến tính Poisson. Có thể
chỉ ra rằng các nghiệm đó thoả mãn phương trình.


ˆ
'' YyX 
(8)
Ở đây X là ma trận thiết kế với mỗi hàng là mỗi quan sát, mỗi cột là biến dự báo (có thể
bao gồm hằng số). Y biến đáp ứng,

ˆ
là một vectơ của giá trị dự báo, được tính toán thông
qua ước lượng

ˆ
bằng cách lấy exp mũ của dự báo tuyến tính

ˆ
'X
.

p) bậc tự do, ở đây n là số lượng quan sát, p số lượng tham số. Do vậy D thường được sử
dụng trực tiếp để kiểm tra tính đúng đắn của mô hình.
Một độ đo khác có thể dùng thay thế là thống kê Khi bình phương của Peason




i
ii
p
y
X


ˆ
)
ˆ
(
2
2

Khi cỡ mẫu lớn, phân phối của thống kê Peason cũng xấp xỉ phân phối khi bình phương
với (n-p) bậc tự do. Hai độ đo trên được dùng để kiểm định sự phù hợp của mô hình với dữ
liệu quan sát được.
4. Mô hình hồi quy Poisson tổng quát
Giả sử biến phụ thuộc Y là một biến đếm tuân theo luật Poisson tổng quát chịu tác động
của p biến mô tả (x
i1
, x
i2


  
(10)
y
i
= 0,1,…
với x
1
= (1, x
i1
,… x
ip
) là véctơ (p + 1) . 1 chiều,
0
i

là giá trị trung bình phụ thuộc của Y
i

với điều kiện x
i
. Ta cũng có phân tích phổ biến cho
i



7

( | ) ( )
t


< 0, mô hình hồi
quy Poisson tổng quát sử dụng cho mô hình có số liệu đếm có độ phân tán thiếu hụt. Với một
vài quan sát trong tập số liệu, giá trị Y
i
có thể bị mất theo dõi, từ đó mô hình hồi quy Poisson
tổng quát mất theo dõi được Faymoye và Wang đề xuất năm 2004.
Nếu quan sát không bị mất theo dõi thì Y
i
= y
i
.
Nếu quan sát mất theo dõi thì Y
i


y
i
, và phân phối được áp dụng cho số liệu mẫu là
phân phối nhị phân d
i
được xác định như sau: d
i
= 1 nếu
ii
yY 
và d
i
= 0 nếu ngược lại.
Mô hình hồi quy Poisson tổng quát bị mất theo dõi được cho bởi:

bày tiếp sau đây.

4.1. Ước lượng tham số
),'(



Hàm hợp lý của (13) được cho bởi

 
1
1
1
0
( , , ) ( ) [1- ( )]
i
ii
y
n
dd
ii
i
j
L y f y f j














n
i
i
i
ii
i
i
i
ii
y
y
yydyLL
1
1
)!log(
1
)1(
)1log()1(
1
log)1(),,(




)(
(
)
)1(
)(1(
),,(
1
1
0
1
0
1
2


















n
i
i
i
ii
i
i
i
i
jf
jf
dx
y
d
yLL





(17)










)1(
)(
)1(
)1(
)
)1(
)(1(
),,(





0
))(1(
)
)(
(
1
1
0
1
0






(18)
Trong đó:

,
)1(
)(
)(
)(
2
i
i
i
x
j
jf
jf








(19)
,
)1(
)(
1



(20)
Hệ phương trình hợp lý trên không tuyến tính với các tham số

,
, chúng được giải
bằng cách dùng phương pháp lặp Newtơn - Raphson.
Lấy đạo hàm riêng của (16) ta nhận được ma trận thông tin Fisher
),(

I
bằng cách
lấy kỳ vọng của hiệu các đạo hàm cấp hai. Ma trận nghịch đảo của
),(

I
cho ta các phương
sai của ước lượng hợp lý cực đại. Phương sai của ước lượng hợp lý cực đại có thể thu được từ
ma trận Hessian, H là ma trận vuông cấp p+2. Toàn bộ ma trận Hessian, được ký hiệu là các
đạo hàm riêng cấp hai, được cho bởi:










()
'
),,(
(
)(
2
22
22
2221
1211








ii
ii
yLLyLL
yLLyLL
HH
HH
H
.
Ở đây,




)1(
21
()1(
'
),,(






,
))(1(
)
'
)(
()
)(
()
'
)(
())(1(
1
1
0
2
1
0
1
0

























n
i
y
j
y
j


n
i
i
i
iii
i
i
x
y
d
yLL
H
1
3
2
12
)
)1(
)(
()1(2
),,(



9
,





















































n
i
i
ii
i
i
i
ii
i





,
))(1(
)
)(
()
)(
())(1(
1
1
0
2
1
0
1
0
2
1
0
2
2


 













n
i
y
j
y
j
y
j
y
j
i
i
i ii
jf
jfjf
jf
d



H


































i
i
ii
i
i
i
i
i
ii
x
j
j
jj
j
jj
jf
jf
223
2
)1(
(
)
1
)1(
1(
(
)1()1(
)(2




























2
23
2

jj
j
jj
j
jf
jf










Trong trường hợp ma trận Hessian được tính toán tại ước lượng hợp lý cực đại
)'
ˆ
,'(
ˆ


, và có nghịch đảo âm thì ta sẽ nhận được ma trận phương sai - hiệp phương sai
được ký hiệu bởi
 
 
1
2
)

 
(22)
Ở đây
0
ˆˆ
ˆˆ
( , , ) , ( , , )
i R i U
LL y LL y
   
lần lượt là các hàm loga hợp lý được tính toán từ
mô hình được hạn chế và không hạn chế các tham số đưa vào. Với giả thuyết không (21),
thống kê D trên có phân phố
2

với p bậc tự do.

4.3. Kiểm định tham số hồi quy và các tham số phân tán
Có thể khẳng định rằng nếu trong mỗi bài toán phân tích, mô hình hồi quy Poisson tổng
quát được xây dựng chính xác và phù hợp với tập số liệu thì ước lượng hợp lý cực

10
đại
)'
ˆ
,'
ˆ
(
ˆ


0:;0:
0



HH
(23)
Đây là bài toán điểm định sự quan trọng của tham số

. Sự xuất hiện của

trong mô
hình hồi quy Poisson tổng quát được khẳng định nếu giả thuyết H
0
bị bác bỏ, thống kê sử
dụng cho H
0
là:

).),
ˆ
(),
ˆ
((2
UiRi
yLLyLLD



(24)

mle
J
Z
s




Ở đây,
ˆ
j mle

là ước lượng hợp lý cực đại của hệ số
J

, s(
ˆ
j mle

) là sai số chuẩn của các
ước lượng này, được xác định từ ước lượng của ma trận phương sai – hiệp phương sai, S
2

(
ˆ
,


). Dưới giả thuyết không, thống kê Z có phân bố tiệm cận chuẩn.


khách hàng được trình bày trong Bảng 3.
+ Biến tuoikh là thể hiện nhóm tuổi khách hàng tại thời điểm tham gia dịch vụ của
Công ty. Tuổi khách hàng được phân thành 3 nhóm: Nhóm khách hàng "trẻ" từ 21 đến 29 tuổi
có 886 quan sát, nhóm khách hàng từ 30 tuổi đến 44 tuổi có 921 quan sát, nhóm còn lại là
những khách hàng từ 45 tuổi trở lên (nhưng dưới 60 tuổi) có 372 quan sát. Vì nhóm khách
hàng từ 30 tuổi đến 44 tuổi có số lượng quan sát lớn nhất nên được chọn làm nhóm chứng,
đồng thời ta thành lập 2 biến mới, biến TuoiKHDuoi30 nhận giá trị 1 nếu rơi vào nhóm khách
hàng "trẻ" và nhận giá trị 0 trong các trường hợp còn lại. Tương tự, biến TuoiKHTu45 là biến
nhận giá trị 1 với những khách hàng có độ tuổi từ 45 đến 60, nhận giá trị 0 trong các trường
hợp còn lại. Phân bố độ tuổi của khách hàng được mô tả trong Bảng 4.
+ Biến Madckh là biến mô tả địa chỉ cư trú của khách hàng tại các khu vực khác nhau.
Trong số liệu gốc madckh bao gồm “ba dinh” (khách hàng ở Ba Đình), “cau giay” (khách
hàng ở Cầu Giấy), “dong da” (khách hàng ở Đống Đa), “gia lam” (khách hàng ở Gia Lâm),

12
“ha dong” (khách hàng ở Hà Đông), “hai ba trung” (khách hàng ở Hai Bà Trưng), “hoan
kiem” (khách hàng ở Hoàn Kiếm), “hoang mai” (khách hàng ở Hoàng Mai), “long bien”
(khách hàng ở Long Biên), “thanh tri” (khách hàng Thanh Trì), “dong anh” (khách hàng
Đông Anh), “tay ho” (khách hàng Tây Hồ), “ngoai thanh” (khách hàng ở ngoại thành), “thanh
xuan” (khách hàng ở Thanh Xuân), “tu liem” (khách hàng ở Từ Liêm). Phân bố địa chỉ khách
hàng được cho ở Bảng 5.
Vẫn chọn dongda làm nhóm chứng, chúng ta cũng thành lập các biến đếm mới: biến
KHbadinh là biến đếm nhận giá trị 1 nếu khách hàng có địa chỉ ở Ba Đình, nhận giá trị 0
trong các trường hợp còn lại. Tương tự các biến CGTLTTayHo (khách hàng ở Cầu Giấy, Từ
Liêm, Tây Hồ), HdongTXuan (khách hàng ở Hà Đông, Thanh Xuân), TtriHMai (Thanh Trì,
Hoàng Mai), HBTrung (Hai Bà Trưng), LBGLDAnh (Long Biên, Gia Lâm, Đông Anh),
HKiem (Hoàn Kiếm) và NTthanh (khách hàng ở những huyện ngoại thành khác).
+ Biến pos-kha thể hiện mối quan hệ giữa địa chỉ khách hàng với địa điểm khách đó
mua hàng. Biến nhận giá trị 1 nếu địa chỉ khách hàng có cùng khu vực với địa điểm của đại lý
bán hàng, biến nhận giá trị 0 trong trường hợp còn lại. Bảng 6 mô tả quan hệ giữa địa chỉ

Duoi1N, biến nhận giá trị 1 nếu khách hàng vay trong thời hạn dưới 1 năm và nhận giá trị 0
trong các tình huống còn lại, tương tự biến ThHan1N (khách hàng vay trong thời hạn 1 năm),
biến ThH1323T (thời hạn vay từ 13 tháng đến 23 tháng). Các biến này nhận giá trị 1 ứng với
mỗi sản phẩm được khách vay trong thời gian tương ứng với biến và nhận giá trị 0 trong
trường hợp còn lại.
+ Biến gioi_th mô tả giới tính của nhân viên công ty trực tiếp giới thiệu, tư vấn và
hướng dẫn khách hàng tham gia dịch vụ mua trả góp của công ty, chú ý ta không nên nhầm
lẫn đó là giới tính người bán hàng ở các đại lý mà công ty liên kết. Biến này nhận giá trị 0 nếu
người thực hiện có giới tính nữ và nhận giá trị 1 nếu người thực hiện này có giới tính nam.
Bảng 10 mô tả phân bố giới tính của nhân viên thực hiện các giao dịch với khách hàng.
+ Biến machmon mô tả cho ta thấy chuyên môn của những người thực hiện ở trên. Biến
machmon nhận 4 giá trị “ky thuat, it” (nhóm nhân viên có chuyên môn về kỹ thuật, công nghệ
thông tin), “kinh te taichinh ngan hang” (nhóm nhân viên tốt nghiệp các chuyên ngành liên
quan đến kinh tế, tài chính, ngân hàng), “quan ly, luat, xahoi” (nhóm nhân viên tốt nghiệp các
chuyên ngành quản lý, luật, xã hội) và “nganh khac” (nhóm các ngành khác như dược, tốt
nghiệp THPT, vv…). Bảng 11 mô tả phân bố của số lượng khách hàng theo chuyên môn của
nhân viên thực hiện.
Từ biến machmon trên, để đòi hỏi các biến độc lập nhận giá trị 0,1, ta thành lập thêm 3
biến mới sau đây (nhóm ngành kỹ thuật, công nghệ thông tin có số lượng lớn nhất được ta
chọn làm nhóm chứng). Đó là biến CMKinhte biến nhận giá trị 1 nếu người thực hiện có
chuyên môn nằm trong nhóm những người có chuyên môn kinh tế, tài chính, ngân hàng, và
nhận giá trị 0 trong các trường hợp còn lại, cùng với hai biến CMQuanly (người thực hiện có
chuyên môn nằm trong nhóm quản lý, luật, xã hội), biến CMKhac (người thực hiện năm trong
nhóm chuyên môn khác) được thành lập tương tự.

14
5.2. Kết quả phân tích
A/ Mô hình hồi quy Poisson dự báo số lượng tiêu thụ sản phẩm công nghệ cao
Sau khi chạy bộ số liệu trong Stata, sử dụng mô hình hồi quy Poisson cho quá trình đếm
để xem xét sự phụ thuộc của biến quan sát sphamit vào các biến gioikh, pos-khan, gioi_th,

^{D30PT}).(2.2508 ^{Tu40PT}).0,0355

B/ Mô hình hồi quy Poisson dự báo số lượng tiêu thụ xe máy
Ta tiếp tục sử dụng mô hình hồi quy Poisson nhờ phần mềm Stata để xem xét sự phụ thuộc
của biến xemay vào các biến: gioikh, pos-khan,
gioi_th,BaDinh,CauGiay,HaiBa,TXHaDong,DATTHMai,Duoi15Tr,Tu30Tr,Tu40PT,Duoi1N,

15
ThHan1N,ThH1323T,TuoiKHDuoi30,TuoiKHTu45,KHBaDinh, CGTLTayHo, HdongTXuan,
TtriHmai, HBTrung, LBGLDAnh, Hkiem, Nthanh, CMKinhte, CMQuanly, CMkhac
Bảng 16: Sự phụ thuộc của biến xemay vào các biến khác _cons 3738565 .0729181 -5.13 0.000 5167733 2309397
CMKhac 2571134 .0684224 -3.76 0.000 3912189 1230079
CMKinhte 1932794 .0668398 -2.89 0.004 3242831 0622757
HDongTXuan 1770705 .0877812 -2.02 0.044 3491185 0050225
Duoi1N 3203397 .0936402 -3.42 0.001 5038712 1368082
Duoi15Tr 1480117 .050219 -2.95 0.003 2464391 0495843
DATTrHMai .5958677 .0932499 6.39 0.000 .4131013 .7786342
TXHaDong .7284974 .0865411 8.42 0.000 .55888 .8981147
HaiBa .6414941 .0885326 7.25 0.000 .4679734 .8150148
CauGiay 3671758 .1097185 -3.35 0.001 5822202 1521314
BaDinh .6638394 .0797971 8.32 0.000 .5074399 .8202389
gioi_th 1916381 .0596857 -3.21 0.001 3086199 0746564
pos_khan .1442418 .0565967 2.55 0.011 .0333143 .2551692

xemay Coef. Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -2035.914 Pseudo R2 = 0.0615

1. Đào Hữu Hồ (1998), Xác suất Thống kê, In lần thứ 3, Nhà xuất bản Đại học quốc gia Hà
Nội, 224 Tr.
2. Đặng Hùng Thắng (1998), Mở đầu về lý thuyết Xác suất và các ứng dụng, In lần thứ 2, Nhà
xuất bản Giáo Dục, Hà Nội
3. Nguyễn Duy Tiến (2000), Các mô hình xác suất và ứng dụng; Phần 1: Xích Markov và ứng
dụng, Nhà xuất bản Đại học Quốc Gia, Hà Nội.
4. Nguyễn Duy Tiến (chủ biên), Đặng Hùng Thắng (2000), Các mô hình xác suất và ứng
dụng,Phần 2: Quá trình dừng và ứng dụng, Nhà xuất bản Đại học Quốc Gia, Hà Nội.
Tiếng Anh

5. Blundell, R. Griffith, and J. Van Reenen (1995),” Dynamic Count Data models of
Technological innovation”, Economic Journal, 105, pp.333– 344.
6. Cameron, A.C, and D.K Trivedi (1998), Regression analysis of count data, Cambrige
University press, NewYork.
7. Noriszura Ismail, Abdul Azizjemain (2005), Generalized Poisson regression: An
alternative for risk classication, Universiti teknologi Malaysia.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status