Một số vấn đề cơ bản về xác suất thống kê trong kinh tế lượng - Pdf 14

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

1

BÀI GIẢNG 3
MỘT SỐ VẤN ĐỀ CƠ BẢN
VỀ XÁC SUẤT THỐNG KÊ
TRONG KINH TẾ LƯỢNG

MỤC TIÊU BÀI GIẢNG:
1. Ký hiệu tổng
2. Phép thử, không gian mẫu và biến cố
3. Biến ngẫu nhiên
4. Xác suất
5. Biến ngẫu nhiên và hàm phân phối xác suất
6. Hàm mật độ xác suất đa biến
7. Đặc điểm của các phân phối xác suất
8. Một số phân phối xác suất quan trọng
9. Một số phép toán ma trận
10. Suy diễn thống kê

ĐỐI TƯỢNG BÀI GIẢNG:
1. Tài liệu bài giảng cho sinh viên đại học
2. Tài liệu tham khảo ôn tập cho học viên cao học

KÝ HIỆU TỔNG

Ký hiệu tổng
Ký tự  (sigma) được thống nhất sử dụng để chỉ tổng:
n21

1i
i
n
1i
i
XkkX
(3.3)
3. Tổng của tổng hai biến X
i
và Y
i

  

iiii
YX)YX(
(3.4)
4. Tổng của một hàm tuyến tính

 

ii
Xbna)bXa(
(3.5)

PHÉP THỬ, KHÔNG GIAN MẪU, VÀ BIẾN CỐ

Phép thử
Một phép thử có hai đặc tính:
1) Không biết chắc kết quả nào xảy ra

Đồng xu thứ
hai
Số mặt ngửa
T
T
T
H
H
T
H
H
T
H
0
1
1
1
2
Nguồn: Gujarati, 2006, trang 25
Ta gọi biến “số mặt ngửa” là một biến ngẫu nhiên. Nói một
cách tổng quát, một biến mà giá trị (bằng số) của nó được
xác định bởi kết quả của một phép thử được gọi là một
biến ngẫu nhiên. Như vậy, biến ngẫu nhiên là biến mà giá
trị của nó được xác định một cách ngẫu nhiên.
Một biến ngẫu nhiên có thể có giá trị rời rạc hoặc
liên tục. Một biến ngẫu nhiên rời rạc chỉ có một số giá
trị hữu hạn (hoặc vô hạn có thể đếm được). Một biến ngẫu
nhiên liên tục là một biến ngẫu nhiên có bất kỳ giá trị
nào trong một khoảng giá trị nào đó.


khoảng
Tần suất
tuyệt đối
Tần suất tương
đối
0-9
10-19
20-29
30-39
40-49
50-59
60-69
70-79
80-89
90-99
5
15
25
35
45
55
65
75
85
95
0
0
0
10
20

) = P(X=x
i
) i = 1, 2, … (3.7)
=0 nếu x ≠ x
i

được gọi là hàm phân phối xác suất của biến ngẫu nhiên X,
ký hiệu là PMF hay PF, trong đó, P(X=x
i
) là xác suất X có
giá trị x
i
. Hàm PMF có các tính chất sau:
0  f(x
i
)  1 (3.8)



n
1i
i
1)x(f
(3.9)
Ví dụ, biến X là số mặt ngửa khi tung hai đồng xu, ta xét
bảng sau đây:
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

5

 X x
2
) =

2
1
x
x
dx)x(f
(3.10)
Hàm mật độ xác suất của một biến ngẫu nhiên X có các tính
chất sau đây:
Số mặt ngửa
X
PMF
f(X)
0
¼
1
½
2
¼
Tổng
1.00
Xác suất để chiều cao trong
khoảng 1.56 đến 1.8
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

6

2
) = P(x
1
 X  x
2
) (3.11)

Hàm phân phối tích lũy của một biến ngẫu nhiên
Liên quan đến PMF hay PDF của một biến ngẫu nhiên X là
hàm phân phối tích lũy của biến đó, được xác định như
sau:
F(X) = P(X  x) (3.12)
P(X  x) nghĩa là xác suất để một biến ngẫu nhiên X có
giá trị nhỏ thua hoặc bằng x, với x đã biết. CDF có các
tính chất như sau:
 F(-) = 0 và F(+) = 1
 F(x) là một hàm không giảm, nghĩa là nếu x
2
> x
1
, thì
F(x
2
)  F(x
1
)
 P(X  k) = 1 – F(k)
 P(x
1
 X  x

3
3  X < 4
4/16
X  3
15/16
4
4  X
1/16
X  4
16/16
Nguồn: Gujarati, 2006, trang 37
Như vậy, CDF chỉ là tích lũy hay đơn giản là tổng của các
PDF của các giá trị X nhỏ thua hoặc bằng x.
Các hàm mật độ xác suất đa biến
Ví dụ, một đại lý bán lẻ máy tính bán hai loại thiết bị
là máy tính cá nhân và máy in. Số máy tính và máy in được
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

7

bán thay đổi giữa các ngày khác nhau, nhưng giám đốc đại
lý đã thu thập doanh số của 200 ngày qua như trong bảng
sau.
 BẢNG 3.5: Phân phối tần suất của hai biến ngẫu nhiên X và Y
Số máy in được bán
(Y)
Số máy tính được bán (X)
Tổng
0

20
54
4
2
2
2
10
30
46
Tổng
16
24
48
48
64
200
Nguồn: Gujarati, 2006, trang 39
Bảng trên cho thấy trong 200 ngày có 30 ngày đại lý bán
được 4 máy tính và 4 máy in, có 2 ngày bán được 4 máy
tính nhưng không bán được máy in nào. Giải thích tương tự
cho các con số còn lại. Đây là một ví dụ về phân phối tần
suất kết hợp. Nếu chia từng con số trong bảng trên cho
200, ta sẽ có các tần suất tương đối.
 BẢNG 3.6: Phân phối xác suất của hai biến ngẫu nhiên X và Y
Số máy in được bán
(Y)
Số máy tính được bán (X)
Tổng
0
1

0.27
4
0.01
0.01
0.01
0.05
0.05
0.23
Tổng
0.08
0.12
0.24
0.24
0.32
1.00
Nguồn: Gujarati, 2006, trang 39
Do hai biến X và Y là các biến ngẫu nhiên rời rạc, nên
bảng 3.6 được gọi là hàm phân phối xác suất kết hợp của
hai biến ngẫu nhiên.
f(X,Y) = P(X = x và Y = y) (3.13)
= 0 khi X  x và Y  y
Hàm xác suất kết hợp có các tính chất sau:
 f(X,Y)  0

 

x y
1)Y,X(f

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ

0.23
0.27
0.23
Tổng
1.00.

1.00
Nguồn: Gujarati, 2006, trang 41
Từ bảng xác suất kết hợp giữa X và Y ta có thể tính các
hàm xác suất biên như sau:
f(X) =

y
)Y,X(f

f(Y) =

x
)Y,X(f

Nếu hai biến X và Y là hai biến ngẫu nhiên liện tục thì
ta sẽ thay ký hiệu tổng thành ký hiệu tích phân.
Hàm xác suất điều kiện
Giả sử ta muốn tìm xác suất có 4 máy in được bán nếu biết
có 4 máy tính được bán trong này, và đó chính là xác suất
có điều kiện. Hàm phân phối xác suất có điều kiện của một
biến ngẫu nhiên có thể được định nghĩa như sau:
F(YX) = P(Y=yX=x) (3.14)
F(XY) = P(X=xY=y) (3.15)
Một công thức đơn giản để tính hàm phân phối xác suất có

trọng số. Giá trị kỳ vọng của một biến ngẫu nhiên cũng
được gọi là giá trị trung bình, mặc dù chính xác hơn là
giá trị trung bình tổng thể.
Tính chất của giá trị kỳ vọng
 E(b) = b (3.19)
 E(X+Y) = E(X) + E(Y) (3.20)
 E(X/Y) 
)Y(E
)X(E
(3.21)
 E(XY)  E(X)E(Y) (3.22)
Nếu X và Y là hai biến ngẫu nhiên độc lập, thì
E(XY) = E(X)E(Y) (3.23)
 E(X
2
)  [E(X)]
2
(3.24)
 E(aX) = aE(X) (3.25)
 E(aX+b) = aE(X) + b (3.26)

Phương sai: Thước đo phân tán
Giá trị kỳ vọng của một biến ngẫu nhiên đơn giản chỉ cho
biết trọng tâm của biến đó ở đâu chứ không cho biết các
giá trị riêng lẻ của biến đó phân tán như thế nào xung
quanh giá trị trung bình. Thước đo phổ biến nhất cho sự
phân tán này là phương sai, và được định nghĩa như sau:
var(X) =
2
x

var(X-Y) = var(X) – var(Y)
 Nếu b là hằng số, thì
var(aX) = a
2
var(X) (3.30)
 Nếu a và b là hằng số, thì
var(aX+b) = a
2
var(X) (3.31)
 Nếu X và Y là hai biến độc lập và a và b là hằng số,
thì
var(aX+bY) = a
2
var(X) + b
2
var(Y) (3.32)
Phương sai
quá nhỏ
Phương sai
quá lớn
X
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

11

 Để tiện lợi cho việc tính toán, công thức phương sai
cũng có thể được viết lại như sau:
var(X) = E(X
2


y
(3.35)
Hiệp phương sai giữa hai biến có thể dương, âm, hoặc bằng
không. Nếu hai biến vận động theo cùng chiều, thì hiệp
phương sai sẽ dương, nếu khác chiều, thì hiệp phương sai
sẽ âm. Nếu hiệp phương sai giữa hai biến bằng không, thì
có nghĩa là không có mối quan hệ tuyến tính nào giữa hai
biến đó.
Ta có thể tính hiệp phương sai theo công thức sau
đây:
cov(X,Y) =


x y
yx
)Y,X(f)Y)(X(

=


x y
yx
)Y,X(XYf
(3.36)
= E(XY) - 
x

y


Tính chất của hệ số tương quan
 Giống hiệp phương sai, hệ số tương quan có thể âm
hoặc dương.
 Hệ số tương quan là một thước đo mối quan hệ tuyến
tính giữa hai biến.
 -1    1 (3.37)
 Hệ số tương quan là một con số thuần túy không có đơn
vị đo lường.
 Nếu hai biến độc lập, hệ số tương quan bằng không.
 Hệ số tương quan không hàm ý mối quan hệ nhân quả.
Kỳ vọng có điều kiện
Một khái niệm thống kê khác đặc biệt quan trọng trong
phân tích hồi qui là khái niệm kỳ vọng có điều kiện.
E(XY=y) =


X
)yY/X(Xf
(3.38)
Độ nghiêng và độ nhọn
Độ nghiêng và độ nhọn cho ta biết điều gì đó về hình dạng
của phân phối xác suất. Độ nghiêng (S) là một thước đo sự
mất cân xứng của đồ thị phân phối xác suất, và độ nhọn
(K) là một thước đo độ cao hay thấp của đồ thị phân phối
xác suất.
Mô men thứ ba: E(X-
x
)
3
(3.39)

])X(E[
)X(E


(3.42)
Có ba khả năng xảy ra như sau:
 Nếu K = 3, PDF có độ nhọn chuẩn và được gọi là
mesokurtic
 Nếu K < 3, PDF có đuôi ngắn và được gọi là
platykurtic
 Nếu K > 3, PDF có đuôi dài và được gọi là
leptokurtic
X
Nghiêng phải
Nghiêng trái
Đối xứng
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

14

Hình 3.5: Độ nhọn của phân phốiTỪ TỔNG THỂ ĐẾN MẪU

Trung bình mẫu
Trung bình mẫu của một biến ngẫu nhiên X có n quan sát
được ký hiệu là
X


15

Phương sai mẫu
Phương sai mẫu được ký hiệu bằng
2
x
S
, là ước lượng của
phương sai tổng thể
2
x

. Phương sai mẫu được định nghĩa
như sau:





n
1i
2
i
2
x
1n
)XX(
S
(3.44)

12
1
1
6
13
2
4
7
14
3
9

Tổng
0
28
Nguồn: Tác giả
Ta biết rằng tổng độ lệch luôn luôn bằng không
1
, nên để
xem độ lệch của các giá trị X so với giá trị trung bình
ta phải lấy độ lệch bình phương. Tổng của 7 độ lệch bình
phương là 28, nhưng thực sự con số 28 này chỉ do 6
“nguồn” đóng góp, vì quan sát thứ tư trùng với giá trị
trung bình. Như vậy, để xem độ lệch trung bình ta chỉ lấy
28 chia cho số nguồn thực sự tạo ra nó, tức 7-1 = 6. Vậy
phương sai là 4.67 (là một giá trị ước lượng của phương
sai tổng thể) và căn bậc hai của phương sai mẫu được gọi
là độ lệch chuẩn mẫu (s.d.). Độ lệch chuẩn (2.16) được
xem như một thước đo sấp xỉ cho trung bình của 6 độ lệch
tuyệt đối ở trên. Mở rộng cho trường hợp một biến ngẫu

Hệ số biến thiên mẫu
Hệ số biến thiên mẫu của X được xác định bằng công
thức sau đây:
V =
100.
X
S
x
(3.46)
Thao tác với Eviews
Trên cửa sổ lệnh của Eview ta nhập: scalar
cvX=@stdev(x)/@mean(x)
Hệ số tương quan mẫu
Hệ số tương quan mẫu giữa hai biến ngẫu nhiên X và Y là
ước lượng của hệ số tương quan tổng thể, và được định
nghĩa như sau:
)Y.(d.s)X.(d.s
)1n/()YY)(XX(
r
ii



(3.47)
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập: scalar
corXY=@cor(x,y)
Độ nghiêng và độ nhọn mẫu
Để tính độ nghiêng và độ nhọn mẫu, ta sử dụng các mô men
mẫu thứ ba và thứ tư như sau:

Kinh nghiệm cho thấy rằng phân phối chuẩn là một mô hình
hợp lý cho một biến ngẫu nhiên liên tục với giá trị của
nó phụ thuộc vào nhiều yếu tố, nhưng mỗi yếu tố chỉ có
ảnh hưởng tương đối nhỏ lên giá trị của biến số đó. Phân
phối chuẩn của một biến ngẫu nhiên X được thể hiện thông
qua hai tham số cơ bản là giá trị trung bình và phương
sai. Cụ thể như sau:
X ~ N(
x
,
2
x

) (3.50)
Hình 3.6: Đồ thị phân phối chuẩn
-3 -2 -1 0 1 2 3


-

khoảng 68%
-2
2
-3
3
khoảng 99.7%
khoảng 95%
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình


x

2
x

. Một khi biết được hai tham số này
thì ta có thể tính được xác suất của X nằm trong một
khoảng nhất định theo công thức sau:
f(X) =



















2
x

khác nhau. Cho nên, người ta qui về cùng một biến chuẩn
hóa Z như sau:
x
x
X
Z



(3.52)
Theo tính chất của phân phối chuẩn, nếu X là một biến
ngẫu nhiên có trung bình là 
x
và phương sai là 
x
, X ~
N(
X
, 
2
X
), thì Z là một kế hợp tuyến tính của X sẽ là một
biến ngẫu nhiên có phân phối chuẩn với trung bình là
không và phương sai là một, Z ~ N(0, 1)
2
.
Như vậy, bất kỳ một biến ngẫu nhiên theo phân phối
chuẩn với một giá trị trung bình và phương sai nhất định
đều có thể được chuyển đổi thành một biến chuẩn hóa, điều
này giúp đơn giản hóa rất nhiều việc tính xác suất. Để

x
) = 
x
- 
x
= 0. Và Var(Z) =
E[Z-E(Z)]
2
= E(Z
2
), do E(Z) = 0, vậy E(Z
2
) = E
1
2
x
2
x
1
2
)
x
X(E
2
x
1
2
x
x
X

tính xác suất cho một ngày bất kỳ công ty có số khách du
lịch quốc tế nhiều hơn 75 khách?
Ta thấy, do X theo phân phối chuẩn với giá trị trung
bình và phương sai đã biết, nê ta có:
67.1
3
7075
Z 



sẽ theo phân phối chuẩn hóa với trung bình bằng 0 và
phương sai bằng 1. Thay vì tìm P(X > 75), ta có thể tìm
P(Z > 1.67). Lưu ý, trong các sách thống kê và kinh tế
lượng thường có kèm phụ lục bảng thống kê giá trị hàm
phân phối xác suất tích lũy (CDF) hay giá trị xác suất
tích lũy của phân phối chuẩn hóa giữa các giá trị Z = -3
và Z = 3 (tại sao?). Theo bảng thống kê này thì xác suất
Z nằm từ -3 đến 1.67 là 0.9525
3
. Cho nên,
P(Z > 1.67) = 1 – P(Z < 1.67) = 1 – 0.9525 = 0.0475
Vây xác suất để một ngày bất kỳ công ty có số lượt khách
du lịch nhiều hơn 75 người là 4.75%.
Tóm lại, một biến ngẫu nhiên bất kỳ mà giá trị của nó
phụ thuộc vào rất nhiều yếu tố, nhưng không có yếu tố nào
có ảnh hưởng quyết định giá trị đó, thì biến ngẫu nhiên
đó sẽ theo phân phối chuẩn
4
. Và bất kỳ một biến X có phân

X

Giả sử ta chọn ngẫu nhiên một mẫu với n quan sát gồm các
giá trị X
1
, X
2
, …, X
n
từ một tổng thể có cùng hàm phân
phối xác suất. Nếu ta thực hiện m mẫu như thế thì giá trị
trung bình mẫu
X
sẽ là một biến ngẫu nhiên. Như vậy, vấn
đề đặt ra là
X
sẽ có phân phối như thế nào?
 BẢNG 3.9: Định nghĩa biến trung bình mẫu và phương sai mẫu
Mẫu
Giá trị của mẫu
Giá trị trung bình mẫu
X

Phương sai mẫu
2
x
S

1
2

. . . X
mn

1
X

2
X

3
X

.
.
m
X

2
1x
S

2
2x
S

2
3x
S

.

10.334
10.134
10.249
10.321
10.399
9.404
8.621
9.739
10.184
9.765
10.410
8.5 – 8.9
9.0 – 9.4
9.5 – 9.9
10.0 – 10.4
10.5 – 10.9
11.0 – 11.4
Tổng
1
1
5
8
4
1
20
0.05
0.05
0.25
0.40
0.20

0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
8.75 9.25 9.75 10.25 10.75 11.2
Hình 3.8: Phân phối của 20 giá trị trung bình mẫu từ tống thể có N(10,4)

Lý thuyết thống kê cho rằng, nếu X
1
, X
2
, …, X
n
là một mẫu
ngẫu nhiên từ một tổng thể có phân phối chuẩn với trung
bình 
x
và phương sai
2
x

, thì trung bình mẫu,
X
,cũng theo
phân phối chuẩn với trung bình 

5
Chứng minh: Do



n
1i
i
X
n
1
X
nên ta có:
x
)
x
n(
n
1
]
x

xx
[
n
1
)]
n
X(E )
2

X
2
X
1
X
var)Xvar(












BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

23

biến ngẫu nhiên được gọi là độ lệch chuẩn (s.d.), và căn
bậc hai của một ước lượng được gọi là sai số chuẩn (se).
Định lý giới hạn trung tâm
Như ta vừa phân tích, trung bình mẫu của một mẫu rút ra
từ một tổng thể phân phối chuẩn cũng theo phân phối chuẩn
(bất kể cở mẫu bao nhiêu). Vấn đề đặt ra là nếu các mẫu
rút ra từ các tổng thể khác không theo phân phối chuẩn

Phân phối mẫu của giá
trị trung bình
Tổng thể có phân
phối chuẩn
Tổng thể không có phân
phối chuẩnPhân phối t
Phân phối xác suất được sử dụng rất nhiều trong phần kinh
tế lượng căn bản là phân phối t, cũng được gọi là phân
phối t Student. 6
Trên thực tế, cho dù phân phối xác suất nền tảng là gì, trung bình mẫu của một cở mẫu ít nhất có 30 quan sát sẽ
có thể xấp xỉ chuẩn (Gujarati, 2006, pp.88).

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

24

Nếu
X
~ N(
x
,
n
2

2
x




. Như vậy,
nếu thay
x

bằng
x
S
ta sẽ có một biến mới như sau:
t =
n
S
)X(
x
x

(3.54)
Lý thuyết thống kê cho rằng biến t sẽ theo phân phối t
với số bậc tự do là (n-1), đây là tham số duy nhất của
phân phối t.
-4 -3 -2 -1 0 1 2 3 4
Phân phối chuẩn
Phân phối t với df=1
Phân phối t với df=4
Phân phối t với df=10


=1.9365
sẽ theo phân phối chuẩn hóa với trung bình bằng 0 và
phương sai bằng 1.17. Thay vì tìm
)72X(P 
, ta có thể tìm
P(t > 1.9365). Áp dụng hàm phân phối t
7
cho trường hợp một
đuôi ta có:
P(t > 1.9365) = 1 – P(t < 1.9365) = 0.0366
Vây xác suất để số lượt khách trung bình một ngày của
công ty du lịch này là 3.66%.
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập:
scalar probm19365=1-@ctdist(1.9365,14) = 0.0366
scalar probs19365=@ctdist(1.9365,14) = 0.9634
scalar probs_19365=@ctdist(-1.9365,14) = 0.0366
scalar tval09634=@qtdist(0.9634,14) = 1.9365 7
Hàm phân phối xác suất t trên Excel là: =TDIST(X, Deg_freedom, Tails). “X” nghĩa là giá trị t cần tính xác
suất (1.9365), nghĩa là diện tích dưới đường phân phối t từ t đến + (ta sẽ biết đây chính là vùng bác bỏ giả thiết
H
0
). “Deg_freedom” là số bậc tự do (14). “Tails” có hai lựa chọn: “1” (một đuôi), và “2” (hai đuôi). Giá trị xác
suất ta tính được từ công thức này chính là P-Value (sẽ được giới thiệu ở bài giảng 4). Nếu ta đã biết mức ý
nghĩa (sẽ được trình bày ở bài giảng 4) và số bậc tự do, ta sẽ tìm được giá trị t theo công thức sau:
=TINV(Probability, Deg_freedom). Ví dụ, =TINV(3.66%,14) = 1.9365. Lưu ý, Phụ lục B ở cuối bài giảng 3 sẽ


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status