Chương Trình Giảng Dạy Kinh Tế Fulbright
Niên Khóa 2007 - 2008
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 1
Các biến phụ thuộc bị giới hạn
Chúng ta có thể tiếp xúc với các dữ liệu liên quan đến các trường hợp như: tại sao có những người
nằm trong lực lượng lao động và một số người khác thì không, tại sao có những người nằm dưới
mức nghèo đói và có những người lại nằm trên mức đó, tại sao có những người sở hữu một căn nhà
và những người khác thì không, tại sao một loại thuốc mới khi lâm sàng thể nghiệm thì có tác dụng
với một số người nhưng lại không có tác dụng với người khác, tại sao có sinh viên theo học đại học
điểm của họ lại được cải thiện còn các sinh viên khác thì không. Như vậy có rất nhiều trường hợp
mà chúng ta sẽ nghiên cứu giống như những trường hợp đã nêu ở trên.
Để giải thích tại sao lại xảy ra những trường hợp như vậy, hay nói khác đi là chúng ta muốn tìm ra
những nhân tố ảnh hưởng đến các trường hợp "có" hoặc "không" thì cần thiết phải áp dụng công cụ
kinh tế lượng quen thuộc.
Trong những trường hợp như vậy thì biến phụ thuộc của chúng ta có hai tính chất (nó là một biến
giả, biến nhị thức, biến định tính . . .). Các biến giả được bổ sung dễ dàng vào mô hình hồi qui bội
dưới dạng biến giải thích, nhưng trong việc sử dụng chúng dưới dạng biến phụ thuộc lại đòi hỏi các
kỹ thuật đặc biệt. Mô hình áp dụng cho trường hợp này là mô hình xác xuất.
Có ba mô hình xác xuất khác nhau:
1) LPM (Linear probability model) dùng phương pháp ước lượng OLS
2) Logit dùng phương pháp ước lượng CDF (cummulative distribution function)
3) Probit dùng phương pháp ước lượng CDF (cummulative distribution function)
LPM Mô hình xác suất tuyến tính.
kiện của biến hồi qui X. Nói cách khác, xác suất để biến phụ thuộc này bằng một là một hàm tuyến
tính của các biến hồi qui X. Chúng ta có thể chứng minh điều này như sau:
Biến ngẫu nhiên Yi này có phân phối xác suất rời rạc như sau: Yi Pr(Y = Yi)
1 p
0 1 - p
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 2
Phân phối này là phân phối nhị thức Bernoulli
Giá trị kỳ vọng của biến ngẫu nhiên này là :
[]
p p) - (10 p YE
i
=×+×= 1Có nghĩa là Pr (Y = 1
Xi) = Pi
Yi Pr(Y)
i
ε
Pr(
ε
=
i
ε
)
1 p 1 - p p
0 1 - p -p 1 – p
Như vậy sai số tuân theo phân phối nhị thức chứ không tuân theo phân phối chuẩn. Điều này ảnh
hưởng đến các thống kê suy luận như ước lượng khoảng tin cậy và kiểm định giả thiết. Một số các
hệ quả từ phương pháp OLS vẫn thoả là:
Ước lượng của hệ số vẫn không chệch.
Khi mẫu lớn thì hệ số ước lượng vẫn tuân theo phân phối chuẩn.
2) Phương sai của sai số thay đổi
Vì
[]
0 p) - (1p - pp) - (1 E
i
=××=ε
1) OLS:
KiKi3i21i
X
ˆ
X
ˆ
X
ˆ
ˆ
p
ˆ
β++β+β+β= L
32
Ở bước này chúng ta loại bỏ các quan sát có xác xuất âm hoặc lớn hơn 1
2) Các trọng số :
i
i
ˆ
1
w
σ
=
trong đó
( )
21
1
/
iii
Một điều không thể áp dụng trực tiếp là hệ số xác định R
2
. Bằng hồi qui tuyến tính cổ điển, nếu
rằng tất cả mọi dữ liệu đều nằm trên đường hồi qui và R
2
= 1 cung cấp một chuẩn mực có ý nghĩa.
Nhưng với các biến phụ thuộc có hai tính chất, khái niệm này không cung cấp một chuẩn mực nào
cả khi xác định thước đo độ chính xác hồi qui.
Giải thích bằng minh hoạ đồ thị: trường hợp mua nhà khi thu nhập tiến đến một ngưỡng nào đó, hai
trường hợp mua và không mua sẽ nằm trên đường hồi qui tuyến tính nên có khả năng R
2
nhưng
những trường hợp khác lại có R
2
nhỏ.
Đây chính là lý do chúng ta nên chọn một dạng hàm khác phù hợp với qui luật của xác xuất
lựa chọn nhà. Dạng hàm này là hàm CDF ứng dụng cho hai mô hình Probit và Logit
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài
4
Một mô hình xác suất hợp lý hơn mô hình LPM có thể được mô tả như sau:
Xác suất
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài
5
Dường như có mối quan hệ thuận giữa điểm trung bình trước khi vào trường của sinh viên và khả
năng cải thiện điểm của mình (GRIMP), điều này được thể hiện bằng đường thẳng trong biểu đồ
phân tán trên.
Hai biến giải thích khác cũng có sẵn: PreTest đo kiến thức có trước về nội dung khoá học (trái lại
GPA chỉ đo lường điểm trung bình khi học tập chung); và PSI là biến mô tả liệu một sinh viên đã
tham gia một kỹ thuật giảng dạy đặc biệt không (PSI = 1 nếu sinh viên đã tham gia kỹ thuật đặc
biệt này, và nếu không trải qua thì PSI = 0).
Đồng thời hãy khảo sát các biểu đồ phân tán giữa GRIMP với những biến hồi qui nêu trên: