ĐA CỘNG TUYẾN
Chương: ĐA CỘNG TUYẾN
(Multicollinearity)
1. Giới thiệu đa cộng tuyến trong kinh tế lượng.
Trong bài thuyết trình trước chúng ta xét mô hình hồi quy bội với giả thiết
các biến giải thích Xi độc lập tuyến tính với nhau và liệu rằng giả định trên luôn
đúng trong mọi mô hình hồi quy bội ? để làm rõ những nghi ngờ này, chúng ta sẽ
xét bài toán hồi quy bội khi giả thiết về tính độc lập tuyến tính đó bị phá vỡ và sẽ
đưa ra cách thức phát hiện cũng như biện pháp khắc phục hiện tượng giả thiết đó
bị vi phạm.
Trong mô hình hồi quy ở bài trước thì các hệ số hồi quy đối với một biến
cụ thể là số đo tác động riêng phần của biến tương ứng khi tất cả các biến khác
trong mô hình được giữ cố định. Nếu tính độc lập bị phá vỡ, tức là các biến giải
thích có tương quan thì chúng ta không thể chỉ cho một biến thay đổi và giữ các
biến còn lại cố định. Do vậy sẽ có hiện tượng đa cộng tuyến, đó là hiện tượng các
biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng hàm
số.
Xét mô hình nhiều biến độc lập:
E(Y/Xi ) = β1 + β2X2i + +βkXki (k ≥ 3)
Hiện tượng đa cộng tuyến xảy ra khi một biến là tổ hợp tuyến tính của các
biến còn lại và một sai số ngẫu nhiên, hay nói cách khác là có một biến biểu diễn
xấp xỉ tuyến tính qua các biến còn lại.
1.1 Bản chất và nguyên nhân.
Bản chất:
Là sự tương quan lẫn nhau giữa các biến độc lập với nhau. Cov(XiXj) <> 0.
Nguyên nhân:
a/ Do phương pháp thu thập dữ liệu.
Thu thập số liệu ít, số quan sát nhỏ hơn số biến độc lập, không toàn diện.
1
ĐA CỘNG TUYẾN
Các giá trị của các biến độc lập phụ thuộc lẫn nhau trong mẫu, nhưng
Các biến X2 ,X3 , ,X k gọi là các đa cộng tuyến không hoàn hảo nếu tồn
tại λ2 , ,λk không đồng thời bằng không sao cho:
λ2 X2 + λ3 X3 + + λ k X k + v
i
= 0 (1.2)
trong đó v
i
là sai số ngẫu nhiên.
Đa cộng tuyến không hoàn hảo thường hay xảy ra trong thực tế (Near
collinearity) khi các biến độc lập tương quan khá cao.
Trường hợp nay chúng ta có thể ước lượng các hệ số hồi qui.
Tuy nhiên sai số chuẩn rất lớn và vì vậy hệ số hồi qui ước lượng không
chính xác, kiểm định t ít có ý nghĩa thống kê và dễ dàng chấp nhận giả thuyết
“không”.
1.3. Ước lượng khi có đa cộng tuyến hoàn hảo.
Chúng ta sẽ thấy rằng khi có hiện tượng đa cộng tuyến hoàn hảo thì các hệ
số hồi quy có thể không xác định và sai số tiêu chuẩn của chúng có thể bằng vô
cùng. Để đơn giản chúng ta xét mô hình hồi quy 3 biến:
= + + + , (i= ) (1.3)
Đặt = - , = - , = -
Ta cũng có = + + (1.4)
Trong phần hồi quy bội ta đã có các ước lượng , là :
= (1.5)
= (1.6)
Nếu xảy ra hiện tượng đa cộng tuyến hoàn hảo thì :
= λ => = .
Thay vào biểu thức (1.5) và (1.6) ta có :
3
ĐA CỘNG TUYẾN
= = (1.7)
Phương sai Var( ), Var( ) gần với
Khoảng ước lượng lớn hay nói cách khác là khoảng ước lượng tiến tới (-
.Vì vậy ước lượng hệ số trở lên khó có hiệu lực, tức là không có ý nghĩa,
vì khoảng ước lượng quá lớn .
5
ĐA CỘNG TUYẾN
Để kiểm định giả thuyết = 0 ,i = 2, 3 ta dùng các tiêu chuẩn thống kê =
, i= 2, 3.
Tuy nhiên cả 2 thống kê này đều tiến dần tới 0 do Se( ) vì vậy khả năng
chấp nhận giả thuyết là rất lớn. Điều này mâu thuẫn với thực tế vì rõ ràng mức
tiêu dung nội địa phụ thuộc vào các nguồn thu , .
Từ ví dụ trên ta rút ra được một số hậu quả của đa cộng tuyến như sau:
2.1. Ước lượng phương sai trở nên kém chính xác. Hệ số phóng đại phương sai
(VIF)
2.2 Giá trị tới hạn t trở nên nhỏ hơn so với thực tế trong khi R2 là khá cao.
Kiểm định t và F trở nên kém hiệu quả
2.3. Các giá trị ước lượng biến động mạnh khi thay đổi số liệu trong mô hình. (n
N) sẽ làm giảm khả năng xảy ra đa cộng tuyến.
2.4. Các giá trị của các ước lượng có khả năng biến động mạnh khi thay đổi
(rút ra hoặc thêm vào) các biến có tham gia vào hiện tượng đa cộng tuyến.
3. Cách phát hiện đa cộng tuyến:
Ta đã thấy hậu quả của hiện tượng đa cộng tuyến trong mô hình hồi quy. Vì
vậy vấn đề quan trọng là làm thế nào để phát hiện ra hiện tượng đa cộng tuyến và
biện pháp khắc phục ra sao?
Một số quy tắc để phát hiện ra hiện tượng đa cộng tuyến:
a/ Hệ số xác định R2 lớn nhưng giá trị của thống kê t lại nhỏ: Khi thấy trong mô
hình hồi quy có hệ số xác định R2 khá cao (R2 > 0.8) nhưng các giá trị thống kê
ti thấp và xác suất ý nghĩa tương ứng tương đối cao thì có thể kết luận đã có hiện
tượng đa cộng tuyến.
b/ Hệ số tương quan giữa các biến độc lập có giá trị tuyệt đối lớn: Ta có thể tính
ĐA CỘNG TUYẾN
trong đó là lượng sản phẩm được sản xuất ở thời kỳ thứ i, là lượng lao động
ở thời kỳ thứ i, là nguồn vốn có được trong thời kỳ thứ i, là nhiễu ngẫu
nhiên, là các hằng số cần ước lượng. Lấy lôgarit 2 vế của (1.11) ta có:
ln = ln + ln( ) + ln( ) + (1.12)
đặt = ln ; = ln ) ; = ln( ) khi đó phương trình (1.11) trở thành
= ln + + + (1.13)
Nếu tương quan giữa K và L cao tức là xảy ra hiện tượng đa cộng tuyến khi đó
phương sai của các hệ số ước lượng , sẽ lớn.Tuy nhiên, nếu biết được từ
nguồn thông tin bên ngoài là ngành sản xuất này có quy mô không đổi, tức là +
=conts thì khi đó ta có :
= ln + +(1- ) + = ln + ( - ) +
- = ln + ( - ) + (1.14)
Đặt = - , = - khi đó phương trình (1.11) được đưa về
dạng = ln + +
Đây là phương trình hồi quy đơn do đó ta có thể ước lượng được các hệ số ln ,
và từ đó tính được ước lượng của .
- Thu thập thêm số liệu (n →N)có thể khắc phụ được hiện tượng đa cộng
tuyến. Tìm mẫu dữ liệu khác hoặc gia tăng cỡ mẫu. Nếu mẫu lớn hơn mà vẫn còn
8
ĐA CỘNG TUYẾN
multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn
và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
- Loại bỏ biến gây ra hiện tượng đa cộng tuyến. Chọn biến ít có ý nghĩa
thống kê hơn loại ra trước. (điều này chỉ mang tính tương đối). Biện pháp bỏ biến
trong mô hình đa cộng tuyến là biện pháp đơn giản nhất. Ta thấy rằng hiện tượng
đa cộng tuyến xảy ra khi biến độc lập nào đó có biểu diễn tuyến tính hoặc gần
tuyến tính qua các biến độc lập khác. Vì thế ta hãy loại biến đó ra khỏi mô
hình,nhưng vấn đề đặt ra là không chỉ có một biến biểu diễn tuyến tính qua các
biến khác mà có nhiều biến như vậy. Vì vậy ta cần dựa vào một số quy tắc để
KẾT LUẬN:
Nếu một mối quan hệ tuyến tính đúng đắn tồn tại giữa hai hay nhiều biến giải
thích, các biến đó được gọi là đa cộng tuyến một cách chính xác. Trong tình huống
như vậy, các hệ số hồi quy tương ứng với các biến độc lập không thể ước lượng
một cách duy nhất.Nếu với biến giải thích là gần đa cộng tuyến, các ước lượng
OLS vẫn không thiên lệch, nhất quán và là ước lượng không thiên lệch tuyến tính
tốt nhất (BLUE). Do đó các dự báo cũng không thiên lệch và là nhất quán. Hơn
nữa, tất cả các kiểm định của giả thuyết đều hiệu lực.
Hiệu ứng của gần đa cộng tuyến là tăng độ lệch chuẩn của các hệ số hồi quy và
giảm các giá trị thống kê t của chúng. Điều này có khuynh hướng làm cho các hệ
số kém ý nghĩa hơn nếu không có sự đa cộng tuyến. Do đó nên chú ý khi rút ra suy
luận và không đưa ra kết luận rằng mọi biến không có ý nghĩa nên bị loại bỏ.
Đa cộng tuyến có thể được nhận dạng bằng cách khảo sát dạng tương quan giữa
các biến giải thích . Vì các biến chuỗi thời gian có chiều hướng phát triển cùng
nhau, các mô hình dựa trên chúng sẽ thiên về các bài toán đa cộng tuyến hơn là
các mô hình chéo. Nếu bỏ một hay nhiều biến độc lập làm biến đổi mạnh kết quả,
chắc chắn sự đa cộng tuyến là nguyên nhân.
Không có giải pháp duy nhất nếu loại bỏ sự đa cộng tuyến. Nếu trọng tâm là dự
báo ,đa cộng tuyến có thể thường được bỏ qua vì khả năng dự báo thường không
10
ĐA CỘNG TUYẾN
bị tác động nhiều. Nếu các biến tự do có mặt trong mô hình thì nên loại bỏ các
biến thừa và các biến có thể bị loại là những biến có giá trị t thấp.
Tuy nhiên, việc loại bỏ các biến quan trọng sẽ gây ra sự thiên lệch. Để khác phục
ta nên dùng các kiến thức lý thuyết để quyết định nên hay không giữ một biến lại
mặc dù các vấn đề của đa cộng tuyến có thể có.
11