KIKIỂỂM ĐM ĐỊỊNH VÀ LNH VÀ LỰỰA CHA CHỌỌN MÔ HÌNHN MÔ HÌNH
Các loCác loạại sai sót ci sai sót củủa da dạạng mô hình ng mô hình
hhồồi quii qui
HHậu quả của sai sót mô hìnhậu quả của sai sót mô hình
PhPhươương pháp phát hing pháp phát hiệện các sai sót n các sai sót
ccủủa da dạạng mô hình hng mô hình hồồi quii qui
Tiêu chuTiêu chuẩẩn ln lựựa cha chọọn mô hình n mô hình
Các loCác loạại sai sót ci sai sót củủa da dạạng mô ng mô
hình hhình hồồi quii qui
CCáác dc dạạng sai sng sai sóót ct củủa da dạạng mô hng mô hìình nhnh nhưư
sau:sau:
BBỏỏ ssóót bit biếến quan trn quan trọọng, ng,
ĐĐưưa bia biếến không liên quan vn không liên quan vàào mô o mô
hhìình, nh,
SSửử ddụụng dng dạạng hng hààm sm sốố không đkhông đúúng, ng,
Sai sSai sốố trong đo ltrong đo lườường, vng, vàà
XXáác đc địịnh dnh dạạng cng củủa pha phầần sai sn sai sốố không không
đđ
úú
ng. ng.
Ví dVí dụụ vvềề hàm chi phí chàm chi phí củủa doanh nghia doanh nghiệệp, p,
ddạạng hàm đúng sẽ là: ng hàm đúng sẽ là:
YY
ii
= b= b
11
+ b+ b
22
XX
ii
+ b+ b
(6.2)(6.2)
ĐĐưưa bia biếến không liên quan vào mô hình n không liên quan vào mô hình
(X(X
i4i4
))::
YY
ii
= l= l
11
+ l+ l
22
XX
ii
+ l+ l
33
XX
ii
22
+ l+ l
44
XX
ii
33
+ l+ l
55
XX
ii
44
++ uu
3i 3i
*X*X
ii
**
33
+ u+ u
ii
**
trong đó trong đó YY
ii
* = Y* = Y
ii
+ + εε
ii
và và XX
ii
* = X* = X
ii
+ w+ w
ii
; ;
εε
ii
và wvà w
ii
là sai slà sai sốố ccủủa phép đo la phép đo lườường. ng.
NhNhưư vvậậy, thay vì sy, thay vì sửử ddụụng các bing các biếến sn sốố
đúng là đúng là YY
ii
và và XX
ii
khi có skhi có sựự sai sót, ksai sót, kếết qut quảả ccủủa phép a phép
ướước lc lượượng sẽ không thng sẽ không thỏỏa mãn các đa mãn các đặặc c
điđiểểm cm củủa “a “ướước lc lượượng không chng không chệệch ch
tuytuyếến tính tn tính tốốt nht nhấất” (BLUE). t” (BLUE).
chúng tôi chchúng tôi chỉỉ ttậập trung phát hip trung phát hiệện hai n hai
lolo
ạạ
i sai sót đi sai sót đ
ầầ
u tiên. u tiên.
Hậu quả của sai sót mô hìnhHậu quả của sai sót mô hình
Để minh họa, ta dùng mô hình 3 Để minh họa, ta dùng mô hình 3
biến và xem xét 2 loại sai sót đầu biến và xem xét 2 loại sai sót đầu
tiên:tiên:
1.1. Bỏ sót biến có liên quan:Bỏ sót biến có liên quan:
Giả sử dạng đúng của mô hình là:Giả sử dạng đúng của mô hình là:
YY
ii
= =
11
+ +
22
XX
2i 2i
+ +
33
XX
3i3i
+ u+ u
ii
11
cũng bị chệch, mặc dù cũng bị chệch, mặc dù
22
không chệch.không chệch.
3.3. Var(uVar(u
ii
) = ) =
22
bị ước lượng sai.bị ước lượng sai.
4.4. Var(Var(
22
) là ước lượng chệch của var() là ước lượng chệch của var(
22
).).
5.5. Do vậy, khoảng tin cậy và các kiểm định không Do vậy, khoảng tin cậy và các kiểm định không
chính xác.chính xác.
6.6. Dự báo dựa trên mô hình sai sẽ không đáng tin Dự báo dựa trên mô hình sai sẽ không đáng tin
cậy.cậy.
Hậu quả của sai sót mô hìnhHậu quả của sai sót mô hình
Đưa vào mô hình biến không có liên quanĐưa vào mô hình biến không có liên quan
Giả sử mô hình đúng như sau:Giả sử mô hình đúng như sau:
YY
)=)=
11
; ; E(E(
22
)=)=
22
; v; và à
E(E(
33
)=)=0; 0;
Hậu quả của sai sót mô hìnhHậu quả của sai sót mô hình
Phương sai sai số, Phương sai sai số,
22
, được ước , được ước
lượng đúng;lượng đúng;
Khoảng tin cậy và các kiểm định Khoảng tin cậy và các kiểm định
vẫn đáng tin cậy;vẫn đáng tin cậy;
Tuy nhiên, các ước lượng Tuy nhiên, các ước lượng không không
hiệu quả, tức là, phương sai của hiệu quả, tức là, phương sai của
chúng có thể lớn hơn phương sai chúng có thể lớn hơn phương sai
của của
PhPh
ươươ
ng pháp phát hing pháp phát hi
ệệ
kk
khai thác dkhai thác d
ữữ
lili
ệệ
u (data u (data
mining)mining)
chúng ta lchúng ta lựựa ra a ra kk bibiếến (n (k k ≤≤ cc))
mmứức ý nghĩa thc ý nghĩa thựực sc sựự ((
**) t) từừ mmứức ý c ý
nghĩa danh nghĩa (nghĩa danh nghĩa (
) có th) có thểể đđượược tính c tính
theo công ththeo công thứức sau:c sau:
* * ≈≈ (c/k).(c/k).
nnếếu u cc = 15, = 15, kk = 5, và = 5, và
= 5%, ta có = 5%, ta có
ththểể tính đtính đượược mc mứức ý nghĩa thc ý nghĩa thựực sc sựự là là
(15/5).(5) = 15%. (15/5).(5) = 15%.
llưưu ý ru ý rằằng khi ng khi c = kc = k thì sẽ không có thì sẽ không có
hihiệện tn tượượng ng khai thác dkhai thác dữữ liliệệuu. .
2. Ki2. Kiểểm đm địịnh binh biếến bn bịị bbỏỏ sót và sót và
ddạạng hàm sng hàm sốố không đúngkhông đúng
2.1 Ki2.1 Kiểểm tra phm tra phầần dn dưư
+ a+ a
33
XX
ii
22
+ u+ u
2i2i
(2)(2)
YY
ii
= a= a
11
+ a+ a
22
XX
ii
+ u+ u
3i3i
(3)(3)
-400
-200 0
200
400
Residuals
0 2 4 6 8 10
sanluong
3 2
1
2.2 Ki2.2 Kiểểm đm địịnh Durbinnh Durbin Watson dWatson d
HH
ChChấấpp nhnhậậnn
00 << dd << dd
LL
dd
LL
dd dd
UU
44 dd
LL
<< dd <<44
44 dd
UU
dd 44
dd
LL
dd
UU
dd 44 dd
UU
2.3 Ki2.3 Kiểểm đm địịnh RESET cnh RESET củủa a
RamseyRamsey
Để minh họa, ta trở lại hàm chi phí Để minh họa, ta trở lại hàm chi phí
tuyến tính theo sản lượng:tuyến tính theo sản lượng:
YY
ii
= =
11
+ +
22
XX
ii
22
và Yvà Y
ii
33
YY
ii
= =
11
+ +
22
XX
ii
+ +
33
YY
ii
22
+ +
44
YY
ii
33
+ u+ u
ii
(**)(**)
Đặt RĐặt R
22
từ (**) là Rtừ (**) là R
RamseyRamsey
MMộột thut thuậận ln lợợi ci củủa pha phươương pháp RESET ng pháp RESET
là nó dlà nó dễễ áp dáp dụụng bng bởởi vì nó không đòi i vì nó không đòi
hhỏỏi chúng ta phi chúng ta phảải bii biếết rõ các dt rõ các dạạng mô ng mô
hình liên quan. hình liên quan.
Tuy nhiên, đó cũng lTuy nhiên, đó cũng lạại là bi là bấất lt lợợi ci củủa a
phphươương pháp này bng pháp này bởởi vì khi chúng ta i vì khi chúng ta
bibiếết mô hình có sai sót, chúng ta t mô hình có sai sót, chúng ta
không có dkhông có dạạng mô hình tng mô hình tốốt ht hơơn đn đểể
thay ththay thếế. .
2.4 Ki2.4 Kiểểm đm địịnh hnh hệệ ssốố Lagrange (LM) Lagrange (LM)
đđốối vi vớới bii biếến thêm vàon thêm vào
NNếếu chúng ta so sánh hàm chi phí u chúng ta so sánh hàm chi phí
tuytuyếến tính vn tính vớới hàm chi phí bi hàm chi phí bậậc ba thì c ba thì
hàm tuyhàm tuyếến tính chính là mn tính chính là mộột t phiên bphiên bảản n
bbịị gigiớới hi hạạnn ccủủa hàm ba hàm bậậc ba.c ba.
HH
00
: h: hệệ ssốố ccủủa bia biếến sn sảản ln lượượng bình ng bình
phphươương và lng và lậập php phươương đng đềều bu bằằng ng
không. không.
CCác biến tiến hành:ác biến tiến hành:
KiKiểểm đm địịnh hnh hệệ ssốố Lagrange Lagrange
Ước lượng “phiên bản bị giới hạn” Ước lượng “phiên bản bị giới hạn”
bằng OLS và thu thập sai số, ebằng OLS và thu thập sai số, e
ii
Nếu “phiên bản không bị giới hạn” là Nếu “phiên bản không bị giới hạn” là
đúng thì eđúng thì e
i i
thỏa các giả định của mô hình CLRM.thỏa các giả định của mô hình CLRM.
Khi cở mẫu lớn, Khi cở mẫu lớn,
KiKiểểm đm địịnh hnh hệệ ssốố Lagrange Lagrange
Nếu nRNếu nR
22
> >
22
tra bảng, ta bác bỏ Htra bảng, ta bác bỏ H
00
: các hệ số : các hệ số
của Xcủa X
22
và Xvà X
33
bằng không; tức là chúng khác 0, bằng không; tức là chúng khác 0,
hay mô hình bỏ sót biến.hay mô hình bỏ sót biến.
Ví dụ: ta trở lại hàm chi phí tuyến tính:Ví dụ: ta trở lại hàm chi phí tuyến tính:
nR
2
= 10.(0,9896)=9,896 > 22 tra bảng = 9,2. Kết quả này
giống như kiểm định RESET.
3. Sai s3. Sai sốố ccủủa phép đo la phép đo lườườngng
ddữữ liliệệu có thu có thểể thithiếu ếu chính xác do mchính xác do mộột t
ssốố lý do nhlý do nhưư: :
•• sai ssai sốố khi cung ckhi cung cấấp thông tin, p thông tin,
•• sai ssai sốố khi báo cáo khi báo cáo
•• hay sai shay sai sốố tính toán. tính toán.
gây ra nhgây ra nhữững mô hình sai lng mô hình sai lệệchch
Chúng ta có thể xem xét hậu quả Chúng ta có thể xem xét hậu quả
của việc này trong 2 trường hợp:của việc này trong 2 trường hợp: