1
CHƯƠNG 2
MÔ HÌNH HỒI QUY HAI BIẾN VÀ MỘT SỐ
TƯ TƯỞNG CƠ BẢN
2.1 Phân tích hồi quy
Phân tích hồi quy nghiên cứu mối quan hệ phụ thuộc của một biến (gọi là biến
phụ thuộc hay biến được giải thích) với một hay nhiều biến khác (được gọi là biến độc
lập hay biến giải thích).
Ta xem xét các thí dụ sau đây:
Thí dụ 2.1: luật Galton Karl Pearson nghiên cứu sự phụ thuộc chiều cao của các cháu
trai vào chiều cao của bố những đứa trẻ này. Oâng đã xây dựng được
đồ thị chỉ ra phân
bố chiều cao của các cháu trai ứng với chiều cao của người cha. Qua mô hình này ta có
thể thấy:
Thứ nhất, với chiều cao đã biết của người cha thì chiều cao của các cháu trai sẽ
là một khoảng, dao động quanh giá trị trung bình.
Thứ hai, chiều cao của cha tăng thì chiều cao của các cháu trai cũng tăng. Mô
hình này được giải thích một điều mà Galton đặt ra và còn được dùng trong dự báo.
Chiều cao
của con
75
70
65
60
0 60 65 70 75 Chiều cao của bố
3
Giá thịt
bò
Lượng thịt bò
Hình 2.3: nhu cầu về thịt bò phụ thuộc vào giá thịt bò
Ta có thể đưa ra được rất nhiều ví dụ về sự phụ thuộc của một và một hoặc nhiều biến
khác. Kỹ thuật phân tích hồi quy giúp ta nghiên cứu mối quan hệ như vậy giữa các
biến.
Các ký hiệu: Y là biến phụ thuộc (hay biến được giải thích)
X
i
là biến độc lập (hay biến giải thích) thứ i
Trong đó, biến phụ thuộc Y là đại lượng ngẫu nhiên, có quy luật phân bố xác suất, các
biến độc lập X
i
không phải là biến ngẫu nhiên, giá trị của chúng được cho trước. Phân
Trong vật lý khi xét một chuyển động đều, người ta có công thức sau:
S = v.t
Trong đó: S là độ dài quãng đường đi
được
v là vận tốc trong một đơn vị thời gian
t là thời gian
Đây là quan hệ hàm số, ứng với mỗi giá trị của vận tốc và thời gian ta chỉ có
mộtgiá trị duy nhất của độ dài quãng đường, phân tích hồi quy không xét các quan hệ
này.
2.1.2 Hàm hồi quy và quan hệ nhân quả
Phân tích hồi quy nghiên cứu quan hệ giữa một biến phụ thuộc với một hoặc
nhiều biến độc lập khác.
Điều này không đòi hỏi giữa biến độc lập và biến phụ thuộc
có mối quan hệ nhân quả. Nếu quan hệ nhân quả tồn tại thì nó phải được xác lập dựa
trên các lý thuyết kinh tế khác. Thí dụ, luật cầu nói rằng trong điều kiện các biến (điều 5
kiện) khác không thay đổi thì nhu cầu về một loại hàng hoá tỷ lệ nghịch với giá của
chính hàng hóa đó hay trong thí dụ trên chúng ta có thể dự đoán sản lượng lúa dựa vào
lượng mưa và các biến khác, nhưng không thể chấp nhận được việc dự báo lượng mưa
bằng việc thay đồi sản lượng.
2.1.3 Hồi quy và tương quan
Hồi quy và tương quan khác nhau về: mục đích và kỹ thuật. Phân tích tương
quan trứơ
c hết là đo mức độ kết hợp tuyến tính giữa hai biến. Ví dụ: mức độ quan hệ
giữa kết quả thi môn thống kê và môn toán. Nhưng phân tích hồi quy lại ước lượng
hoặc dự báo một biến trên cơ sở giá trị đã cho của các biến khác. Về kỹ tuật trong phân
ngày ở TP. Hồ Chí Minh, hải Phòng, Nam Định.
2.2.2 Nguồn gốc các số liệu
Các số liệu có thể do các cơ quan Nhà nước, các tổ chức quốc tế, các công ty tư
vấn hay các các cá nhân thu thập. Chúng có thể là các số liệu thực nghiệm hoặc không
phải th
ực nghiệm. Các số liệu thực nghiệm thường được thu thập trong khoa học tự
nhiên, một điều tra viên muốn thu thập các số liệu ảnh hưởng của một số nhân tố đến
đối tượng nghiên cứu, anh ta đã giữ nguyên các yếu tố khác. Thí dụ, một kỹ sư nông
nghiệp nghiên cứu khả năng chịu bệnh của một giống lúa mới. Anh ta tiến hành thí
nghiệm bằng cách trồng hai giống lúa mới và cũ trên hai khu ruộng có độ màu mỡ như
nhau, thực hiện chế độ chăm sóc hai khu ruộng như nhau và theo dõi sự phát triển của
sâu bệnh trên hai khu ruộng này bằng cách gây cùng một loại bệnh trên hai khu ruộng.
Các số liệu thu được sẽ là các số liệu thực nghiệm.
Trong khoa học xã hội các số liệu nói chung là các số liệu không phải do thực
nghiệm mà có. Các số liệu về GDP, số người thất nghi
ệp, giá cổ phiếu,…không nằm
dưới sự kiểm soát của kỹ thuật viên. Điều này thường gây ra những vấn đề đặc biệt
trong việc tìm ra những nguyên nhân chính xác ảnh hưởng đến một tình huống riêng
biệt. Thí dụ, có phải giá thịt bò ảnh hưởng đến nhu cầu thịt bò hay còn có nhiều nguyên
nhân khác.
2.2.3 Nhược điểm của các số liệu 7
Chất lượng của các số liệu thu được thường không tốt. Điều đó do một số
nguyên nhân sau:
- Hầu hết các số liệu trong khoa học xã hội đều là các số liệu phi thực nghiệm. Do vậy,
có thể có sai số trong quan sát hoặc bỏ sót quan sát hoặc cả hai.
8
TN 1 tuần
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 170 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
88 113 125 140 160 189 185
115 162 191
(Nguồn tin: thu thập)
qụa vào số liệu ở bảng 2.1 trên ta có thể vẽ đường hồi quy tổng thể sau đây:
Chi têu
1 tuần
200
150
100 Hồi quy tổng thể
Y = β
1
+ β
2
X
i
+ U
i
(2.1) là hàm hồi quy tổng thể.
i
đại diện cho chúng. Trong thí dụ trình bày ở phần trên: số con trong gia đình,
giới tính, tôn giáo,…cũng ảnh hưởng đến chi tiêu trong gia đình
Về mặt kỹ thuật và kinh tế, chúng ta muốn có một mô hình đơn giản nhất có thể
được. Nếu như chúng ta có thể giải thích được hành vi của biến Y bằng một số nhỏ
nhất các biến giải thích và nếu như ta không biết tường minh những biến khác là
những biến nào có thể b
ị loại ra khỏi mô hình thì ta dùng yếu tố U
i
để thay cho tất cả
các biến này.
Trên đây là một vài lý do về sự tồn tại của U
i
. U
i
giữ vai trò đặc biệt trong phân
tích hồi quy, chúng phải thỏa mãn những điều kiện nhất định thì việc phân tích trên mô
hình hồi quy mới có ý nghĩa. Sẽ là sai lầm nghiêm trọng nếu như sử dụng một công cụ
mà không biết những điều kiện để sử dụng nó có được thỏa mãn hay không. Trong
phạm vi của tài liệu này chúng tôi quan tâm những điều kiện để vận dụng mô hình. Tuy
nhiên, trong thực tiễn nhữ
ng điều kiện này không phải bao giờ cũng được thỏa mãn và
các bạn có thể thấy cách phát hiện và biện pháp khắc phục nếu như có một số giả
thuyết của mô hình kkhông được thỏa mãn. Những vấn đề này sẽ được trình bày ở các
chương sau.
2.5 Hàm hồi quy mẫu
Vì sao chúng ta phải nghiên cứu hàm hồi quy mẫu do một số lý do sau: chúng ta
không có tổng thể hoặc có nhưng không thể nghiên cứu được toàn bộ
tổng thể vì thời
50
80 120 160 200 260 TN 1 tuần
Hình 2.4: hồi quy mẫu về chi tiêu phụ thuộc vào thu nhập 11
Vậy đường hồi quy mẫu nào sẽ đươc coi là thích hợp với PRF. Câu hỏi này
không trả lời được bởi lẽ PRF chưa biết. Cũng giống như ước lượng một tham số, ta sẽ
ước lượng PRF bằng SRF mà SRF này có tính chất: tuyến tính, không chệch, có
phương sai nhỏ nhất.
Giả sử rằng đường hồi quy mẫu có dạng:
Ý
i
= α1 + α2X
i
+ e
i
Trong đó: Ý
i
là ước lượng
của
Y
i
α1và α2 là ước lượng của β
1
và β
2
Vấn đề đặt ra là có thể đưa ra một phương pháp và một số điều kiện mà nhờ nó
SRF là ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất của PRF hay nói
cách khác đi α1và α2 gần nhất với giá trị thực β
1
và β
2
có thể được dù rằng chúng ta
12
không bao giờ biết giá trị thực của β
1
và β
2
. Vấn đề này sẽ được giải quyết ở chương
sau. Bài tập chương 2:
Bài 2.1 Anh/chị hãy cho một số ví dụ cụ thể hiện sự khác nhau giữa tương quan và hồi
quy.
Bài 2.2 : Giả sử ta cĩ số liệu về doanh số và chi phí quảng cáo như sau :
ĐVT : triệu đồng
Tháng 4 5 6 7 8/2009
Doanh số 155 175 320 450 650
Cpqc 35 35 65 68 79
ềm
EVIEWS”, Nhà xuất bản Khoa học và kỹ thuật, 2002.
3. Hồng Ngọc Nhậm, “Kinh tế lượng”, Trường Đại học kinh tế TP. HCM, 2005.