TỔNG CỤC THỐNG KÊ
VIỆN KHOA HỌC THỐNG KÊ
BÁO CÁO CHUYÊN ĐỀ:
PHƢƠNG PHÁP VÀ MÔ HÌNH DỰ BÁO SỐ
LƢỢNG HỌC SINH, SINH VIÊN, SỐ NĂM ĐI HỌC
BÌNH QUÂN
Thuộc đề tài: Nghiên cứu ứng dụng các phương
pháp dự báo để dự báo một số chỉ tiêu thống kê xã
hội chủ yếu ở Việt nam Người biên sọan:
Lê Văn Dụy
Nguyễn Thị Thu Huyền HÀ NỘI, 10/ 2009 2
MỞ ĐỀ
Nâng cao dân trí trở thành mục tiêu của nhiều quốc gia, bởi vì dân trí càng
cao nền dân chủ càng vững và sự phát triển kinh tế xã hội càng nhanh và bền.
Phát triển giáo dục phổ thông và đại học là một trong những con đƣờng chủ yếu
để nâng cao dân trí. Với lý do này các quốc gia luôn trú trọng đến việc mở
phải tiến hành nhiều bƣớc và nhiều thông tin khác nhau, song lại có ƣu điểm
lứon là dễ cho kết quả sát thực, đồng thời lại cung cấp các thông tin chi tiết hơn
so với phƣơng pháp dãy số thời gian.
2.1. Dự báo số lượng học sinh và sinh viên theo phương pháp dãy số
thời gian
Để dự báo số lƣợng học sinh, sinh viên bằng phƣơng pháp dãy số thời
gian cần thực hiện các bƣớc sau:
+ Thu thập thông tin về hai chỉ tiêu này theo thời gian với thời kỳ thống
nhất (thƣờng là theo năm). Các số liệu này cũng phải đồng nhất về mặt phạm vi
có nhƣ vậy chúng mới phản ánh đúng xu thế phát triển của chỉ tiêu.
+ Xác định một phƣơng trình toán học (mô hình) khả dĩ có thể mô tả tốt
quy luật phát triển của dãy số và sử dụng nó để dự đoán.
Việc ƣớc lƣợng các tham số của phƣơng trình thƣờng dựa vào phƣơng
pháp bình phƣơng nhỏ nhất.
Nhƣ đã trình bày, dự báo số lƣợng học sinh, sinh viên theo dãy số thời
gian có các ƣu điểm sau:
Thứ nhất, nó đơn giản, dễ làm;
4
Thứ hai, nhanh chóng cho ra kết quả dự báo cần thiết.
Tuy nhiên, nó có các nhƣợc điểm sau đây:
Thứ nhất, khó thu thập thông tin cho một dãy số liệu dài. Mặt khác, các
thông tin có đƣợc thƣờng mức độ sát thực thấp và số liệu giữa các thời kỳ
thƣờng có phạm vi không đồng nhất do vậy kết quả dự báo thu đƣợc cũng có
mức độ sát thực thấp.
Thứ hai, số liệu dự báo thu đƣợc chỉ là một con số tổng hợp mà không
tách ra đƣợc theo giới tính và nhóm tuổi nên tác dụng của dự báo cũng bị hạn
chế theo.
Thí dụ, dựa vào dãy số liệu thống kê về số học sinh trung học phổ thông
do TCTK công bố cho giai đoạn 2000-2008 ta sẽ tiến hành dự báo số học sinh
2171.4
2115.2
01-02
7
2301.2
2303.6
02-03
8
2454.2
2476.2
03-04
9
2589.6
2633.2
04-05
10
2761.1
2774.5
05-06
11
2975.3
2900.0
06-07
12
3075.2
3009.8
07-08
13
3021.6
3103.9
2000
2500
3000
3500
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
yt y’t
Sử dụng chƣơng trình SPSS đã xác định đƣợc hàm số bậc hai mô tả tốt
nhất quy luật phát triển theo thời gian của chỉ tiêu số học sinh trung học phổ
thông. Điều này thể hiện rất rõ thông qua hệ số tƣơng quan R và hệ số mô tả R
2
ƣớc lƣợng đƣợc. Hệ số tƣơng quan thu đƣợc bằng
996.0R
. Kết qủa này cho
thấy giữa chỉ tiêu số học sinh trung học phổ thông và biến thời gian có mối
quan hệ rất chặt. Hệ số mô tả thu đƣơc:
993.0
2
R
. Điều này cho thấy biến thời
gian mô tả đƣợc tới 99,3% sự biến động của chỉ tiêu số học sinh trung học phổ
thông. Hơn thế nữa, sai số dự báo tuyệt đối và tƣơng đối đều ở mức độ thấp (các
con số tƣơng ứng là 55,9 nghìn học sinh và 2,5%). Nhƣ vậy, ta có thể kết luận là
hàm số bậc hai phù hợp với việc mô tả sự biến động theo thời gian của chỉ tiêu
số học sinh trung học phổ thông và có thể yên tâm sử dụng nó để dự báo.
Theo kết quả tính toán, niên khoá 2008-2009 số học sinh trung học phổ
thông của Việt nam là 3182,3 nghìn em, còn vào niên khóa 2009-2010 là 3245
tuổi đƣợc trình bày ở bảng 2 ta sẽ tiến hành dự báo số học sinh và sinh viên cho
niên khóa 2008-2009
1
. Có hai phƣơng án dự báo. Thứ nhất, chỉ dự báo tổng số
học sinh và sinh viên. Thứ hai, dự báo số học sinh và sinh viên theo giới tính và
nhóm tuổi.
Để thực hiện phƣơng án thứ nhất, cần dự báo tỷ lệ học sinh và sinh viên
trong dân số từ 6 tuổi đến 24 tuổi (nhóm tuổi này là bộ phận cấu thành lớn nhất
của học sinh, sinh viên). Còn để thực hiện dự báo theo phƣơng án thứ hai, cần
tính đƣợc tỷ lệ đi học theo giới tính và nhóm tuổi.
Bảng 2: Kết quả dự báo dân số năm 2009 theo phương pháp thành
phần cho các nhóm tuổi đang ở độ tuổi đi học
Đơn vị: nghìn người
Nhóm
tuổi
Dân số dự báo
Tỷ lệ đi học dự báo
Số người đi học dự báo
Nam
Nữ
Nam
Nữ
Nam
Nữ
Tổng
5-9
3918
3637
0.683
0.682
8595
7815
16410
Bảng 2 trình bày kết quả dự báo số ngƣời đang đi học của các nhóm tuổi
vào năm 2009 theo phƣơng pháp thành phần. Cả ba cột lớn đều là các con số dự
báo. Cột lớn thứ nhất đƣợc lấy từ dự báo dân số theo phƣơng pháp thành phần.
Cột lớn thứ hai đƣợc lấy từ dự báo tỷ lệ đang đi học của các nhóm tuổi. Cột lớn
thứ ba là kết quả tổng hợp của hai dự báo trên. Theo kết quả dự báo, năm 2009
Việt Nam có 16,41 triệu ngƣời trong độ tuổi từ 5-24 đang đi học, trong đó nam
là 8,6 triệu ngƣời còn nữ là 7,81 triệu ngƣời.
1
Do chƣa có số liệu của năm 2009 nên sử dụng số liệu của TĐTDS 1999 làm cơ sở dự báo thử nghiệm.
8
Số liệu dự báo về số ngƣời đang đi học theo nhóm tuổi là cơ sở cho công
tác lập kế hoạch xây dựng trƣờng lớp cho học sinh ở các cấp học khác nhau. Mặt
khác nó cũng cho biết khả năng nâng cao trình độ dân trí của nƣớc ta nhƣ thế
nào trong tƣơng lai.
III. CÁC PHƢƠNG PHÁP DỰ BÁO SỐ NĂM ĐI HỌC BÌNH QUÂN
Số năm đi học bình quân là một chỉ tiêu thƣờng đƣợc quan tâm trong lĩnh
vực giáo dục. Lý do dễ thấy là nó phản ánh một phần trình độ dân trí nói chung
của dân cƣ. Nhìn chung, số năm đi học càng nhiều trình độ dân trí càng cao. Vì
vậy việc dự đoán chỉ tiêu này có tầm quan trọng trong việc hoạch định chính
sách về giáo dục quốc gia. Có nhiều phƣơng pháp khác nhau đƣợc sử dụng để
dự báo số năm đi học bình quân của một quốc gia. Tuy nhiên, về mặt tổng quát
có thể coi có hai phƣơng pháp cơ bản là phƣơng pháp dãy số thời gian và
các yếu tố đƣa vào mô hình dự báo. Thông thƣờng, do tầm dự báo thƣờng ngắn,
nên hàm tuyến tính đa biến đƣợc chọn làm mô hình dự báo. Tức là mô hình
dạng sau đây đƣợc sử dụng để dự báo:
kk
XaXaXaaY
22110
Trong đó, Y là tỷ lệ thất nghiệp,
i
a
, i=1,2, , k là tham số của mô mình,
i
X
, i=1,2, ,
k là các biến có quan hệ với số năm đi học (Y).
Trong thực tế dự báo, mô hình trên có thể ứng dụng theo không gian và
cũng có thể đƣợc dụng theo thời gian. Theo không gian có nghĩa là thông tin về
các biến đƣợc thu thập cho các cá nhân hoặc tỉnh, thành phố trên phạm vi toàn
quốc để từ đó ƣớc lƣợng các thông số của mô hình. Khi các thông số của mô
hình đã đƣợc ƣớc lƣợng có thể tiến hành dự báo. Để dự báo, trƣớc tiên phải dự
10
báo các biến của mô hình sau đó lắp vào mô hình để tính số năm đi học. Theo
thời gian có nghĩa là số liệu của các biến phải thu thập theo thời gian để ƣớc
lƣợng các tham số của mô hình, sau đó để tiến hành dự báo phải tiến hành một
bƣớc tiếp theo là dự báo từng yếu tố của mô hình và lắp vào phƣơng trình dự
báo.
Thí dụ, dựa vào số liệu thu đƣợc từ tổng điều tra dân số năm 1989 của các
tỉnh thành phố chúng tôi tiến hành xây dựng mô hình mô tả mối quan hệ giữa
chỉ tiêu (biến) “Số năm đi học bình quân (SONAMDH)” với các chỉ tiêu “Số
TLNUCHUH
.559(**)
446(**)
1 TUOIKH
.438(**)
365(*)
.663(**)
1
CBR
629(**)
.557(**)
801(**)
544(**)
1
N
40
40
40
40
40
** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed).
PHỤ LỤC
Phụ lục 1
Một số chỉ tiêu thống kê của các tỉnh, thành phố qua kết quả Tổng điều tra dân số 1989 Số năm đi
học bình
quân
Số người
bình quân
một hộ
Tỷ lệ nữ là
chủ hộ
Tuổi kết hôn
lần đầu bình
quân của
Nam
CBR
Hà Nội
5.9
4.3
39.2
24.8
27.2
TP. Hồ Chí Minh
5.2
5.3
49.6
27.1
21.1
Hoàng Liên Sơn
3.7
5.4
30.6
22.7
39.6
Bắc Thái
5.1
4.9
31.8
22.4
32.6
Sơn La
3.1
6.3
20.4
21.6
43.5
Vĩnh Phú
5.5
4.6
36.8
23.6
32.1
Hà Bắc
4.9
4.6
29.0
22.3
32.3
Thanh Hóa
4.8
4.5
27.2
23.3
33.9
Nghệ An
5.0
4.6
25.2
23.6
34.0
Bình Trị Thiên
4.7
4.8
29.9
24.8
32.7
Quảng Nam Đà Nẵng
4.2
4.6
36.4
25.1
29.8
NGhĩa Bình
4.0
4.6
33.3
23.9
32.7
Sông Bé
3.9
4.9
35.9
24.7
32.9
Tây Ninh
3.8
5.1
32.7
23.8
32.1
Đồng Nai
4.0
5.4
29.6
25.6
35.0
Long An
3.9
5.1
35.7
23.9
29.3
Đồng Tháp
3.4
5.4
27.3
23.5
31.1
Kiên Giang
3.3
5.5
27.7
23.8
35.7
Minh Hải
3.3
5.8
24.5
23.6
36.0
Vũng Tàu Côn Đảo
5.4
5.1
42.8
26.3
28.1
13
Phụ lục 2
Kết quả tính toán
Model Summary
Model
R
R Square
Adjusted R
Square
-1.048
.174
659
-6.036
.000
CBR
022
.027
137
839
.407
TLNUCHU
H
.022
.022
.155
1.025
.312
a Dependent Variable: SONAMDH 15
MỤC LỤC
MỞ ĐỀ 2
I. KHÁI NIỆM VÀ ĐỊNH NGHĨA 2