ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
- - - - - - O0O - - - - - -
Phạm Thị Thùy Như
ĐÁNH GIÁ CHẤT LƯỢNG
HỌC TẬP CỦA SINH VIÊN TRƯỜNG
ĐẠI HỌC KỸ THUẬT - Y TẾ HẢI DƯƠNG
Chuyên ngành: Xác suất và Thống kế toán học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ TOÁN HỌC
Người hướng dẫn khoa học:
PGS.TS. Hồ Đăng Phúc
Hà Nội - 2012
Mục lục
Lời nói đầu 3
1 Mô hình tuyến tính nhiều mức 6
1.1 Dữ liệu nhiều mức . . . . . . . . . . . . . . . . . . . . . 6
1.2 Sự cần thiết sử dụng mô hình phân tích nhiều mức . . . 7
1.3 Mức độ chính xác của các kết luận thống kê . . . . . . . 8
1.4 Ưu thế của mô hình nhiều mức . . . . . . . . . . . . . . 8
1.5 Mô hình tuyến tính nhiều mức và các ước lượng . . . . . 9
1.6 Mô hình 2 mức với hệ số ngẫu nhiên . . . . . . . . . . . 11
1.7 Hệ số tương quan nội tại . . . . . . . . . . . . . . . . . . 14
1.8 Mô hình 2 mức tổng quát bao gồm các hệ số ngẫu nhiên 17
1.9 Ước lượng cho mô hình nhiều mức . . . . . . . . . . . . . 18
1.10 Số dư trong mô hình 2 mức . . . . . . . . . . . . . . . . 21
1.11 Ước lượng số dư trong mô hình nhiều mức . . . . . . . . 23
1.12 Kiểm định giả thuyết và khoảng tin cậy . . . . . . . . . . 24
1.12.1 Tham số cố định . . . . . . . . . . . . . . . . . . 25
1.12.2 Tham số ngẫu nhiên . . . . . . . . . . . . . . . . 28
1
thấp. Có không ít trường đại học, cao đẳng sở hữu một đội ngũ giảng
viên chất lượng không cao, không có khả năng nghiên cứu dẫn đến một
thực trạng sinh viên được đào tạo ra không thích nghi được thực tế của
xã hội hiện tại. Để tận dụng được các cơ hội phát triển trong giáo dục và
đào tạo, hạn chế những mặt tồn tại, chúng ta cần phải nhận biết những
đặc điểm riêng của hệ thống giáo dục đào tạo, xác định được những quy
3
luật tự nhiên của hệ thống. Từ đó có thể vận hành hệ thống phù hợp
với những quy luật đó, tránh đưa ra những quyết sách mang nặng tính
chủ quan duy ý chí. Việc phát hiện những quy luật đó chỉ có thể thực
hiện được thông qua những nghiên cứu khoa học.
Sử dụng phương pháp thống kê nhiều mức dùng phần mềm Stata để
phân tích làm rõ một số yếu tố ảnh hưởng đến kết quả học tập của sinh
viên Trường Đại học Kỹ thuật Y tế Hải Dương, từ đó đưa ra một số
định hướng trong công tác đào tạo là mục tiêu của luận văn “Đánh giá
chất lượng học tập của sinh viên trường Đại học Kỹ thuật Y
tế Hải Dương”. Sau lời mở đầu, luận văn gồm có hai chương và danh
mục tài liệu tham khảo.
Chương I trình bày về phương pháp phân tích thống kê dùng trong
nghiên cứu là phương pháp phân tích nhiều mức. Trong đó trình bày
cụ thể về mô hình hồi quy hai mức cơ bản và mô hình nhiều mức tổng
quát.
Chương II đưa ra các kết quả phân tích ảnh hưởng của các yếu tố
giới tính sinh viên, điểm tuyển sinh đầu vào, nghề nghiệp của bố mẹ,
quê quán của sinh viên đến kết quả học tập của sinh viên. Tại đây các
phương pháp thống kê được áp dụng một cách phù hợp để đưa ra những
kết luận có tính thuyết phục, đảm bảo tính khoa học.
Luận văn này được hoàn thành tại Khoa Toán – Cơ – Tin thuộc
Trường ĐH Khoa học Tự nhiên – ĐHQG Hà Nội. Trước tiên tôi xin
bày tỏ lòng biết ơn sâu sắc nhất đến PGS.TS Hồ Đăng Phúc, người đã
minh được thu thập ở từng cá nhân trẻ em, nhưng kết luận có thể đưa
ra cho các gia đình và khu vực. Người ta nhận xét rằng những đứa trẻ
được sinh ra trong cùng một gia đình có xu hướng giống nhau về ngoại
hình và tính cách hơn những đứa được chọn ngẫu nhiên từ quần thể nói
chung.
Chúng ta đề cập đến sự phân cấp, trong đó các đơn vị được nhóm lại
ở các mức khác nhau. Lúc đó, trẻ em là đơn vị mức 1 được xếp trong
phạm vi gia đình, gia đình là đơn vị mức 2 được xếp lồng nhóm trong
phạm vi khu dân cư (đơn vị mức 3) và khu dân cư được lồng nhóm trong
phạm vi các phường (đơn vị mức 4).
6
1.2 Sự cần thiết sử dụng mô hình phân tích nhiều
mức
Một nghiên cứu về khả năng “học đọc” của trẻ em trường tiểu học
được thực hiện ở nước Anh năm 1970 chỉ ra rằng nhóm học sinh “chuộng
hình thức” có khả năng đọc tốt hơn. Dữ liệu được phân tích sử dụng các
kỹ thuật hồi quy truyền thống nhận các cá nhân là đơn vị phân tích,
bỏ qua ảnh hưởng của sự ghép nhóm theo các mức giáo viên và các lớp
học. Cách phân tích đó cho thấy ảnh hưởng của đặc tính “chuộng hình
thức” lên khả năng học đọc của học sinh là có ý nghĩa thống kê.
Sau đó, Aitkin và đồng sự (1981) lại chứng minh rằng khi phân tích
mà có tính đến việc phân trẻ em theo nhóm vào các lớp học riêng biệt,
thì hoàn toàn không có sự khác biệt mang tính thống kê giữa hai nhóm
học sinh “chuộng hình thức” và “không chuộng hình thức” về khả năng
học đọc. Kết quả phân tích này có ý nghĩa thống kê.
Cách phân tích này là một ví dụ quan trọng đầu tiên của phân tích
dữ liệu nhiều mức trong dữ liệu khoa học xã hội. Thực chất những gì
đang xảy ra ở đây là những trẻ em trong cùng một lớp học có xu hướng
tương tự nhau trong hoạt động của chúng. Cách lý giải khác là kỹ năng
học đọc có thể phụ thuộc nhiều vào khả năng truyền thụ của giáo viên
Thứ tư, với số lượng quan sát tương đối nhỏ ở các nhóm “cơ sở”, vẫn
có thể thu được các kết luận thống kê tốt cho mỗi nhóm bằng cách kết
hợp khai thác các thông tin ở các mức cao hơn hoặc từ toàn bộ số liệu.
1.5 Mô hình tuyến tính nhiều mức và các ước lượng
Phần này giới thiệu mô hình hai mức cùng với các khái niệm cơ bản
sẽ được sử dụng trong các phần tiếp theo. Chúng ta xem xét những cách
khác nhau trong việc xây dựng và phát triển mô hình cũng như giới
thiệu các thủ tục ước lượng các tham số, thiết kế và kiểm tra các hàm
của các tham số và xây dựng dựng khoảng tin cậy .
Để làm rõ vấn đề, chúng ta xét dữ liệu gồm 728 học sinh trong 50
trường cấp 1 ở London. Chúng ta xem xét hai thời điểm đo lường: Thời
điểm đầu là khi học sinh học lớp 4 của trường, tương ứng với năm các
em lên 8 tuổi và thời điểm thứ hai 3 năm sau đó, khi các em học năm
cuối ở trường tiểu học.
Chúng ta sử dụng điểm số bài kiểm tra môn Toán được thực hiện tại
hai thời điểm kể trên cùng với thông tin được sưu tập về lai lịch xã hội
và giới tính của học sinh.
Hình 1.1 là biểu đồ sự phân tán điểm kiểm tra môn toán của học sinh
11 tuổi với học sinh 8 tuổi. Trong biểu đồ này không cho thấy sự khác
biệt giữa học sinh thuộc các trường khác nhau.
Chú ý rằng đồ thị trên đây cho thấy có một khuynh hướng chung,
điểm số năm 8 tuổi có mối quan hệ hầu như đồng biến với điểm số năm
9
Hình 1.1: Sự phân tán điểm kiểm tra môn toán.
11 tuổi. Cũng cần chú ý rằng độ biến động của điểm số năm 11 tuổi sẽ
giảm đi nếu điểm số năm 8 tuổi của học sinh tăng lên.
Trong Hình 1.2 điểm số của 2 trường khác nhau đã được lựa chọn,
miêu tả bởi các ký hiệu khác nhau.
Hình 1.2:
Có hai điều thấy rõ ngay lập tức. So với trường được miêu tả bởi hình
Đây là mô hình chính thức cho hình 2 ở đó j quy ước cho đơn vị mức
2 và i quy ước cho đơn vị mức 1. Tuy nhiên (1.2) vẫn là mô hình đơn
giản, mặc dù đã miêu tả mối liên hệ tách rời của mỗi trường. Trong
một số trường hợp, ví dụ có vài trường và các điều quan tâm chính là
các trường trong mẫu, chúng ta có thể phân tích bằng cách sử dụng tất
cả 2n + 1 tham số, cụ thể là: (α
i
, β
j
), j = 1, . . . , n với phần dư của các
trường có phương sai chung là σ
2
.
1.6 Mô hình 2 mức với hệ số ngẫu nhiên
Để chính thức sử dụng (1.2) như một mô hình 2 mức, chúng ta coi
α
j
, β
j
là các biến ngẫu nhiên, và để thuận tiện, thay thế các ký hiệu α
j
bởi β
0j
và β
j
bởi β
1j
. Khi đó ta có
11
y
của các sai số ngẫu nhiên giống nhau ở tất cả các trường bằng σ
2
.
Qua tất cả các trường, các hệ số hồi quy β
.j
có một phân bố với kỳ
vọng 0 và phương sai nào đó. Giả sử
β
0j
= β
0
+ u
0j
β
1j
= β
1
+ u
1j
trong đó u
0j
, u
1j
là các sai số ngẫu nhiên (còn gọi là phần dư) , thể hiện
độ lệch giữa các trường, với các tham số
E(u
0j
) = E(u
1j
) = 0
x
ij
+ e
0ij
) (1.4)
var(e
0ij
) = σ
2
e0
12
Các hệ số β
0
, β
1
không thay đổi giữa các trường nên chúng không có
chỉ số j để biểu thị cho 1 trường nào mà chúng được áp dụng cho tất cả
các trường. Vì vậy các hệ số này được nói đến như các hệ số cố định, sự
biến đổi còn lại của tất cả các trường được thể hiện bởi β
0j
, β
1j
. Các hệ
số β
0j
, β
1j
được giả thiết thay đổi giữa các trường và được xác định qua
các phần dư u
0j
) = X
ij
β = (Xβ)
ij
, X = {X
ij
}
Trong đó {} là kí hiệu ma trận, X là ma trận thiết kế của các biến giải
thích, ứng với mô hình (1.4) ta có X = {1X
ij
} .
Các biến ngẫu nhiên được coi như số dư và trong trường hợp mô hình
một mức số dư e
0ij
thường trở thành số dư của mô hình tuyến tính thông
thường.
Để mô hình có tính nhất quán, tức là mỗi hệ số phải gắn với một biến
giải thích, chúng ta có thể định nghĩa thêm một biến giải thích mới cho
hệ số chặn và số dư u
0j
tương ứng với nó, biến này được gọi là x
0ij
và
chỉ nhận một giá trị hằng số bằng 1.
13
Đặc điểm để phân biệt (1.4) với các mô hình hồi quy tuyến tính hoặc
mô hình phân tích phương sai thông thường là sự hiện diện của nhiều
hơn một số dư, điều này đưa đến đòi hỏi phải có thủ tục đặc biệt để
ước lượng các tham số. Chú ý rằng cấu trúc của phần ngẫu nhiên trong
mô hình đóng một vai trò then chốt. Đồng thời, trong phần cố định các
u0
, σ
2
e0
,
var(y
ij
|β
0
, β
1
, x
ij
) = var(u
0
+ e
0ij
) = σ
2
u0
+ σ
2
e0
.
Đây là tổng phương sai ở mức 1 và mức 2.
Với dữ liệu nghiên cứu giáo dục xét đến trên đây, mô hình này cho
thấy phương sai toàn phần cho mỗi học sinh là hằng số và hiệp phương
sai giữa 2 học sinh (kí hiệu i
1
, i
σ
2
u0
+ σ
2
e0
Như vậy tương quan nội tại nhóm bằng tỷ lệ của phương sai mức
nhóm so với phương sai của toàn bộ ước lượng và nó được coi như là
tương quan nội tại trong đơn vị mức 2, trong trường hợp này là tương
quan nội tại lớp.
Trong mô hình 3 mức là các mức trường, lớp và học sinh, chúng ta
có 2 mối tương quan nội tại, đó là mối tương quan nội tại trường đo
bằng tỷ lệ phương sai giữa các trường trên toàn bộ các phương sai và
mối tương quan nội tại lớp đo tương ứng bằng tỷ lệ của phương sai giữa
các lớp học trên phương sai toàn phần.
Bây giờ chúng ta xem xét chi tiết hơn ở cấu trúc tập dữ liệu 2 mức,
xem xét cấu trúc của hiệp phương sai trong ma trận A. Đây là ma trận
hiệp phương sai cấp 3x3 cho điểm số của 3 học sinh trong một trường:
A =
σ
2
u0
+ σ
2
e0
Đối với 2 học sinh của một trường khác, ta có ma trận hiệp phương sai
15
cấp 2x2 sau đây:
B =
σ
2
u0
+ σ
2
e0
σ
2
u0
σ
2
u0
σ
2
u0
+ σ
2
e0
2
e0
I(2)
trong đó I(n) là ma trận đơn vị cấp nxn, J(n) là ma trận cấp nxn với
tất cả các phần tử bằng 1.
Trong mô hình hồi quy đơn bình phương bé nhất cổ điển, σ
2
u0
= 0 và
ma trận hiệp phương sai này được giản ước thành σ
2
I Với σ
2
là phương
sai của các phần dư.
16
1.8 Mô hình 2 mức tổng quát bao gồm các hệ số
ngẫu nhiên
Chúng ta có thể mở rộng (1.4) để có nhiều hơn các biến giải thích với
hệ số dốc cố định,
y
ij
= β
0
+ β
1
x
ij
+ e
0ij
z
0ij
trong đó, chúng ta sử dụng thêm biến giải thích Z cho phần ngẫu nhiên
của mô hình và viết một cách tổng quát là
Z = {Z
0
, Z
1
}
với Z
0
= {1} là vectơ bao gồm tất cả các thành phần bằng 1, còn
Z
1
= {x
1ij
}.
Một biến giải thích có thể được đo ở mức bất kỳ nào đó, ví dụ chúng
ta có các đặc điểm học sinh đo được ở mức 1, hoặc đặc điểm của trường
đo được ở mức 2.
Trong mô hình trên, hệ số dốc của biến giải thích X
1
có phần ngẫu
nhiên ở mức 2, làm nảy sinh cấu trúc khối. Ma trận Ω
2
là ma trận hiệp
phương sai của các phần ngẫu nhiên ở mức 2 của hệ số chặn và của hệ
số dốc. Ma trận Ω
2j
) + σ
2
u1
x
2
1j
x
2
2j
C = (σ
2
u0
+ 2σ
u01
x
2j
+ σ
2
u1
x
2
2j
+ σ
2
e0
)
Khi đó
, Ω
2
=
σ
2
u0
σ
u01
σ
u01
σ
2
u1
, Ω
1
= σ
2
e0
1.9 Ước lượng cho mô hình nhiều mức
Bây giờ, chúng ta trình bày khái quát về phương pháp Ước lượng bình
phương bé nhất suy rộng (GLS). Xét mô hình đa thành phần phương
sai 2 mức đơn giản
y
ij
= β
X)
−1
X
T
V
−1
Y (1.6)
18
trong đó
X =
1 x
11
1 x
21
.
.
.
.
.
.
1 x
n
(1.7)
Với m là số đơn vị mức 2 và n
j
số đơn vị mức 1 trong đơn vị thứ j
mức 2. Khi số dư có phân phối chuẩn, (1.6) cũng cung cấp các ước lượng
hợp lý cực đại.
Thủ tục tính lặp sẽ được sử dụng trong quá trình ước lượng các tham
số của mô hình trong phần tiếp sau đây. Chúng ta bắt đầu từ việc ước
lượng một cách hợp lý các tham số cố định. Người ta thường sử dụng
phương pháp ước lượng bình phương bé nhất cổ điển và giả định σ
2
u0
= 0
để ước lượng giá trị ban đầu của hệ số cố định
ˆ
β
0
. Từ đó ta có công thức
tính các số dư thô
˜y
ij
= y
Mối liên hệ giữa vectơ này và giá trị của các phương sai có thể được biểu
diễn như mô hình hồi quy tuyến tính sau:
˜y
2
11
˜y
2
21
.
.
.
˜y
2
n
m
m
+R = σ
2
u0
1
1
.
.
.
1
và vế phải bao gồm 2 biến giải thích, với các hệ số σ
2
u0
, σ
2
e0
tương ứng
cần ước lượng. Việc giải phương trình hồi quy trên đây sẽ cung cấp cho
chúng ta giá trị ước lượng của các phương sai, qua đó xác định được giá
trị mới của ma trận hiệp phương sai V. Đưa ma trận mới thu được vào
(1.6), chúng ta thu được ước lượng mới của các tham số cố định và sử
dụng chúng vào chu trình tiếp theo của quá trình lặp.
Ước lượng các tham số cố định đến khi chúng hội tụ, tức là khi giá
trị của các tham số tại hai bước lặp liên tiếp không thay đổi một cách
đáng kể. Cuối cùng chúng ta sẽ thu được ước lượng xấp xỉ của các tham
số cố định và các tham số ngẫu nhiên của mô hình hồi quy nhiều mức.
Tổng hợp lại, quá trình ước lượng tham số bằng phương pháp bình
phương bé nhất suy rộng gồm các bước sau:
+) Bước 1: Nhập số liệu.
+) Bước 2: Cho (σ
2
u0
= 0) , ước lượng “thô” ma trận hiệp phương sai
V.
+) Bước 3: Ước lượng
ˆ
β = (X
T
V
−1
1.10 Số dư trong mô hình 2 mức
Trong mô hình 1 mức đơn như (1.1), chúng ta thường ước lượng số
dư một cách đơn giản bằng . Trong mô hình nhiều mức, chúng ta thường
có nhiều số dư ở các mức khác nhau. Cách ước lượng của các số dư đó
được trình bày tiếp sau đây.
Cho trước giá trị ước lượng của các tham số ước lượng, ta xem xét dự
đoán giá trị của từng số dư cụ thể, chẳng hạn như ứng với mức 2 trong
mô hình nhiều thành phần phương sai. Đối với mỗi đơn vị ở mức 2 phải
có
ˆu = E(u
0j
|Y,
ˆ
β,
ˆ
Ω) (1.10)
Chúng ta sẽ coi đó là các số dư được ước lượng hoặc số dư được dự
đoán. Nếu bỏ qua phần biến động do chọn mẫu có thể xuất hiện khi ước
lượng tham số trong (1.10), chúng ta có
cov(˜y
ij
, u
0j
) = var(u
0j
) = σ
2
u0
cov(˜y
ij
σ
2
u
(n
j
σ
2
u
+ σ
2
e0
)
˜y
j
ˆe
0ij
= ˜y
ij
− ˆu
0j
˜y
j
=
i=1
˜y
ij
/n
biến động giữa những đơn vị mức 2, cung cấp ước lượng hiệu quả cho
các hệ số cố định. Mặt khác, có thể coi chúng được như ước lượng đơn
lẻ của mỗi đơn vị mức 2 khi ta sử dụng giả thiết cho rằng chúng thuộc
về quần thể của các đơn vị dùng để dự đoán của chúng. Cụ thể, đối với
những đơn vị mức 2 mà ở đó chỉ có vài đơn vị mức 1, nếu khai thác cả
các thông tin từ các đơn vị mức 2 khác, chúng ta có thể thu được ước
lượng chính xác hơn là khi nếu chúng ta chỉ dùng thông tin của riêng
từng đơn vị mức 2 này. Điều này đặc biệt quan trọng đối với việc ước
lượng số dư của các hệ số ngẫu nhiên trong trường hợp mỗi đơn vị mức
22
2 chỉ có 1 đơn vị mức 1.
Như trong những mô hình một mức, chúng ta có thể sử dụng những
số dư ước lượng được để kiểm tra giả thiết của mô hình. Có hai giả thiết
thường được xét đến là giả thiết về tính phân phối chuẩn và tính phương
sai bất biến trong mô hình. Chúng ta cần có ước lượng khoảng của các
tham số cũng như xác suất ý nghĩa của ước lượng điểm cho các số dư
hoặc các hàm của chúng. Các vấn đề đó được xét đến trong các mục tiếp
theo đây.
1.11 Ước lượng số dư trong mô hình nhiều mức
Tập hợp của m
h
số dư ở mức h trong mô hình nhiều mức được cho
bởi
P
h
= {P
h
1
, . . . , P
h
Y , V )
với
˜
Y = Y − Xβ.
Chúng ta xem xét đường hồi quy của tập tất cả các số dư P
h
trên
˜
Y
đưa ra ước lượng
ˆ
P
h
= R
T
h
V
−1
˜
Y (1.12)
với R
h
là ma trận khối chéo, mỗi khối tương ứng với một đơn vị mức h
và khối thứ j được cho bởi Z
h
(j)
Ω
h
, với Z
h
kê cho giá trị đúng của P
h
j
, chẳng hạn như về khoảng tin cậy hoặc kiểm
định sự khác nhau, thì cần sử dụng ma trận hiệp phương sai có điều
kiện của
ˆ
P
h
hoặc E[(
ˆ
P
h
− P
h
)(
ˆ
P
h
− P
h
)
T
] được đưa ra bằng cách gán các
tham số ước lượng được vào
S
h
− R
T
h