ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PHẠM THỊ THU SƯƠNG ỨNG DỤNG
PHÂN TÍCH SỐ LIỆU ĐỊNH TÍNH NHIỀU CHIỀU
VÀO BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG ĐÀO TẠO
CỦA TRƯỜNG ĐẠI HỌC
Chuyên ngành : Lý thuyết xác suất và thống kê toán học
Mã số : 60 46 15
LUẬN VĂN THẠC SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC
Mục lục 2 Luận văn thạc só toán học
MỤC LỤC
Trang
Lời cảm ơn 1
Mục lục 2
Lời giới thiệu 5
Chương I: Kiến thức Đại số và Xác suất Thống kê 6
§1.1 Matrận 6
1.1.1 Biểu diễn ma trận dưới dạng các ma trận con . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Matrậnxácđònhdương 6
1.1.3 Giátròriêngvàvector riêng 7
§1.2 Các đặc trưng của số liệu nhiều chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Trung bình và phương sai của biến ngẫu nhiên một chiều . . . . . . . . . . . . . . . . 11
1.2.2 Hiệp phương sai và hệ số tương quan của biến ngẫu nhiên hai chiều . . . . . . 11
1.2.2.1 Hiệpphươngsai 11
1.2.2.2 Hệsốtươngquan 12
1.2.3 Vectortrungbình 13
1.2.4 Matrậnhiệpphương sai 14
1.2.5 Matrậntươngquan 15
1.2.6 Tổhợptuyếntínhcủa cácbiến 16
1.2.6.1 Cáctính chấtcủamẫu 16
1.2.6.2 Cáctính chấtcủaphânphối 19
§1.3 Phânphốichuẩnnhiềuchiều 20
1.3.1 Hàm mật độ của phân phối chuẩn nhiều chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.1.1 Hàm mật độ của phân phối chuẩn một chiều . . . . . . . . . . . . . . . . . . . . . 20
1.3.1.2 Hàm mật độ của phân phối chuẩn nhiều chiều . . . . . . . . . . . . . . . . . . . .20
1.3.1.3 Phươngsaitổngquát 20
1.3.1.4 Tính đa dạng của các ứng dụng chuẩn nhiều chiều . . . . . . . . . . . . . . . . 21
1.3.2 Các tính chất của biến ngẫu nhiên có phân phối chuẩn nhiều chiều . . . . . . . 21
Mục lục 3 Luận văn thạc só toán học
2.2.6.1 Kiểmđònhhồiqui tổngthể 40
2.2.6.2 Kiểm đònh trên một tập con các giá trò của x 42
2.2.7 Hồi qui đa biến nhiều chiều với x ngẫunhiên 43
Chương III: Phân tích nhân tố 44
§3.1 Môhìnhnhântố trựcgiao 44
3.1.1 Đònh nghóa mô hình và các giả thiết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Mục lục 4 Luận văn thạc só toán học
3.1.2 Tính không duy nhất của các hệ số tải . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
§3.2 Ước lượng các hệ số tải và phương sai tương đối . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .50
3.2.1 Phươngphápthànhphầnchính 50
3.2.2 Phươngphápnhântố chính 53
3.2.3 Phươngphápnhântố chínhlặp 55
3.2.4 Phươngpháphợplýcựcđại 55
§3.3 Chọnlựa sốnhântố 57
§3.4 Phépquay 59
3.4.1 Giớithiệu 59
3.4.2 Phépquaytrựcgiao 59
3.4.2a Phương phápđồthò 60
3.4.2b Phépquayvarimax 60
3.4.3 Phépquayxiên 60
3.4.4 Sựgiảithíchcácnhântố 61
§3.5 Giátrònhântố 62
Chương IV: Ứng dụng vào bài toán đánh giá chất lượng đào tạo của trường Đại học . 64
4.1 Bàitoán 64
4.2 Mô tả số liệu và Phân tích, đánh giá. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .64
4.3 Nhậnxét 76
Kết luận 77
Tài liệu tham khảo 78
Lời giới thiệu 5 Luận văn thạc só toán học
LỜI GIỚI THIỆU
Để thuận tiện ta thường chia nhỏ ma trận dưới dạng các ma trận con. Chẳng hạn chia
nhỏ ma trận A thành bốn ma trận con như sau:
A =
A
11
A
12
A
21
A
22
Xét tích hai ma trận A và B. Nếu hai ma trận A và B được chia nhỏ sao cho các ma
trận con là tương thích của phép nhân ma trận thì tích AB có thể được biểu diễn dưới dạng
phép nhân ma trận thông thường:
AB =
A
11
A
12
A
21
A
22
B
11
B
B
21
A
21
B
12
+ A
22
B
22
(1.1.1)
Nhân một ma trận với một vector dưới dạng ma trận được chia nhỏ như sau:
Ab =
A
1
A
2
b
1
b
2
= A
1
b
1
Ma trận đối xứng A được gọi là xác đònh dương nếu x
Ax > 0 với mọi vector x =0.
Tương tự, A là ma trận nửa xác đònh dương nếu x
Ax ≥ 0 với mọi vector x =0.
với
x
Ax =
i
a
ii
x
2
i
+
i=j
a
ij
x
i
x
j
Chương I: Kiến thức Đại số và Xác suất Thông kê 7 Luận văn thạc só toán học
Các phần tử trên đường chéo a
ii
của ma trận xác đònh dương là dương. Tương tự cho
Một ma trận xác đònh dương A có thể phân tách thành :
A = T
T (1.1.3)
với T là ma trận nửa tam giác trên. Theo thuật toán Cholesky, các phần tử của T được tính
như sau:
Đặt A =(a
ij
) và T =(t
ij
) là n ×n, thì:
t
11
=
√
a
11
; t
1j
=
a
1j
t
11
2 ≤ j ≤ n,
t
ii
=
=0 1≤ j<i≤ n
1.1.3 Giá trò riêng và vector riêng
1.1.3.1 Đònh nghóa
Với mọi ma trận vuông A, một vô hướng λ và một vector x khác 0 thỏa:
Ax = λx. (1.1.4)
thì λ được gọi là một giá trò riêng của A và x là vector riêng của A ứng với λ, cũng có thể
viết:
(A − λI)x = 0. (1.1.5)
Nếu |A −λI|=0thì (A −λI) có nghòch đảo và x = 0 là nghiệm duy nhất. Vì vậy để
có nghiệm không tầm thường, ta thiết lập |A −λI| =0để tìm giá trò λ và thay vào (1.1.5)
để tìm giá trò x tương ứng.
Phương trình |A −λI| =0gọi là phương trình đặc trưng. Nếu A là n ×n, A sẽ có n
vector riêng λ
1
,λ
2
, ,λ
n
. Các giá trò λ không nhất thiết phân biệt hay khác 0.
Chương I: Kiến thức Đại số và Xác suất Thông kê 8 Luận văn thạc só toán học
Ta nhân hai vế của (1.1.5) với một vô hướng k, ta được:
(A − λI)kx = k0 = 0. (1.1.6)
Như vậy nếu x là một vector riêng của A thì kx cũng là một vector riêng. Do đó ta có thể
chuẩn hóa vector riêng x: x
x =1.
1.1.3.2 Vết và đònh thức của ma trận A
Giả sử ma trận vuông A có các giá trò riêng là λ
1
,λ
1
, x
2
, ,x
n
) chứa các vector riêng chuẩn hoá của ma trận đối xứng
A (n ×n) thì C trực giao. Với I = CC
= C
C. Ta có:
A = ACC
A = A(x
1
, x
2
, ,x
n
)C
Chương I: Kiến thức Đại số và Xác suất Thông kê 9 Luận văn thạc só toán học
=(Ax
1
, Ax
2
, ,Ax
n
)C
0 λ
2
0
.
.
.
.
.
.
.
.
.
00 λ
n
(1.1.10)
Mặt khác, C
AC = D.
1.1.3.6 Ma trận căn bậc hai
Nếu A là ma trận xác đònh dương, thì
A
1/2
.
.
.
.
.
00
√
λ
n
(1.1.12)
A
1/2
A
1/2
=(A
1/2
)
2
= A. (1.1.13)
1.1.3.7 Ma trận bình phương và ma trận nghòch đảo
Nếu ma trận vuông, đối xứng A có các giá trò riêng λ
1
−1
có các giá trò riêng 1/λ
1
, 1/λ
2
, ,1/λ
n
và các
vector riêng x
1
, x
2
, ,x
n
.
A
2
= CD
2
C
, (1.1.14)
A
−1
= CD
−1
C
, (1.1.15)
với C =(x
Chương I: Kiến thức Đại số và Xác suất Thông kê 10 Luận văn thạc só toán học
1.1.3.8 Phân tích giá trò suy biến
Chúng ta có thể biểu diễn ma trận thực A dưới hình thức các giá trò riêng và vector
riêng của A
A và AA
. Đặt A là ma trận n × p, có hạng k. Phân tích giá trò suy biến của
A là:
A = UDV
(1.1.16)
với U
n×k
, D
k×k
, và V
p×k
. Các phần tử trên đường chéo của ma trận D = diag(λ
1
,λ
2
, ,λ
k
)
là căn bậc hai của các giá trò riêng khác 0 của A
A hay của AA
; k cột của U là các vector
§ 1.2 CÁC ĐẶC TRƯNG CỦA SỐ LIỆU NHIỀU CHIỀU
1.2.1 Trung bình và phương sai của biến ngẫu nhiên một chiều
Biến ngẫu nhiên là biến mà giá trò phụ thuộc vào kết quả của một thí nghiệm ngẫu
nhiên.
Trung bình phân phối của một biến ngẫu nhiên y là trung bình của tất cả các giá trò có
thể có của y, được ký hiệu là µ, cũng được đề cập đến như giá trò kỳ vọng của y, E(y).
Trung bình mẫu của một mẫu ngẫu nhiên cỡ ny
1
,y
2
, ,y
n
là:
y =
1
n
n
i=1
y
i
(1.2.1)
Tổng quát, y không bằng µ, tuy nhiên ta xem y là ước lượng tốt cho µ vì E(y)=µ và
var(y)=σ
2
/n với σ
2
là phương sai của y.
Một số tính chất:
1. E(ay)=aE(y)=aµ (1.2.2)
s
2
=
n
i=1
y
2
i
−ny
2
n − 1
(1.2.5)
Tổng quát, s
2
không bằng σ
2
, nhưng nó là ước lượng không chệch của σ
2
, E(s
2
)=σ
2
.
Căn bậc hai của phương sai được gọi là độ lệch tiêu chuẩn.
3. var(ay)=a
2
σ
2
. Tương tự, nếu z
xy
= E(xy) − µ
x
µ
y
.
Một số tính chất:
1. E(x + y)=E(x)+E(y)
2. E(xy)=E(x)E( y) nếu x và y độc lập.
Hiệp phương sai mẫu được đònh nghóa là:
s
xy
=
n
i=1
(x
i
−x)(y
i
− y)
n −1
. (1.2.7)
Phân tích, ta được:
s
xy
=
n
i=1
y
=
E[(x −µ
x
)(y −µ
y
)]
E(x − µ
x
)
2
E(y − µ
y
)
2
(1.2.8)
Hệ số tương quan mẫu là:
r
xy
=
s
xy
s
x
s
y
=
n
a + b
b +(b −a)
(b − a)
2
(a
a)(b
b)
=
a
a + b
b − (b
b + a
a − 2a
b)
2
(a
a)(b
y
i1
y
i2
.
.
.
y
ip
Vector trung bình mẫu
y là trung bình của n vector quan trắc hay trung bình của p biến
riêng biệt:
y =
1
n
n
i=1
y
j
=
n
i=1
y
ij
/n là trung bình của n quan trắc trên biến thứ j.
n vector quan trắc y
1
, y
2
, ,y
n
có thể biểu diễn dưới dạng ma trận dữ liệu Y như sau:
Y =
=
y
11
y
21
.
.
.
y
i1
.
.
.
y
.
y
nj
y
1p
y
2p
.
.
.
y
ip
.
.
.
y
np
=
E(y
1
)
E(y
2
)
.
.
.
E(y
p
)
= µ.
Tương tự,
y là ước lượng không chệch của µ : E(y)=µ.
Chương I: Kiến thức Đại số và Xác suất Thông kê 14 Luận văn thạc só toán học
1.2.4 Ma trận hiệp phương sai
Ma trận hiệp phương sai mẫu S =(s
jk
) là ma trận gồm phương sai và hiệp phương sai
của p biến:
S =(s
jk
)=
s
11
s
21
.
.
.
s
p1
s
từng cặp biến nằm bên ngoài đường chéo.
Phương sai mẫu của biến j : s
jj
= s
2
j
sử dụng cột j của Y:
s
jj
= s
2
j
=
1
n − 1
n
i=1
(y
ij
− y
j
)
2
(1.2.13)
=
1
n − 1
1
n − 1
i
y
ij
y
ik
− ny
j
y
k
Ta có S là đối xứng vì s
jk
= s
kj
. S cũng có thể biểu diễn dưới dạng n vector quan trắc:
S =
1
n − 1
n
i=1
(y
i
− y)(y
i
− y)
, ,y
ip
− y
p
). Phần tử (1,1) của (y
i
− y)(y
i
− y)
là
(y
i1
−y
1
)
2
, lấy tổng theo i trong (1.2.15) ta được s
11
như trong (1.2.13). Tương tự, phần tử
(1,2) của (y
i
− y)(y
i
− y)
là (y
i1
− y
1
.
σ
p2
σ
1p
σ
2p
.
.
.
σ
pp
(1.2.17)
Các phần tử trên đường chéo σ
jj
= σ
2
j
là các phương sai phân phối các giá trò của biến y,
s
kk
=
s
jk
s
j
s
k
(1.2.21)
Ma trận tương quan mẫu:
R =(r
jk
)=
1
r
21
.
.
.
r
p1
= r
kj
.
Ma trận tương quan có thể suy ra từ ma trận hiệp phương sai và ngược lại ma trận hiệp
phương sai có thể suy ra từ ma trận tương quan. Thật vậy,
Đặt
D
s
= diag(
√
s
11
,
√
s
22
, ,
√
s
pp
)
= diag(s
1
,s
2
, ,s
p
)
=
p
(1.2.23)
Ta có:
R = D
−1
s
SD
−1
s
(1.2.24)
S = D
s
RD
s
(1.2.25)
Ma trận tương quan của phân phối được đònh nghóa là:
Chương I: Kiến thức Đại số và Xác suất Thông kê 16 Luận văn thạc só toán học
P
ρ
=(ρ
jk
)=
2p
.
.
.
1
(1.2.26)
với
ρ
jk
=
σ
jk
σ
j
σ
k
như trong (1.2.8)
1.2.6 Tổ hợp tuyến tính của các biến
1.2.6.1 Các tính chất của mẫu
Chúng ta nghiên cứu kỳ vọng, phương sai và hiệp phương sai của tổ hợp tuyến tính các
biến.
Đặt a
).
Nếu vector a gắn với mỗi y
i
trong một mẫu, ta có:
z
i
= a
1
y
i1
+ a
2
y
i2
+ + a
p
y
ip
= a
y
i
, i =1,2, ,n. (1.2.28)
Trung bình mẫu của z bằng trung bình của n giá trò z
1
= a
y
1
,z
y. (1.2.29)
Tương tự, phương sai mẫu của các z
i
= a
y
i
,i=1, 2, ,n là:
s
2
z
=
n
i=1
(z
i
− z)
2
n −1
= a
Sa. (1.2.30)
Vì phương sai luôn luôn không âm, nên ta có s
2
z
≥ 0, và do đó a
Sa ≥ 0 với mọi a.
Nếu chúng ta đònh nghóa một tổ hợp tuyến tính khác là :
i=1
(z
i
− z)(w
i
− w)
n − 1
= a
Sb. (1.2.31)
Hệ số tương quan mẫu giữa z và w là:
r
zw
=
s
zw
s
2
z
s
2
w
=
a
Sb
(a
=
z
1
z
2
.
z =
a
1
a
2
y = Ay.
Lúc đó trung bình của z là:
z =
z
1
z
2
=
a
1
z
2
s
z
2
z
1
s
2
z
2
=
a
1
Sa
1
a
1
Sa
2
a
2
Sa
1
y
1
+ a
12
y
2
+ + a
1p
y
p
= a
1
y
z
2
= a
21
y
1
+ a
22
y
2
+ + a
2p
y
p
= a
z
1
z
2
.
.
.
z
k
=
a
1
a
2
.
.
.
a
k
y = Ay
với z là k × 1, A là k ×p, và y là p × 1 (k ≤ p). Nếu z
i
= Ay
i
=
a
1
a
2
.
.
.
a
k
1
Sa
k
a
2
Sa
1
a
2
Sa
2
a
2
Sa
k
.
.
.
.
.
.
.
.
.
a
k
a
1
(Sa
1
Sa
2
Sa
k
)
a
2
(Sa
1
Sa
2
Sa
k
)
.
.
.
.
.
.
.
.
.
a
2
.
.
.
a
k
(Sa
1
, Sa
2
, ,Sa
k
)
=
(1.2.39)
Trường hợp tổng quát:
z
i
= Ay
i
+ b, i =1, 2, ,n. (1.2.40)
Vector trung bình mẫu và ma trận hiệp phương sai của z là:
Chương I: Kiến thức Đại số và Xác suất Thông kê 19 Luận văn thạc só toán học
z = Ay + b, (1.2.41)
S
z
= ASA
. (1.2.42)
1.2.6.2 Các tính chất của phân phối
Đặt z = a
y, với a là vector hằng.
Kỳ vọng của z là:
E(z)=E(a
y)=a
E(y)=a
µ, (1.2.43)
Phương sai của z là:
σ
=
a
Σb
(a
Σa)( b
Σb)
. (1.2.46)
Nếu Ay biểu diễn một số tổ hợp tuyến tính, thì vector kỳ vọng và ma trận hiệp phương sai
là:
E(Ay)=AE(y)=Aµ, (1.2.47)
cov(Ay)=AΣA
. (1.2.48)
Trường hợp tổng quát, z = Ay + b. Lúc đó ta có vector kỳ vọng và ma trận hiệp phương
sai là:
E(Ay + b)=AE(y)+b = Aµ + b, (1.2.49)
cov(Ay + b)=AΣA
. (1.2.50)
Chương I: Kiến thức Đại số và Xác suất Thông kê 20 Luận văn thạc só toán học
§ 1.3 PHÂN PHỐI CHUẨN NHIỀU CHIỀU
1.3.1 Hàm mật độ của phân phối chuẩn nhiều chiều
1.3.1.1 Hàm mật độ của phân phối chuẩn một chiều
Nếu một biến ngẫu nhiên y có phân phối chuẩn với kỳ vọng µ và phương sai σ
2
, thì
Σ
−1
(y−µ)/2
, (1.3.2)
với p là số biến. Khi y có hàm mật độ (1.3.2), ta nói y có phân phối chuẩn nhiều chiều
N
p
(µ, Σ) .
Số hạng (y −µ)
2
/σ
2
=(y −µ)(σ
2
)
−1
(y −µ) trong số mũ của hàm mật độ chuẩn một chiều,
đo bình phương khoảng cách từ y đến µ trên đơn vò độ lệch tiêu chuẩn. Tương tự, số hạng
(y −µ)
Σ
−1
(y −µ) trong số mũ của hàm mật độ chuẩn nhiều chiều (1.3.2) là bình phương
khoảng cách tổng quát từ y đến µ, hay còn gọi là khoảng cách Mahalanobis.
Trong (1.3.2), |Σ|
1/2
xuất hiện tương tự như
√
σ
1
y
1
+ a
2
y
2
+ + a
p
y
p
có phân phối
chuẩn một chiều:
Nếu y ∼ N
p
(µ, Σ), thì a
y ∼ N(a
µ, a
Σa).
(b) Nếu A là ma trận hằng q × p hạng q, với q ≤ p, thì q tổ hợp tuyến tính trong Ay có
phân phối chuẩn nhiều chiều:
Nếu y ∼ N
p
(µ, Σ), thì Ay ∼ N
q
(Aµ, AΣA
p
j=1
z
2
j
= z
z có phân phối χ
2
với p bậc tự do, đònh nghóa là χ
2
p
hoặc χ
2
(p).
Từ (1.3.3) hoặc (1.3.4) ta có: z
z =(y −µ)
Σ
−1
(y − µ). Do đó,
Nếu y ∼ N
p
(µ, Σ), thì (y −µ)
Σ
−1
(y −µ) ∼ χ
, µ =
µ
1
µ
2
, Σ =
Σ
11
Σ
12
Σ
21
Σ
22
,
với y
1
và µ
1
là r x 1 và Σ
11
là r x r. Lúc đó y
1
có phân phối chuẩn nhiều chiều:
Nếu y ∼ N
y
x
=
µ
y
µ
x
, cov
y
x
=
Σ
yy
Σ
yx
Σ
xy
Σ
xx
.
Trong tính chất 5, 6, 7 sau đây, ta giả sử rằng:
y
k
là độc lập nếu σ
jk
=0. Lưu ý điều này không đúng cho
các biến ngẫu nhiên không chuẩn, như trong phần (1.2.2.1).
Chương I: Kiến thức Đại số và Xác suất Thông kê 23 Luận văn thạc só toán học
6. Phân phối có điều kiện:
Nếu y và x không độc lập, thì Σ
yx
= 0, và phân phối có điều kiện của y cho trước x,
f(y|x ), là chuẩn nhiều chiều với:
E(y|x)=µ
y
+ Σ
yx
Σ
−1
xx
(x − µ
x
), (1.3.6)
cov(y|x)=Σ
yy
− Σ
yx
Σ
−1
xx
Σ
xy
σ
yx
σ
2
x
.
Đònh nghóa f(y|x)=g(y, x)/h(x), với h(x) là hàm mật độ của x và g(y, x) là hàm mật độ
đồng thời của y và x. Ta có:
g(y, x)=f(y|x)h(x),
vì vế phải là tích, ta tìm một hàm của y và x độc lập với x và hàm mật độ của nó giống
f(y|x). Vì hàm tuyến tính của y và x là chuẩn (theo tính chất 1a), ta xem xét y − βx và
tìm kiếm giá trò β để y − βx và x là độc lập.
Vì z = y − βx và x là chuẩn nên để z và x là độc lập, ta phải có cov(x, z)=0. Để tìm
cov(x, z), ta biểu diễn x và z là các hàm của u:
x =(0, 1)
y
x
=(0, 1)u = a
u,
z = y − βx =(1, −β)u = b
u.
Lúc đó,
cov(x, z)=cov(a
u, b
= σ
yx
− βσ
2
x
.
Để cov(x, z)=0, thì β = σ
yx
/σ
2
x
, và z = y −βx trở thành
Chương I: Kiến thức Đại số và Xác suất Thông kê 24 Luận văn thạc só toán học
z = y −
σ
yx
σ
2
x
x.
Theo tính chất 1a, hàm mật độ của y −(σ
yx
/σ
2
x
)x là chuẩn với
E
y −
u)=b
Σb
=
1, −
σ
yx
σ
2
x
σ
2
y
σ
yx
σ
yx
σ
2
x
1
−
σ
yx
σ
2
(x − µ
x
),
var(y|x)=σ
2
y
−
σ
2
yx
σ
2
x
.
7. Phân phối của tổng hai vector con:
Nếu y và x cùng kích cỡ (p x 1) và độc lập thì,
y + x ∼ N
p
(µ
y
+ µ
x
, Σ
yy
+ Σ
xx
), (1.3.8)
y −x ∼ N
p
(µ
(y
i
− y)(y
i
−y)
=
1
n
W
=
n −1
n
S, (1.3.11)