Phân tích tình hình chăm sóc sức khỏe cộng đồng huyện thái thụy bằng phương pháp thống kê - Pdf 28

Mục lục
1 Phân tích thống kê nhiều mức 5
1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Mô hình hai mức . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Mô hình hồi quy tuyến tính đơn hai mức . . . . . . . . . . 7
1.2.2 Ước lượng các tham số cho mô hình đơn biến hai mức . . . 10
1.2.3 Phần dư trong mô hình hai mức . . . . . . . . . . . . . . . 11
1.2.4 Gán trọng số cho các đơn vị . . . . . . . . . . . . . . . . . . 12
1.2.5 Ước lượng Jacknife và ước lượng Bootstrap . . . . . . . . . 14
1.2.6 Mô hình hồi quy đa biến hai mức . . . . . . . . . . . . . . 16
1.2.7 Mở rộng mô hình hai mức . . . . . . . . . . . . . . . . . . . 17
1.3 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.1 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.2 Ước lượng các tham số . . . . . . . . . . . . . . . . . . . . . 19
1.3.3 Xác định giá trị ban đầu của quá trình lặp . . . . . . . . . 21
1.4 Kiểm định sự phù hợp của mô hình . . . . . . . . . . . . . . . . . . 22
1.4.1 Kiểm định một hệ số hồi quy . . . . . . . . . . . . . . . . . 22
1.4.2 Kiểm định sự phù hợp của mô hình . . . . . . . . . . . . . 23
1.5 Phân tích thành phần chính . . . . . . . . . . . . . . . . . . . . . . 24
2 Phân tích tình hình chăm sóc sức khỏe cộng đồng huyện Thái
Thụy 27
2.1 Vài nét về lịch sử phát triển, tự nhiên xã hội huyện Thái Thụy . . 27
2.2 Mô tả số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Một số kết quả phân tích . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.1 Phân tích tác động đến tỷ lệ trẻ em chết dưới 1 tuổi . . . 42
2.3.2 Phân tích tác động đến tỷ lệ sinh con thứ 3 . . . . . . . . . 43
2.3.3 Phân tích sự tác động đến tỷ lệ phá thai . . . . . . . . . . 45
2.3.4 Phân tích tác động đến bệnh viêm phổi . . . . . . . . . . . 47
2.3.5 Phân tích các tác động đến tỷ lệ xét nghiệm sốt rét . . . . 49
2.3.6 Phân tích các tác động đến tỷ lệ nhiễm HIV . . . . . . . . 50
1

Nam. Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới thầy, người đã
chỉ dẫn tận tình và giúp đỡ tôi trong suốt quá trình hoàn thành luận văn
này.
Đặc biệt, tôi xin gửi lời cảm ơn chân thành đến Ban giám đốc Trung
Tâm Y Tế Dự phòng Huyện Thái Thụy đã tận tình giúp đỡ và cung cấp
số liệu đầy đủ cho nghiên cứu, nếu thiếu số liệu quý báu này thì luận văn
này sẽ không thể thực hiện được.
Tôi xin gửi lời cảm ơn sâu sắc đến gia đình đã tạo mọi điều kiện để tôi
có thể hoàn thành luận văn. Đồng thời tôi xin cảm ơn đến anh chị em lớp
cao học Lý thuyết xác suất và Thống kê toán học khóa 2011 – 2013 đã có
những đóng góp chân thành giúp tôi hoàn thành luận văn của mình.
Tuy đã có nhiều cố gắng nhưng bản luận văn này không tránh khỏi
những thiếu xót, tôi rất mong nhận được sự đóng góp ý kiến của các thầy
cô, các nhà nghiên cứu Xác suất Thống kê và độc giả quan tâm để bản
luận văn này được hoàn thiện hơn. Tôi xin chân thành cảm ơn.
Hà Nội, tháng 10 năm 2014
4
Chương 1
Phân tích thống kê
nhiều mức
1.1 Giới thiệu
Trong các nghiên cứu khoa học về sinh học và con người, chúng ta có
nhiều loại dữ liệu bao gồm dữ liệu dữ liệu các quan sát thu thập được, dữ
liệu có cấu trúc lặp hoặc cấu trúc thứ tự. Chẳng hạn như khi nghiên cứu
về con người và động vật với hệ thống phân mức tự nhiên mà mỗi cá thể
được nhóm thành các gia đình. Những con người có cùng cha mẹ sinh ra
sẽ có những đặc tính giống nhau về thể chất, tính cách hơn những người
không cùng cha mẹ sinh ra. Do đó cá thể trong gia đình nói trên là đơn
vị mức một trong cấu trúc hai mức mà mức hai có đơn vị là gia đình, hay
học sinh có thể là đơn vị mức một trong cấu trúc hai mức mà mức hai

có thể nghiên cứu mở rộng ra các đối tượng sinh viên ở các trường khác
nhau. Chẳng hạn liệu sự khác biệt giữa sinh viên đầu vào cao hơn so với
các trường có đầu vào thấp hơn có là nhân tố để giải thích sự khác nhau
về thành tích học tập trong quá trình học tập của sinh viên hay không.
6
1.2 Mô hình hai mức
1.2.1 Mô hình hồi quy tuyến tính đơn hai mức
Xét tập dữ liệu bao gồm thông tin học sinh của một số trường cấp 3.
Người ta xem xét điểm thi toán vào lớp 10 và điểm thi tốt nghiệp của học
sinh các trường đó, dữ liệu đó có cấu trúc nhiều mức. Có thể coi học sinh
là đơn vị của mức 1, mỗi trường là đơn vị của mức 2. Xét mô hình hồi quy
tuyến tính đơn mức cho một trường nào đó đã được chọn, thể hiện quan
hệ giữa điểm thi toán tốt nghiệp so với điểm thi toán vào lớp 10
y
i
= α + βx
i
+ e
i
(1.1)
với α là hệ số chặn, β là hệ số dốc, e
i
là phần dư. Đây được gọi là mô
hình một mức. Để mô tả mối liên hệ đồng thời cho nhiều trường, chẳng
hạn trường j ta viết
y
ij
= α
j
+ β

trường hợp quan trọng xuất hiện khi ta mong muốn thông tin về từng
trường trong mẫu nhưng do số lượng các trường trong mẫu lớn nên (1.2)
đòi hỏi phải ước lượng rất nhiều tham số. Hơn nữa, một số trường khá ít
học sinh và việc áp dụng (1.2) sẽ dẫn đến các ước lượng thiếu chính xác.
Trong trường hợp đó ta coi trường này như phần tử của đám đông và sử
dụng các ước lượng, kỳ vọng, phương sai mẫu ta có thể ước lượng chính
xác hơn.
Để đưa (1.2) về hai mức ta coi α
j
, β
j
là các biến ngẫu nhiên. Ta thay
α
j
bởi β
0j
, β
j
bởi β
1j
. Giả sử
β
0j
= β
0
+ u
0j
,
β
1j

u01
.
Khi đó (1.2) được viết lại thành
y
ij
= β
0
+ β
1
x
ij
+ (u
0j
+ u
1j
x
ij
+ e
0ij
),
var(e
ij
) = σ
2
e0
.
(1.4)
Ta vừa biểu diễn y
ij
như tổng thành phần cố định và phần ngẫu nhiên.

, β
1
)
T
, z
ij
= x
ij
8
thì (1.4) được viết lại thành
y
ij
= x
T
ij
u
i
+ z
T
ij
β + e
ij
. (1.5)
Các biến ngẫu nhiên được xem như phần dư và trong trường hợp mô
hình một mức, phần dư mức 1 là e
0ij
trở thành phần dư của mô hình tuyến
tính thông thường.
Mô hình hồi quy (1.4) khác biệt so với mô hình thông thường là sự có
mặt nhiều hơn một thành phấn số dư. Điều đó đưa đến việc phải có cách

= E(u
0j
+ e
0ij
)
2
− [E(u
0j
+ e
0ij
)]
2
= σ
2
u0
+ σ
2
e0
.
Đây là tổng phương sai mức một và một phương sai mức hai. Khi đó
phương sai ở mức một cá thể là hằng số và hiệp phương sai giữa hai cá
thể trong một đơn vị mức 2 được cho bởi
cov(u
0j
+ e
0i
1
j
; u
0j

, e
0i
2
j
) + cov(e
0i
2
j
, u
0j
) + cov(e
0i
2
j
, e
0i
2
j
)
= σ
2
u0
.
Vì các số dư ở mức 1 được giải thích độc lâp với nhau. Từ đó mối tương
quan giữa hai cá thể trong cùng một đơn vị mức 2 được cho bởi
ρ =
σ
2
u0
σ

β = (X
T
V
−1
X)
−1
X
T
V
−1
Y (1.8)
trong đó







1 x
11
1 x
21

1 x
n
m
m



với m là đơn vị mức 2, n
j
là đơn vị mức một trong đơn vị mức hai thứ j.
Quá trình ước lượng là quá trình lặp thường bắt đầu từ giá trị β
0
, β
1
nào
đó được xác định bằng phương pháp bình phương nhỏ nhất, thông thường
khi giá trị σ
2
u0
= 0. Từ đó phần dư
˜y
ij
= y
ij
−
ˆ
β
0
−
ˆ
β
1
x
ij
(1.10)
Vectơ hàng biểu diễn phần dư được viết lại là
˜




˜y
2
11
˜y
21
˜y
11

˜y
2
22







=







σ



1
1

1







+ σ
2
e0







1
0

1




2
u0
σ
2
u0
σ
2
u0
+ σ
2
e0
σ
2
u0

σ
2
u0
σ
2
u0
+ σ
2
e0







Nếu bỏ qua phương sai mẫu mà chỉ ước lượng các tham số trong (1.12) ta
có
cov(˜y
ij
, u
0j
) = cov(y
ij
−
ˆ
β
0
−
ˆ
β
1
x
ij
; u
0j
)
= cov[(β
0
−
ˆ
β
0
) + (β
1
−

2
u0
cov(˜y
ij
, e
0ij
) = cov(u
0j
+ u
1j
x
ij
+ e
0ij
, e
0ij
)
= var(e0ij) = σ
2
e0
var(˜y
ij
) = cov(˜y
ij
, ˜y
ij
) = cov(u
0j
+ u
1j

trên các đơn vị hai
mức {˜y
ij
} với chỉ số j dùng cho mức 2 và (1.7) xác định các đại lượng cần
thiết để ước lượng hệ số hồi quy. Đối với mô hình phương sai thành phần
ta thu được
u
0j
=
u
j
σ
2
u
(n
j
σ
2
u
− σ
2
e0
)
˜y
j
˜e
0ij
= ˜y
ij
− ˆu


j
w
j
= J (1.13)
12
với J là số đơn vị mức 2 và N =

j
n
j
là số đơn vị mức 1. Ta viết
W
ij
= Nw
i|j|
w
j
/

w
i|j|
w
j
= Nw
i|j|
w
j
/


e
, W
ij
= diag{w
−0.5
j
}
Đối với mô hình 3 mức ta có

i
w
i|jk
= n
jk
;

j
w
j|k
= J
k
,

k
w
k
= k
N =

jk

/

jk
w
j|k
w
k
Kí hiệu V
∗
là ma trận trọng số trong phân tích.
Dưới đây ta đưa ra quy tắc ước lượng để sử dụng Z
∗
u
, Z
∗
e
như là hệ số cố
định và ma trận hiệp phương sai được ước lượng theo thủ tục tương tự
như đã trình bày ở mục 1.2.3, ta sử dụng công thức
ˆ
β = (X
T
V
∗
X)
−1
X
T
V
∗

∗
u
T
V
∗
−1
˜
Y
cov(ˆp
2
) = Ω
2
Z
∗
u
T
V
∗
−1
(V )V
∗
−1
Z
∗
u
Ω
2
V = E(
˜
Y

X)
−1
X
T
ˆ
V
−1
Y
Ma trận hiệp phương sai của ước lượng là
cov(
ˆ
β) = (X
T
ˆ
V
−1
X)
−1
X
T
ˆ
V
−1
{cov(Y )
ˆ
V
−1
X(X
T
ˆ

ij
= (Xβ)
ij
+ u
j
+ e
ij
var(u
j
) = σ
2
u
, var(e
ij
) = σ
2
e
Để tạo ra mẫu Bootstrap ta chọn ngẫu nhiên từ N(0, σ
2
u
) một tập
giá trị mức hai u
∗
j
và ứng với mỗi giá trị mức hai này tạo ra tập e
∗
ij
từ
N(0, σ
2

x
ij
+
p

h=2
β
h
x
hij
+ (u
0j
+ u
1j
x
ij
+ e
0ij
)
và viết gọn lại thành
y
ij
= X
ij
β +
1

h=0
u
hj

2
e0
), Ω
2
=

σ
2
u0
σ
u01
σ
u01
σ
2
u1


A B
B C

A = σ
2
u0
+ 2x
1j
σ
u1
+ x
2

+ σ
2
u1
x
2
2j
+ σ
2
e0
.
Đặt
X
j
=

1 x
1j
1 x
2j

16
Ta có

A B
B C

= X
j
Ω
2

= β
1
+ β
11
z
i
+ u
1j
.
Khi đó mô hình (1.4) được đưa về dạng
y
ij
= (β
0
+ β
01
z
i
+ u
0j
) + (β
1
+ β
11
z
i
+ u
1j
)x
ij

i
x
ij
là tác động liên kết giữa biến mức 1 x
ij
và biến mức z
i
,
được coi là tương tác giữa các mức.
Để xét mô hình với nhiều biến giải thích, ta mở rộng mô hình (1.2)
như sau:
y
ij
= x
T
1ij
β
1
+ z
T
1ij
β
i
+ e
ij
, (1.15)
trong đó x
1ij
và z
1ij

= x
T
ij
β + z
T
ij
u
i
+ e
ij
,
17
với x
T
ij
= (x
T
1ij
z
T
1ij
X
2i
); z
ij
= z
1ij
, β = (β
T
1

ij
+ e
1ijk
(1.17)
Trong đó hệ số y là thành tích học tập của học sinh, i = 1, 2, , n là chỉ
số trường, j = 1, , J
i
là chỉ số lớp trong trường thứ i và k = 1, , K
ij
là
chỉ số sinh viên trong lớp thứ i (trong trường j).
Biến giải thích x
1ijk
, z
1ijk
có thể phụ thuộc vào sinh viên (giới tính, thu
nhập gia đình, ), phụ thuộc vào lớp (đặc điểm giáo viên, cơ sở vật chất,
lớp học, ) hay trường (quy mô, cấu trúc, địa điểm, ). Các tham số mà
vừa phụ thuộc vào trường i, lớp j thì xuất hiện như một phần của vectơ
β
ij
, trong khi các tham số là hằng số thì xuất hiện trong vectơ β
1
.
Trung bình và phương sai có điều kiện theo trường và lớp của thành
18
phần ngẫu nhiên e
1ijk
là bằng 0 và hằng số trên tất cả học sinh, lớp và
trường. Mô hình mức 2 mô tả biến động tại mức lớp học có dạng

i
có
thể thay đổi nhưng không ngẫu nhiên hoặc ngẫu nhiên. Mô hình 3 mức có
dạng
γ
i
= X
3i
β
3
+ e
3i
(1.19)
Biến giải thích X
2ij
và Z
2ij
có thể phụ thuộc vào trường. Trung bình và
phương sai có điều kiện của thành phần ngẫu nhiên e
3i
tương ứng bằng 0
và hằng số trên các trường. Kết hợp (1.17), (1.18), (1.19) ta được
y
ijk
= x
T
1ijk
β
1
+ [X

+ z
T
1ijk
Z
2ij
X
3i
β
3
+ z
T
ijk
Z
2ij
e
3i
+ z
T
1ijk
e
2ij
+ e
1ijk
= x
T
ijk
β + z
T
ijk
u

).
Biểu thức này thể hiện mô hình 3 mức là mô hình hiệu quả tuyến tính hỗn
hợp.
1.3.2 Ước lượng các tham số
Xét mô hình nhiều mức có dạng
y
ij
= x
T
ij
β + z
T
ij
u
i
+ e
ij
.
19
Chúng ta xem xét hàm hồi quy có điều kiện dạng
E(y
ij
|u
i
) = x
T
ij
β + z
T
ij

z
ijq
.
Dạng ma trận tương ứng là
E(y
ij
|u
i
) = X
i
β + Z
i
u
i
.
Giả sử var(y
i
|u
i
) = R
i
, tức là ta chấp nhận hiện tượng có tương quan và
tính không thuần nhất của phương sai. Chúng ta giả sử {u
i
} độc lập nhau,
E(u
i
) = 0, ma trận hiệp phương sai var(u
i
) = D là ma trận q × q chiều,

) = R
i
;
4. {y
i
} là những vectơ ngẫu nhiên độc lập có điều kiện trên {u
1
, . . . ; u
n
};
5. {y
i
} có phân phối chuẩn có điều kiện trên {u
1
; ; u
n
};
6. Eu
i
= 0, var(u
i
) = D và {u
1
, . . . ; u
n
} độc lập;
7. {u
i
} có phân phối chuẩn.
Khi đó

i
)
n

i=1
X
T
i
V
−1
i
y
i
(1.21)
20
và phương sai V ar
ˆ
(β)
GLS
= (
n

i=1
X
T
i
V
−1
i
X

n

i=1
l
i
(β, τ).
Ta lấy ra hàm log hợp lý đặc trưng có dạng
L(β
GLS,τ
) = −
1
2
n

i=1
T
i
ln(2π) + lndetV
i
+ (ErrorSS)
i
(τ) (1.22)
ở đây tổng bình phương sai số đối với đối tượng thứ i là
(ErrorSS)
i
(τ) = (y
i
− X
i
β

ước lượng hội tụ.
1.3.3 Xác định giá trị ban đầu của quá trình lặp
Để ước lượng hệ số hồi quy và thành phần phương sai đòi hỏi ta cần có
giá trị ban đầu cho quá trình lặp. Để xác định được giá trị ban đầu này, ta
sử dụng phương pháp moment Swamy với giả thiết x
ij
= z
ij
và R
i
= σ
2
i
I
i
,
sau đó tiến hành qua các bước sau
1. Tính toán ước lượng bình phương bé nhất của σ
2
i
s
2
i
=
1
T
i
− K
y
T

−1
X
T
i
y
i
, như một dự báo của β + u
i
.
3. Cuối cùng, ước lượng D bằng
D
SW AM Y
=
1
n − 1
n

i=1
(b
i
−
¯
b)(b
i
−
¯
b)
T
−
1

) = V ar(X
T
i
X
i
)
−1
X
T
i
(X
i
(β + u
i
+ e
i
))
= V ar(β + u
i
+ (X
T
i
X
i
)
−1
X
T
i
e

i
là ước lượng của V ar(b
i
) và σ
2
i
tương ứng, kéo theo D
SW AM Y
là một
ước lượng của D.
1.4 Kiểm định sự phù hợp của mô hình
1.4.1 Kiểm định một hệ số hồi quy
Trong nhiều phân tích thống kê, mục tiêu chính của kiểm định là đánh
giá xem hệ số hồi quy có bằng giá trị đặc biệt nào đó hay không. Ta quan
tâm đến việc kiểm định giả thuyết: H
0
: β
j
= β
j,0
/K : β
j
= β
j,0
(thường
thì β
j,0
được cho bằng 0).
Thủ tục thông thường bắt đầu bằng việc lập thống kê
t =

i
V
−1
i
X
i
)
−1
.
Sau đó đánh giá H
0
bằng cách so sánh thống kê t với một biến ngẫu nhiên
có phân phối t - Student với số bậc tự do thích hợp phụ thuộc vào dữ liệu
ban đầu và mục đích phân tích. Trong thực hành, do phân phối t - Student
xấp xỉ phân phối chuẩn tắc khi mẫu đủ lớn nên ta có thể thay thế phân
phối t-student bằng phân phối chuẩn tắc. Nguyên tắc này được áp dụng
trong các phần mềm phân tích nhiều mức.
1.4.2 Kiểm định sự phù hợp của mô hình
Để kiểm tra giả thuyết liên quan đến một vài hệ số hồi quy đồng thời,
thủ tục thông thường là kiểm định tỷ số hợp lý. Ta có thể xem xét giả
thuyết H
0
: Cβ = d trong đó C là ma trận p × k với hạng bằng p, d là là
một vectơ p × 1 (thường là vectơ 0) và β là một vectơ k × 1 của các hệ số
hồi quy. Giả thuyết này được kiểm tra so sánh với đối thuyết H
1
: Cβ = d.
Thủ tục kiểm định tham số hợp lý được tiến hành theo các bước sau
1. Sử dụng mô hình không có ràng buộc, tính toán ước lượng hợp lí cực
đại và hàm log hợp lý tương ứng, kí hiệu là L

X
1
, X
2
, . . . , X
n
của vecto ngẫu nhiên đó. Khi ấy
X
n,p
=




x
11
x
12
x
1p

x
n1
x
n2
x
np




i=1
X
ij
= 0.
Khi đó thì gốc O(0, 0, , 0) của hệ trục tọa độ trùng với trọng tâm của
đám mây n điểm.
Ta gọi thành phần chính thứ nhất là biến có diễn là đường thẳng ∆
1
qua
tâm O và gần với đám mây nhất tức là tổng bình phương khoảng cách
từ các điểm của đám mây đến nó là nhỏ nhất. Thành phần chính thứ hai
là biến trực giao với thành phần chính thứ nhất và có biểu diễn là đường
thẳng ∆
2
sao cho tổng bình phương khoảng cách từ các điểm trên đám
mây đến nó là nhỏ nhất. Khi đó ∆
1
và ∆
2
tạo ra một mặt phẳng chính mà
đám mây được thể hiện rõ nhất so với mọi mặt phẳng khác. Thành phần
chính thứ ba là biến trực giao với mặt phẳng chính thứ nhất và được biểu
diễn bởi đường thẳng ∆
3
sao cho tổng bình phương khoảng cách các điểm
trên đám mây đến nó là nhỏ nhất, Tiếp tục quá trình ta thu được một
24
hệ k vecto trực giao, tạo thành siêu phẳng k chiều mà đám mây được thể
hiện rõ nhất.
Gọi ∆ là đường thẳng qua tâm O, là giá của vecto đơn vị u, u

u
x
T
2
u

x
T
n
u







; u
T
= (u
1
, u
2
, . . . , u
p
)
Ta tìm ∆ để

n
i=1

n
X
T
X = M
0
là ma trận hiệp phương sai. Ta tìm u
1
sao cho u
T
1
M
0
u
1
→
max, u
T
1
u = 1. Điều đó tương đương với việc tìm u
1
sao cho
u
T
1
M
0
u
1
− λ(u
T

1
= 0
Vậy λ là giá trị riêng và u
1
là vecto riêng của M
0
. Ta thấy rằng do ma
trận hiệp phương sai là ma trận nửa xác dương nên các giá trị riêng của
nó có giá trị không âm. Ta có thể sắp xếp các giá trị riêng đó thành
λ
1
≥ λ
2
≥ λ
3
≥ λ
k
> 0.
Với λ
1
là giá trị riêng lớn nhất, ta gọi Y
1
là thành phần chính thứ nhất.Khi
đó
D(Y
1
) = u
T
1
M

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Phân tích tình hình chăm sóc sức khỏe cộng đồng huyện thái thụy bằng phương pháp thống kê - Pdf 28

Tài liệu, ebook tham khảo khác

Học thêm