ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
- - - - - - - - - o0o - - - - - - - - -
HOÀNG HỮU VĂN
PHÂN TÍCH TÌNH HÌNH CHĂM SÓC
SỨC KHỎE CỘNG ĐỒNG HUYỆN
THÁI THỤY BẰNG PHƯƠNG PHÁP
THỐNG KÊ
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội - 2014
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
- - - - - - - - - o0o - - - - - - - - -
HOÀNG HỮU VĂN
PHÂN TÍCH TÌNH HÌNH CHĂM SÓC
SỨC KHỎE CỘNG ĐỒNG HUYỆN
THÁI THỤY BẰNG PHƯƠNG PHÁP
THỐNG KÊ
Chuyên ngành: Lý thuyết xác suất và Thống kê toán học
Mã số:
60460106
. . . . . .
hai mức .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3.4 Phân tích tác động đến bệnh viêm phổi . . . . . . . . . . .
2.3.5 Phân tích các tác động đến tỷ lệ xét nghiệm sốt rét . . . .
2.3.6 Phân tích các tác động đến tỷ lệ nhiễm HIV . . . . . . . .
1
5
5
7
7
10
11
12
14
16
17
18
18
19
21
22
22
23
24
27
27
28
42
42
nghị để có được những biện pháp tích cực phù hợp với thực tế địa phương,
cải thiện tình hình chăm sóc sức khỏe cộng đồng.
Luận văn bao gồm hai chương. Chương 1 sẽ trình bày cơ sở lý thuyết,
phương pháp thống kê được sử dụng trong nghiên cứu này, đó là phương
pháp phân tích nhiều mức được trình bày dựa trên cơ sở phân tích hồi quy
bội một mức rồi mở rộng cho mô hình hai mức và tương tự cho các mức
cao hơn. Chương 2 mô tả số liệu và trình bày một số kết quả phân tích
các yếu tố ảnh hưởng đến tỷ lệ tử vong, tỷ lệ sinh con thứ 3 và các loại
bệnh tật. Sau đó sẽ tập trung vào lý giải các kết quả có được và đưa ra
một số kiến nghị nhằm xây dựng chiến lược y tế sao cho phù hợp với nhu
cầu và yêu cầu thực tế của xã hội.
Luận văn được hoàn thành dưới sự hướng dẫn của PGS – TS Hồ Đăng
3
Phúc, Viện Toán Học – Viện Hàn Lâm Khoa Học Và Công Nghệ Việt
Nam. Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới thầy, người đã
chỉ dẫn tận tình và giúp đỡ tôi trong suốt quá trình hoàn thành luận văn
này.
Đặc biệt, tôi xin gửi lời cảm ơn chân thành đến Ban giám đốc Trung
Tâm Y Tế Dự phòng Huyện Thái Thụy đã tận tình giúp đỡ và cung cấp
số liệu đầy đủ cho nghiên cứu, nếu thiếu số liệu quý báu này thì luận văn
này sẽ không thể thực hiện được.
Tôi xin gửi lời cảm ơn sâu sắc đến gia đình đã tạo mọi điều kiện để tôi
có thể hoàn thành luận văn. Đồng thời tôi xin cảm ơn đến anh chị em lớp
cao học Lý thuyết xác suất và Thống kê toán học khóa 2011 – 2013 đã có
những đóng góp chân thành giúp tôi hoàn thành luận văn của mình.
Tuy đã có nhiều cố gắng nhưng bản luận văn này không tránh khỏi
những thiếu xót, tôi rất mong nhận được sự đóng góp ý kiến của các thầy
5
quan hệ giữa chúng.
Hệ thống trường học cho chúng ta cái nhìn rõ ràng về cấu trúc phân
mức, với học sinh được phân thành nhóm hoặc được ghép với nhau thành
lớp học. Các lớp lại được tổ chức trong một đơn vị mức cao hơn là trường.
Các nhà khoa học thường quan tâm đến việc so sánh thành tích học tập
của học sinh, việc so sánh đó nhằm nâng cao thành tích học tập và trách
nhiệm chung trong giáo dục. Họ đã chọn ngẫu nhiên một số trường phổ
thông và tiến hành điều tra kết quả học tập vào cuối năm để biết việc
giảng dạy mỗi môn học cụ thể trong trường có liên hệ như thế nào đến với
kết quả cuối năm học. Người ta còn có những tiêu chí đánh giá đầu vào
của học sinh khi bắt đầu nhập học làm cơ sở để phân tích thành tích học
tập của học sinh.
Phương pháp truyền thống để phân tích dữ liệu kiểu này là phân tích
hồi quy, dựa vào điểm số để nghiên cứu quan hệ giữa việc phân mức hiện
tại và thành tích học tập của học sinh.
Phân tích chỉ ra rằng mô hình nhiều mức có nhiều ưu điểm hơn. Đầu
tiên, nó cho phép các nhà nghiên cứu có được ước lượng hiệu quả của hệ
số hồi quy. Thứ hai, bằng cách sử dụng thông tin phân mức ta có thể thu
được một cách đúng hơn độ lệch tiêu chuẩn, khoảng tin cậy và tiêu chuẩn
kiểm định. Các kết quả này thường chính xác hơn so với phương pháp
cổ điển mà trong đó bỏ qua sự ảnh hưởng của phân mức. Thứ ba, bằng
phương pháp này ta có thể tính được hiệp phương sai ở từng mức, điều
này giúp các nhà nghiên cứu chỉ ra sự khác biệt về kết quả học tập giữa
các trường là do phương thức giáo dục hay đặc điểm học sinh. Ngoài ra ta
có thể nghiên cứu mở rộng ra các đối tượng sinh viên ở các trường khác
nhau. Chẳng hạn liệu sự khác biệt giữa sinh viên đầu vào cao hơn so với
các trường có đầu vào thấp hơn có là nhân tố để giải thích sự khác nhau
Ở đây j được đánh dấu cho đơn vị mức 2, chỉ số i đánh dấu cho đơn vị
mức 1.
Về mặt hình thức thì (1.2) vẫn là mô hình một mức dù sự mô tả tách
biết cho mỗi trường. Trong một vài trường hợp, chẳng han như có ít trường
được chọn hoặc sự quan tâm tập trung vào một số trường nào đó, mô hình
(1.2) được sử dụng để phân tích, khi đó cần ước lượng 2n + 1 tham số đó
là (αj , βj ) với j = 1, 2, ...., n và σe2 .
Giả thiết ở đây là mô hình có chung phương sai phần dư và đường
thẳng hồi quy biểu diễn cho mỗi trường là khác biệt. Nếu mong muốn
không chỉ tập trung vào các trường này mà còn mở rộng ra nghiên cứu ở
các trường khác thì chúng ta cần coi các trường cần nghiên cứu mang các
đặc tính của trường được chọn. Như vậy ta chỉ chọn các mẫu ngẫu nhiên
của cá thể để cung cấp nghiên cứu đưa ra các kì vọng lí thuyết, vì vậy
mỗi mẫu ngẫu nhiên các trường được chọn có thể cung cấp thông tin về
7
tình hình chung của tất cả các trường. Nói riêng, nghiên cứu một mẫu có
thể đưa ra ước lượng phương sai, hiệp phương sai giữa các trường. Một
trường hợp quan trọng xuất hiện khi ta mong muốn thông tin về từng
trường trong mẫu nhưng do số lượng các trường trong mẫu lớn nên (1.2)
đòi hỏi phải ước lượng rất nhiều tham số. Hơn nữa, một số trường khá ít
học sinh và việc áp dụng (1.2) sẽ dẫn đến các ước lượng thiếu chính xác.
Trong trường hợp đó ta coi trường này như phần tử của đám đông và sử
dụng các ước lượng, kỳ vọng, phương sai mẫu ta có thể ước lượng chính
xác hơn.
Để đưa (1.2) về hai mức ta coi αj , βj là các biến ngẫu nhiên. Ta thay
αj bởi β0j , βj bởi β1j . Giả sử
E(yij ) = Xij β = (Xβ)ij ,
X = {Xij }.
Đặc biệt khi kí hiệu gộp lại
uj = (u0j , u1j )T ; xij = (1, xij )T ; β = (β0 , β1 )T , zij = xij
8
thì (1.4) được viết lại thành
yij = xTij ui + zijT β + eij .
(1.5)
Các biến ngẫu nhiên được xem như phần dư và trong trường hợp mô
hình một mức, phần dư mức 1 là e0ij trở thành phần dư của mô hình tuyến
tính thông thường.
Mô hình hồi quy (1.4) khác biệt so với mô hình thông thường là sự có
mặt nhiều hơn một thành phấn số dư. Điều đó đưa đến việc phải có cách
đặc biệt hơn để ước lượng các tham số. Nó đòi hỏi ước lượng như vậy cho
hai hệ số β0 và β1 . Chúng ta xem phương sai và hiệp phương sai như các
biến ngẫu nhiên. Ta bắt đầu với mô hình hai mức đơn giản nhất chỉ gồm
2
2
hai tham số σu0
, σe0
. Khi đó thành phần dự báo có được là
9
1.2.2
Ước lượng các tham số cho mô hình đơn biến
hai mức
Xét mô hình phương sai thành phần đơn biến hai mức
yij = β0 + β1 xij + u0j + e0ij .
(1.7)
Trong mô hình này chỉ có hệ số chặn là ngẫu nhiên. Giả sử đã biết các giá
trị của phương sai, dùng phương pháp bình phương bé nhất tổng quát để
tìm được ước lượng βˆ của hệ số cố định
βˆ = (X T V −1 X)−1 X T V −1 Y
(1.8)
trong đó
1
1
với m là đơn vị mức 2, nj là đơn vị mức một trong đơn vị mức hai thứ j.
Quá trình ước lượng là quá trình lặp thường bắt đầu từ giá trị β0 , β1 nào
đó được xác định bằng phương pháp bình phương nhỏ nhất, thông thường
2
khi giá trị σu0
= 0. Từ đó phần dư
y˜ij = yij − βˆ0 − βˆ1 xij
(1.10)
Vectơ hàng biểu diễn phần dư được viết lại là
Y˜ = {˜
yij }
Rõ ràng kỳ vọng của ma trận Y˜ Y˜ T chính là V. Ta có thể sắp xếp lại ma
trận đó như một vectơ kí hiệu là V ec(Y˜ Y˜ T .) Tương tự ta có thể xây dựng
cấu trúc Vec(V) của ma trận V. Mối quan hệ giữa hai vectơ này có thể
10
được biểu diễn bằng mô hình tuyến tính sau
2
2
2
2
y˜22
σu0 + σe0
1
1
(1.11)
với R là vecto phần dư. Cấu trúc của (1.11) là tương ứng trong mô hình
2
2
tuyến tính, qua đó có thể ước lượng các hệ số σu0
, σe0
bằng phương pháp
bình phương bé nhất. Từ đó, ta ước lượng
2
σ 2 + σe0
...
u0
σ2
2
2
+ σe0
ˆ Tiếp đó thay βˆ
Đưa ma trận V mới ước lượng về (1.8) ta sẽ tính được β.
vào (1.10) và lặp lại quá trình trên. Quá tình lặp được thực hiện cho đến
khi nhận được giá trị ước lượng ổn định.
1.2.3
Phần dư trong mô hình hai mức
Trong mô hình (1.1) ước lượng thông thường cho phần dư ei chỉ là y˜i .
Tuy nhiên trong mô hình nhiều mức ta sẽ có tham số phần dư ở các mức
khác nhau. Ta sẽ ước lượng cho phần dư ở từng mức cụ thể. Cho trước
tham số cần ước lượng, ta đi ước lượng các tham số phần dư, gọi u0j là
sai số mô hình thành phần ở mức 2. Cụ thể, ta xét mô hình 2 mức
ˆ Ω)
ˆ
uˆ0j = E(u0j |Y, β,
11
(1.12)
Nếu bỏ qua phương sai mẫu mà chỉ ước lượng các tham số trong (1.12) ta
có
cov(˜
yij , u0j ) = cov(yij − βˆ0 − βˆ1 xij ; u0j )
= cov[(β0 − βˆ0 ) + (β1 − βˆ1 )xij + u0j + u1j xij + e0ij ; u0j ]
y˜j = (
y˜ij )/nj
với nj là số các phần tử ở mức 1, ước lượng phần dư là phù hợp. Giá trị
trung bình nhiều mức y˜j của phần dư thứ j được gọi là "hệ số co" vì nó
luôn bé hơn hoặc bằng 1.
1.2.4
Gán trọng số cho các đơn vị
Xét mô hình hai mức, kí hiệu wj để chỉ trọng số đơn vị mức 2 thứ j và
kí hiệu wi|j để chỉ trọng số mức 1 thứ i trong mức 2 thứ j sao cho
wi|j = nj ;
i
wj = J
j
12
(1.13)
với J là số đơn vị mức 2 và N =
j
njk ; J =
jk
wk = k
Jk
k
Wijk = N wi|jk wj|k wk /
wi|jk wj|k wk
ijk
Wjk = Jwj|k wk /
wj|k wk
jk
Kí hiệu V ∗ là ma trận trọng số trong phân tích.
Dưới đây ta đưa ra quy tắc ước lượng để sử dụng Zu∗ , Ze∗ như là hệ số cố
định và ma trận hiệp phương sai được ước lượng theo thủ tục tương tự
như đã trình bày ở mục 1.2.3, ta sử dụng công thức
βˆ = (X T V ∗ X)−1 X T V ∗ −1 Y
ˆ = (X T V ∗ X)−1 X T V ∗ −1 V V ∗ −1 (X T V ∗ X)−1
cov(β)
Để tính phần dư ta có thể ước lượng như sau
pˆ2 = Ω2 Zu∗ T V ∗ −1 Y˜
Ma trận hiệp phương sai của ước lượng là
ˆ = (X T Vˆ −1 X)−1 X T Vˆ −1 {cov(Y )Vˆ −1 X(X T Vˆ −1 X)−1 },
cov(β)
trong đó cov(Y ) = V là chưa biết. Ta dùng thủ tục thông thường để ước
lượng nhưng điều này thường dẫn đến sai số tiêu chuẩn quá nhỏ. Phương
pháp ước lượng Jacknife lần lượt tỉa một quan sát ra khỏi mẫu và dùng
mẫu đã được tỉa bớt quan sát để ước lượng tham số cần quan tâm, thu
được n giá trị của tham số cần ước lượng (n là cỡ mẫu). Từ đó xác định
14
được khoảng tin cậy của tham số cần ước lượng.
Phương pháp linh hoạt hơn là phương pháp Bootstrap. Phương pháp ước
lượng Bootstrap là tập hợp một số kỹ thuật phân tích dựa vào nguyên lý
chọn mẫu có hoàn lại để ước tính các thông số mà thống kê thường không
giải được. Các bước chính của ước lượng Bootstrap bao gồm:
1. Sinh ra các mẫu Bootstrap ngẫu nhiên có hoàn lại kích thước N từ
mẫu ban đầu
2. Tính các thống kê đặc trưng cho mẫu được sinh ra (kỳ vọng, phương
sai, độ lệch chuẩn,. . . )
3. Lặp lại bước 1 và bước 2 với số lần lớn
4. Sử dụng các ước lượng thống kê Bootstrap đã tính ở bước 2 để đánh
giá độ chính xác các ước lượng thống kê của mẫu.
Các nhà thống kê còn phát triển phương pháp Bootstrap cao cấp hơn
chẳng hạn như phương pháp Bootstrap tham số đầy đủ. Phương pháp này
sử dụng giả thiết phân phối ban đầu để thông qua mô phỏng tạo ra các
giá trị dùng để ước lượng các tập bootstrap các tham số. Xét mô hình hai
mức đơn giản với giả thiết các giá trị các biến ngẫu nhiên có phân phối
1
uhj zhij + e0ij z0ij
yij = Xij β +
h=0
ở đây ta dùng các biến độc lập cho thành phần ngẫu nhiên của mô hình
Z = {Z0 Z1 }
Z0 = {1}
Z1 = {xij }
trong đó {1} dùng để chỉ vectơ chứa các thành phần bằng 1. Kí hiệu Ω1 là
ma trận hiệp phương sai của các biến ngẫu nhiên ở mức 1, Ω2 là ma trận
hiệp phương sai của các hệ số ngẫu nhiên ở mức 2
Ω1 =
2
(σe0
),
Ω2 =
2
σu0
σu01
2
σu01 σu1
A B
B C
1.2.7
= Xj Ω2 XjT +
Ω1
0
0 Ω1
Mở rộng mô hình hai mức
Một khía cạnh mong muốn khác của mô hình nhiều mức là là chúng
ta có thể sửa đổi quan hệ có điều kiện ở mỗi mức của mô hình, tùy thuộc
vào sự quan tâm nghiên cứu. Chẳng hạn, chúng ta có thể hiểu được đặc
điểm của trường ảnh hưởng đến thành tích học tập của học sinh như thế
nào. Ta hiệu chỉnh mô hình 2 mức trong biểu thức (1.3) như sau
β0j = β0 + β01 zi + u0j ,
β1j = β1 + β11 zi + u1j .
Khi đó mô hình (1.4) được đưa về dạng
yij = (β0 + β01 zi + u0j ) + (β1 + β11 zi + u1j )xij + eij
= β0 + β01 zi + β1 xij + β11 zi xij + u0j + u1j xij + eij .
Số hạng β11 zi xij là tác động liên kết giữa biến mức 1 xij và biến mức zi ,
được coi là tương tác giữa các mức.
do đó cho phép mô hình hóa các hệ thống rất phức tạp. Vì vậy khả năng
ước lượng hiệu quả phối hợp các mức là một ưu điểm của mô hình nhiều
mức so với chiến lược phân tích riêng rẽ cho từng mức.
Mô hình nhiều mức cấp hai và các mức cao hơn cũng cung cấp cho
chúng ta khả năng để ước lượng cấu trúc phương sai. Việc cải thiện cấu
trúc phương sai này cung cấp cho chúng ta hiểu biết tốt hơn về toàn bộ
mô hình và thường đưa đến kết quả trong việc cải thiện độ chính xác của
ước lượng so với mô hình hồi quy thông thường.
1.3
1.3.1
Mô hình nhiều mức
Mô hình nhiều mức
Việc mở rộng ra số mức nhiều hơn cũng được làm tương tự như đối với
mô hình hai mức. Chúng ta xét mô hình mức 1 là:
T
yijk = xT1ijk β1 + z1ijk
βij + e1ijk
(1.17)
Trong đó hệ số y là thành tích học tập của học sinh, i = 1, 2, ..., n là chỉ
số trường, j = 1, ..., Ji là chỉ số lớp trong trường thứ i và k = 1, ..., Kij là
chỉ số sinh viên trong lớp thứ i (trong trường j ).
Biến giải thích x1ijk , z1ijk có thể phụ thuộc vào sinh viên (giới tính, thu
nhập gia đình,...), phụ thuộc vào lớp (đặc điểm giáo viên, cơ sở vật chất,
lớp học,...) hay trường (quy mô, cấu trúc, địa điểm,...). Các tham số mà
vừa phụ thuộc vào trường i, lớp j thì xuất hiện như một phần của vectơ
và hằng số trên các trường. Kết hợp (1.17), (1.18), (1.19) ta được
T
yijk = xT1ijk β1 + [X2ij β2 + Z2ij (X3i β3 + e3i ) + e2ij ]z1ijk
+ e1ijk
T
T
T
T
= xT1ijk β1 + z1ijk
X2ij β2 + z1ijk
Z2ij X3i β3 + zijk
Z2ij e3i + z1ijk
e2ij + e1ijk
T
= xTijk β + zijk
uij + e1ijk
T
T
X2ij ; z1ijk
Z2ij X3i ), β = (β1T ; β2T ; β3T ).
với xTijk = (xT1ijk ; z1ijk
Biểu thức này thể hiện mô hình 3 mức là mô hình hiệu quả tuyến tính hỗn
hợp.
1.3.2
Ước lượng các tham số
Xét mô hình nhiều mức có dạng
V ar(yi ) = Zi DZiT + Ri = Vi (τ ) = Vi
(1.20)
Bằng phương pháp ước lượng bình phương bé nhất tổng quát ta thu được
ước lượng của β là
n
βˆGLS = (
n
XiT Vi−1 Xi )
i=1
XiT Vi−1 yi
i=1
20
(1.21)
và phương sai V arˆ(β)GLS = (
n
i=1
XiT Vi−1 Xi )−1 .
(1.23)
Ta ước lượng hệ số hồi quy β và thành phần phương sai bằng cách xuất
phát từ giá trị ban đầu của D và Ri ta tính được Vi theo công thức (1.18),
ˆ Với βˆ đã
sau đó thay Vi tính được vào công thức (1.19) ta thu được β.
được ước lượng ta thay vào (1.20), (1.21) thu được thành phần phương sai
Vi . Quá trình trên được tiến hành lặp đi lặp lại cho đến khi thu được một
ước lượng hội tụ.
1.3.3
Xác định giá trị ban đầu của quá trình lặp
Để ước lượng hệ số hồi quy và thành phần phương sai đòi hỏi ta cần có
giá trị ban đầu cho quá trình lặp. Để xác định được giá trị ban đầu này, ta
sử dụng phương pháp moment Swamy với giả thiết xij = zij và Ri = σi2 Ii ,
sau đó tiến hành qua các bước sau
1. Tính toán ước lượng bình phương bé nhất của σi2
s2i =
1
yiT (Ii − Xi (XiT Xi )−1 XiT )yi .
Ti − K
Trong ước lượng này chúng ta tạm thời bỏ qua D = V ar(βi ).
bi .
i=1
Ước lượng của D được gợi ý đưa ra bằng cách kiểm tra phương sai của bi
V ar(bi ) = V ar(XiT Xi )−1 XiT (Xi (β + ui + ei ))
= V ar(β + ui + (XiT Xi )−1 XiT ei ) = D + σi2 (XiT Xi )−1 .
Sử dụng
1
n−1
n
(bi − ¯b)(bi − ¯b)
i=1
và s2i là ước lượng của V ar(bi ) và σi2 tương ứng, kéo theo DSW AM Y là một
ước lượng của D.
1.4
1.4.1
Kiểm định sự phù hợp của mô hình
Kiểm định một hệ số hồi quy
Trong nhiều phân tích thống kê, mục tiêu chính của kiểm định là đánh
giá xem hệ số hồi quy có bằng giá trị đặc biệt nào đó hay không. Ta quan
tâm đến việc kiểm định giả thuyết: H0 : βj = βj,0 /K : βj = βj,0 (thường
thủ tục thông thường là kiểm định tỷ số hợp lý. Ta có thể xem xét giả
thuyết H0 : Cβ = d trong đó C là ma trận p × k với hạng bằng p, d là là
một vectơ p × 1 (thường là vectơ 0) và β là một vectơ k × 1 của các hệ số
hồi quy. Giả thuyết này được kiểm tra so sánh với đối thuyết H1 : Cβ = d.
Thủ tục kiểm định tham số hợp lý được tiến hành theo các bước sau
1. Sử dụng mô hình không có ràng buộc, tính toán ước lượng hợp lí cực
đại và hàm log hợp lý tương ứng, kí hiệu là LM LE .
2. Đối với mô hình có ràng buộc thì sử dụng giả thuyết H0 : Cβ = d,
tính toán ước lượng hợp lí cực đại và hàm log hợp lý tương ứng, kí
hiệu LReduced .
3. Tính hàm log tỉ số hợp lý để kiểm định hiểu quả, LRT = 2(LM LE −
LReduced ).
4. Bác bỏ H0 nếu LRT lớn hơn phân vị tương ứng (thường được chọn
bằng 5% ) của phân phối Khi - bình phương với p bậc tự do. Tất nhiên,
ta có thể dùng giá trị p để hiệu chỉnh mức ý nghĩa của kiểm tra.
23