Tài liệu hướng dẫn
thống kê y học sử dụng SPSS
SPSS
ANOVA đơn biến cho phép đo lặp lại
BS. Lê Đông Nhật Nam
1
Lời nói đầu
Mùa hè năm 1994 tôi theo học tại trung tâm văn hóa ngoài giờ ở đường Lý Tự Trọng quận 1 TP. Hồ
Chí Minh. Lúc đó tôi rất kém về môn toán (gần như mất căn bản toàn bộ chương trình toán cấp 2),
và kết quả tất yếu là trong kì thi xếp lớp tôi lãnh một điểm zéro tròn vo. Người ta tập hợp tất cả
những học sinh « siêu cấp » như tôi vào chung một lớp do thầy Vũ Cao Thắng quản nhiệm (đây là
một trong những thầy giáo tuyệt vời nhất mà từng gặp). Chỉ sau 3 tháng lớp của thầy không chỉ lấy
lại căn bản mà còn xuất sắc vượt qua kì thi cuối khóa, và 9 tháng sau 100% học sinh trong lớp đều
trở thành học sinh giỏi toán và hầu hết thi đậu vào lớp 10 với điểm số rất cao. Nhiều bạn bè tôi còn
thi đậu vào khối A trường chuyên.
Câu chuyện này là bài học đầu tiên trong đời tôi về ý nghĩa thực sự của điểm số và những kì thi, từ
đó tôi hiểu rằng mọi vật trên đời đều thay đổi theo thời gian do tự bản thân hay dưới sự tác động
của một yếu tố bên ngoài.
Trong nghiên cứu y học, nếu chỉ khảo sát cắt ngang tại một thời điểm duy nhất ta có nguy cơ đưa ra
kết luận sai lầm về bản chất của một hiện tượng. Để nhìn thấy quy luật diễn tiến của một bệnh lý,
đánh giá hiệu quả của một phương pháp điểu trị, ta thường theo dõi cùng 1 bệnh nhân ở nhiều
thời điểm khác nhau, khảo sát 1 yếu tố ở các điều kiện khác nhau. Từ đó đặt ra vấn đề so sánh
những giá trị này để tìm sự khác biệt.
Phương pháp thống kê cho phép giải quyết bài toán này là phân tích phương sai cho phép đo lặp lại
(ANOVA for repeated measure) hay còn gọi là ANOVA cùng đối tượng (within subject).
Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên
cứu khoa học. Đây là một cậu sinh viên rất tò mò và luôn đặt ra
nhiều câu hỏi liên quan đến thống kê. Mặc dù những đế tài do Bảo
thực hiện rất đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ
hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích
số liệu và thiết kế nghiên cứu.
3
1
1.1 Tình huống thí dụ
Rối loạn chuyển hóa phosphat là một yếu tố nguy cơ tử vong ở bệnh nhân
bỏng nặng.
Một bác sĩ tại khoa Bỏng thực hiện đề tài khảo sát sự thay đổi nồng độ
Phosphat trong huyết thanh ở bệnh nhân bỏng. Nghiên cứu được thực hiện
trên 20 bệnh nhân người lớn bị bỏng độ 2 hơn 30% tổng diện tích cơ thể
hoặc độ 3 quá 15% tổng diện tích cơ thể.
Biến số cần khảo sát là nồng độ phosphat trong huyết thanh (đơn vị mg/dl).
Bệnh nhân được lấy 2 mL máu tĩnh mạch vào buổi sáng ở thời điểm 3-6-9
ngày sau khi nhập viện. Mẫu máu sau đó sẽ được quay ly tâm để tách huyết
thanh và định lượng nồng độ phosphate bằng máy phân tích sinh hóa tự
động Hitachi-Boehringer-Mannheim.
Câu hỏi nghiên cứu của Bảo là tìm ra quy luật biến đổi của nồng độ serum
phosphat trong thời gian nằm viện, liệu nó sẽ tiếp tục giảm, dao động ngẫu
nhiên hay được cải thiện ?
𝑆𝑆𝑅 =
𝑛
𝑖=1
𝑥𝑖 − 𝑥𝑖
2
= 𝑠2 𝑛 − 1
với s = phương sai tính cho từng lần đo (n như nhau cho mỗi lần đo)
𝑆𝑆𝑤 = 𝑆12 ∗ 𝑛1 − 1 + ⋯ + 𝑆12 ∗ 𝑛𝑘 − 1
= biến thiên giá trị ở từng cá thể, rồi cộng tất cả lại; số lần đo = k
Mỗi cá thể có độ tự do dFi=(n-1) nên dF tổng cộng = tổng các dFi
𝑆𝑆𝑀 =
𝑘
𝑘=1 𝑛𝑘
𝑥𝑘 − 𝑥𝑔𝑟𝑎𝑛𝑑
2
và có độ tự do dFM = (k-1)
SSR = (SSW-SSM) = residual sum of square và có độ tự do dfR = dfW – dfM
Sau đó ta ước tính Mean square, để trung hòa ảnh hưởng sai lầm gây ra do số lần đo; gồm 2 loại:
Mean square chính hay của « mô hình »: MSM = SSM/dfM
(MS)
MSM
MSM/MSR
SSB
n-1
MSB
MSB/MSR
SSR
SST
(k-1)*(n-1)
N-1
MSR
Kiểm tra các giả định
Thực hiện phân tích ANOVA
cho phép đo lặp lại
Tỉ số F
Sử dụng chức năng Explore của SPSS
1
1.2 Giới thiệu
Phân tích phương sai (ANOVA) đơn biến cho thí
nghiệm lặp lại có thể ứng dụng cho nhiều thiết kế
nghiên cứu như
1. Khảo sát sự biến thiên của 1 đại lượng theo
thời gian :
- Diễn tiến của một bệnh lý trong khoảng thời gian
nằm viện
- Đánh giá hiệu quả trị liệu: So sánh sự thay đổi của
triệu chứng (định lượng) trước và sau khi điều trị
- Nghiên cứu dược động học, sinh hóa học: khảo sát
nổng độ của một chất trong cơ thể theo thời gian.
2. So sánh giá trị 1 đại lượng giữa những điều
kiện khảo sát khác nhau:
- Nghiên cứu sự dao động của giá trị một đại lượng
ở các thời điểm khác nhau trong ngày
- Ảnh hưởng của môi trường (nhiệt độ, độ cao…),
chế độ ăn, tư thế… lên kết quả xét nghiệm
- So sánh những phương pháp đo, thiết bị đo khác
nhau
Bạn cần có:
1 biến số định lượng liên tục biểu thị cho đại lượng
cần nghiên cứu ; ví dụ: nồng độ 1 chất trong máu
1 biến số định tính để phân loại điều kiện đo (≥3
cho phép bạn mô tả ý nghĩa của biến số, điều này rất có ích nếu sau
này bạn muốn chuyển số liệu cho một đồng nghiệp khác sử dụng.
Số thứ tự
1
2
3
…
n
Lần đo
1
X11
X21
X31
…
Xn1
Lần đo
2
X12
X22
X32
…
Xn2
…
Lần đo k
2
3
Trong hộp thoại Explore,
bạn kéo tất cả những biến
số định lượng vào ô
Dependent list, sau đó
nhấn
để mở hộp
thoại vẽ biểu đồ.
4
5
9
2
2.2 Thăm dò số liệu và kiểm tra giả định
Vẽ biểu đồ Boxplot chung cho
các biến định lượng
6
Thực hiện kiểm định phân
DATASET ACTIVATE DataSet2.
EXAMINE VARIABLES=SP3 SP6 SP9
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE VARIABLES
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
11
2
2.2 Thăm dò số liệu và kiểm tra giả định
Case Processing Summary
Cases
Valid
Missing
Total
N
Percent
N
20
100,0%
Serum P Ngày thứ 9
20
100,0%
0
0,0%
20
100,0%
Kiểm tra việc thiếu sót dữ liệu
Descriptives
Serum P Ngày thứ 3
Mean
Statistic
Std. Error
2,49623
1,688
Maximum
3,200
Range
1,513
Interquartile Range
,652
Skewness
,186
,512
Kurtosis
-,625
,992
Thông tin cần quan tâm: Giá trị trung bình và độ lệch chuẩn
12
,121
20
,200*
,953
20
,420
Serum P Ngày thứ 6
,103
20
,200*
,978
20
,900
Serum P Ngày thứ 9
,132
2
2.2 Thăm dò số liệu và kiểm tra giả định
*
X3
X1,5
*
Điểm giá trị cá biệt
Điểm giá trị chênh lệch cực độ
Biểu đồ Box-plots cho phép phát hiện nhanh các điểm giá trị cá biệt (chênh lệch quá
lớn so với độ lệch chuẩn). Biểu đồ này cũng dùng để báo cáo kết quả.
Bất cứ điểm nào có khoảng cách > 1,5 lần chiều dài của error bar được xem là điểm
ngoại lai.
Nếu cách biệt lớn hơn 3 lần, đó là giá trị rất phân cực.
Trong hình trên, không có điểm giá trị ngoại lai nào được phát hiện.
Nếu có trường hợp giá trị cá biệt, SPSS sẽ đánh dấu bằng mã số thứ tự cho phép ta
định vị dễ dàng trường hợp đó trong bảng số liệu.
Điểm giá trị cá biệt
(trường hợp thứ 5 trong bảng số liệu)
Điểm giá trị chênh lệch cực độ
(trường hợp thứ 4 trong bảng số liệu)
14
2
2.2 Thăm dò số liệu và kiểm tra giả định
Nếu giả định phân phối
chuẩn bị vi phạm ta
phải xử trí thế nào ?
Bạn có nhiều lựa chọn
1) Chuyển dạng biến số (ví dụ thang đo Logarit), với hy vọng sẽ có phân phối
chuẩn
2) Sử dụng phương pháp phi tham số (kiểm định Friedman, là giải pháp thay
thế cho ANOVA trong phép đo lặp lại)
3) Bỏ qua vi phạm và vẫn làm phân tích ANOVA (Thực ra điều kiện phân phối
không phải là tuyệt đối bắt buộc).
4) Làm ANOVA song song cho 2 mẫu số liệu: nguyên thủy và đã chuyển dạng
(logarit hóa), so sánh kết quả của chúng với nhau.
Lời khuyên của BS Nhi:
Nếu bạn có bất thường về số liệu, bạn NÊN báo cáo điều đó cụ thể trong phần kết
quả, nhất là cách bạn xử lý những điểm giá trị cá biệt.
Nếu phân phối lệch trái hay phải, ngoài giá trị trung bình và SD bạn nên cung cấp thêm
giá trị của Skewness và Kurtosis (trong bảng kết quả Explore)
Hành động này sẽ đánh vào tâm lý của các nhà phê bình và giám khảo, loại bỏ nghi
ngờ về việc gian lận và ngụy tạo số liệu, nhất là khi kết quả của bạn quá hoàn hảo.
Người đọc sẽ nghĩ: Tác giả là một người thành thật và nắm vững phương pháp thống
kê.
Với phép đo lặp lại, SPSS sẽ tạo 1 biến số ảo để chỉ điều
kiện, trong đa số trường hợp biến số này được xem là “Thời
gian”, bạn có thể đặt tên cho nó tùy ý, ví dụ: Lần đo, Điều
kiện, can thiệp, thiết bị…
4
sau đó nhập giá trị cho thứ bậc “level” (số lần đo=k), ví dụ
bạn khảo sát 3 lần thì nhập vào số 3
Sau khi làm xong, bạn nhấn nút
để xác nhận.
Biến số phân nhóm « Thoigian(3) » đã được xác nhận
Tiếp theo bạn sẽ quy định biến số định lượng cần khảo sát.
Tên của nó có thể đặt tùy ý, ví dụ: « SerumP »
Sau khi đặt tên, bạn nhấn nút
để xác nhận
Cuối cùng, bạn nhấn
để ghép 3 biến số rời trong
bảng số liệu vào bảng Within-subject variables.
5
6
18
vẽ 1 biểu đồ duy nhất khảo sát sự biến
thiên của serum Phosphat (trục tung) theo
thời gian ở « Trục hoành.
9
Biểu đồ này rất hữu ích vì cho ta thấy
khuynh hướng thay đổi, từ đó hình thành
giả thuyết tương phản.
10
Sau khi chọn xong, nhấn nút
xác nhận
Nhấn
để
để trở về hộp thoại chính.
11
20
3
3.1 Thực hiện phân tích ANOVA
Nhấn
3
3.2 Diễn giải kết quả cơ bản
Nếu bạn chỉ muốn dừng lại ở phân
tích phương sai tổng quát (test F),
công việc đến đây là đủ, bạn có thể
nhấn
để chạy phân tích.
Nếu bạn muốn làm thêm post-hoc
test hay phân tích tương phản, xin
đọc phần tiếp theo.
16
Sau đây là phần kết quả của phân tích phương sai cơ bản
Within-Subjects Factors
Measure: SerumP
Kiểm tra lần cuối sự bắt cặp giữa biến số khảo sát (dependent variable)
và biến số phân nhóm điều kiện (Thời gian).
Dependent
Thoigian
Variable
1
,489250
20
Serum P Ngày thứ 9
3,82986
,386590
20
Đọc bảng mô tả, cho biết giá trị trung
bình (mean) và độ lệch chuẩn (SD) của
đại lượng khảo sát ứng với mỗi điều kiện
(lần đo). Bằng trực giác, ta có thể có cái
nhìn sơ lược về khuynh hướng thay đổi
của giá trị này. Lưu ý: n phải như nhau ở
3 nhóm, ngược lại tức là có trường hợp
sót số liệu
Giá trị trung bình
Độ lệch chuẩn
Số trường hợp
Những thông tin ta sẽ cần khi báo cáo kết quả là: Mean, SD, khuynh hướng
(tăng/giảm/không đổi).
Measure: SerumP
Epsilonb
Approx. ChiWithin Subjects Effect
Thoigian
Greenhouse-
Mauchly's W
Square
df
Sig.
Geisser
Huynh-Feldt
Lower-bound
,864
2,623
2
,269
Greenhouse-
Mauchly's W
Square
df
Sig.
Geisser
Huynh-Feldt
Lower-bound
,864
2,623
2
,269
,881
,964
,500
Measure: SerumP
Type III Sum
M
Error(Thoigian)
E
Partial Eta
of Squares
df
Square
F
Sig.
Squared
Sphericity Assumed
18,287
2
9,143
,000
,903
Lower-bound
18,287
1,000
18,287
176,194
,000
,903
Sphericity Assumed
1,972
38
,052
Greenhouse-Geisser
1,972
“Sphericity assumed”, tức không cần hiệu chỉnh
Giá trị p (Sig) cho phép kết luận hay phủ định về sự khác biệt có ý nghĩa giữa các lần đo
khác nhau. P< 0.05 cho thấy có sự khác biệt ý nghĩa.
Khi báo cáo kết quả, ta cần trình bày những thông tin sau đây:
F: giá trị hệ số F
dfM: độ tự do của mô hình (model) hay tác động của điều kiện thí nghiệm
dfError: độ tự do của sai số (error) hay yếu tố ngẫu nhiên
Test F so sánh giá trị này với phân phối F:
Sig: ý nghĩa thống kê (giá trị p)
Ví dụ:
Kết quả phân tích phương sai cho thấy có sự khác biệt ý nghĩa về giá trị của serum
phosphate tại các thời điểm khảo sát khác nhau; F(2,38)= 176.19 ; p Trích đoạn Qui tắc đặt trọng số cho các phân nhóm