Chiến lược phân tích số liệu định lượng - Pdf 39

Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC

CHIẾN LƯỢC PHÂN TÍCH SỐ LIỆU
Mục tiêu
Sau khi học xong bài này, học viên có thể:
1. Xây dựng được sơ đồ phân tích dự kiến các kết quả nghiên cứu
2. Hiểu được các bước tiếp cận phân tích số liệu
3. Lựa chọn được các kiểm định và mô hình thống kê phù hợp với các kết quả
nghiên cứu
Giới thiệu
Chúng ta đã biết có những kĩ thuật thống kê chuyên biệt cho các nghiên cứu
dịch tễ nhất định. Trong bối cảnh của một nghiên cứu dịch tễ thực sự bao gồm số liệu
của rất nhiều các biến số, rất khó quyết định thao tác nào được áp dụng và áp dụng
theo trình tự như thế nào. Trong phần này, chúng ta sẽ trình bày một số nguyên tắc
chiến lược để phân tích số liệu từ nghiên cứu dịch tễ.
1. Xây dựng sơ đồ phân tích dự kiến
1.1. Phân tích theo mục tiêu nghiên cứu
Trong nghiên cứu, việc thu thập và phân tích số liệu đóng vai trò quan trọng và
được dẫn đường bởi mục tiêu nghiên cứu. Điều này đảm bảo các số liệu được thu thập
và phân tích đáp ứng trả lời tất cả các thông tin mục tiêu nghiên cứu yêu cầu. Do vậy,
cần phải có sự hiểu biết về các công cụ và kỹ thuật phân tích số liệu.
Phân tích số liệu là một quá trình trong việc thực hiện nghiên cứu. Nhìn chung,
nghiên cứu có các giai đoạn:
o Xác định vấn đề nghiên cứu
o Xác định câu hỏi và mục tiêu nghiên cứu
o Hình thành phương pháp nghiên cứu (bao gồm các vấn đề về đối tượng nghiên
cứu, mẫu nghiên cứu, phương pháp thu thập số liệu v.v…)
o Thu thập số liệu
o Phân tích số liệu
o Phiên giải và trình bày kết quả
Trong việc phân tích số liệu, nội dung phân tích cũng gắn liền một cách chặt

gian hành nghề, nơi hành nghề, trình độ học vấn…
4. Các yếu tố nguy cơ trong nhóm GMD có đặc điểm như thế nào? Ví dụ các yếu tố:
tuổi, thời gian hành nghề, nơi hành nghề, số lượng bạn tình, số lượt bạn tình trong
tuần, đặc điểm khách hàng thường xuyên (khách lạ/khách quen), sử dụng bao cao
su, kiến thức về phòng ngừa bệnh lây truyền qua đường tình dục…
5. Mối liên quan giữa các yếu tố nguy cơ với việc mắc bệnh (có mắc/không mắc) lây
truyền qua đường tình dục trong nhóm GMD như thế nào? Nói cách khác, những
người có yếu tố nguy cơ có nguy cơ mắc bệnh cao hơn người không có yếu tố nguy
cơ hay không?
Thực tế là, các câu hỏi này xuất phát từ mục tiêu nghiên cứu. Mục tiêu i) được đáp ứng
bằng các câu hỏi phân tích 2 và 3, mục tiêu ii) được đáp ứng bằng các câu hỏi phân
tích 4 và 5. Câu hỏi phân tích 1 luôn luôn được đưa ra để mô tả và giới thiệu về đối
tượng nghiên cứu, trước khi đi vào phân tích cho các mục tiêu chính.
Thêm vào đó, các câu hỏi này cũng xuất phát từ khung lý thuyết của nghiên cứu. Điều
này là hiển nhiên vì khung lý thuyết nhằm định hướng và thể hiện các mục tiêu nghiên
cứu, do đó cũng định hướng cho việc phân tích số liệu.

2


Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC

Các yếu tố nguy cơ:
- Thời gian hành nghề
- Số lượng bạn tình
- Số lượt bạn tình/tuần
- Đặc điểm khách hàng
- Sử dụng bao cao su
- Kiến thức phòng ngừa


hướng phân tích: phân tích mô tả hay phân tích suy luận.
Phân tích mô tả nhằm mục đích mô tả đối tượng nghiên cứu và những yếu tố
nguy cơ liên quan đến vấn đề nghiên cứu.
Việc mô tả một cách rõ ràng và chính xác thông tin của đối tượng nghiên cứu
giúp cho những người đọc báo cáo kết quả nghiên cứu hiểu rõ hơn đặc điểm của
nghiên cứu và dân số nghiên cứu. Các thông tin được chọn để đưa ra trong thống kê
mô tả liên quan chặt chẽ đến những thông tin trong thống kê suy luận.
Trong khi phân tích mô tả chỉ nhằm mục đích mô tả các đặc tính của đối tượng
nghiên cứu, sự phân bố của tình trạng phơi nhiễm và bệnh tật, thống kê suy luận sử
dụng các kiểm định thống kê để chứng minh có hay không có mối liên quan giữa phơi
nhiễm và kết cuộc quan tâm. Lưu ý, các kết quả phân tích từ thống kê suy luận chưa
đủ để kết luận về mối liên quan nhân quả, việc kết luận mối liên quan nhân quả giữa
phơi nhiễm và bệnh phải được dựa vào các yếu tố khác được đề cập nhiều trong dịch
tễ học.
3


Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC

Ví dụ:
Trong ví dụ 1:
Câu hỏi phân tích 1, 2, 3 và 4 thuộc về phân tích mô tả.
Câu hỏi 5 thuộc về phân tích suy luận.
Như vậy, dựa trên các câu hỏi phân tích, nhà nghiên cứu có thể khái quát thành
sơ đồ phân tích sau:
Mục tiêu
NC 1

Câu hỏi
phân tích 1

Hình 2. Sơ đồ phân tích dự kiến
Tóm lại, để xây dựng sơ đồ phân tích dự kiến (hoặc các câu hỏi phân tích dự
kiến), nhà nghiên cứu cần tiếp cận theo trình tự như hình 2.
2. Lựa chọn các kỹ thuật phân tích
2.1. Phân tích mô tả
2.1.1. Mô tả 1 biến số:
Một trong những vấn đề quan trọng của phân tích mô tả là chọn đại lượng thống
kê để mô tả. Điều này tuỳ thuộc vào loại biến số: biến phân loại hay biến định lượng.
-

Biến số phân loại: sử dụng tỷ lệ (%)

-

Biến số định lượng (liên tục): sử dụng các đại lượng đo lường độ tập trung và
sự biến thiên/sự phân tán.
o Đo lường độ tập trung: trung bình, trung bị, mode
o Đo lường sự biến thiên/sự phân tán: phương sai, độ lệch chuẩn, khoảng
phân vị, khoảng

Lưu ý: Đối với biến số định lượng, việc lựa chọn đại lượng để mô tả còn phụ
thuộc vào phân bố của biến đó. Nếu biến có phân bố chuẩn, giá trị trung bình và độ
lệch chuẩn được dùng để mô tả đại lượng được thể hiện bởi biến đó. Nhưng nếu biến
đó không có phân bố chuẩn thì giá trị trung vị, khoảng (giá trị nhỏ nhất; giá trị lớn
nhất) được dùng để mô tả cho biến đó.
4


Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC


2.1.2. Mô tả 2 biến số
Khi mô tả hai biến số, cần chọn lựa các kỹ thuật được mô tả trong bảng 2.
Bảng 2. Lựa chọn đại lượng mô tả mối liên quan giữa hai biến số
Biến số
Định lượng
Phân loại
Định lượng
Phân tán đồ (biểu đồ chấm Boxplot
điểm)
Case summaries
Hệ số tương quan
Phân loại
Boxplot
Bảng chéo (Crosstabs)
Case summaries
Giả định
Các quan sát là độc lập
Biến định lượng có phân phối chuẩn
2.2. Phân tích suy luận
2.2.1. Lựa chọn kiểm định
Về nguyên tắc, việc lựa chọn kiểm định thường dựa vào biến số trong câu hỏi
nghiên cứu. Bước đầu tiên khi thực hiện kiểm định là phân tích câu hỏi nghiên cứu để
xem xét các biến số trong câu hỏi, từ đó giúp lựa chọn kiểm định phù hợp.
Có hai nhóm kiểm định: kiểm định tham số và kiểm định phi tham số.
Kiểm định tham số thường được sử dụng khi biến số phụ thuộc là biến định
lượng có phân phối chuẩn.
• Nếu biến độc lập là biến nhị phân (ví dụ giới tính, có hai giá trị là nam, nữ) Æ
kiểm định được sử dụng khi so sánh sự khác nhau trung bình của biến số phụ
thuộc giữa hai nhóm giá trị của biến số độc lập là t-test không bắt cặp
Ví dụ: so sánh lượng calories trung bình trong hai nhóm có và không béo phì

Danh định

So sánh trước – sau
(trên cùng đối tượng)

Hai nhóm đối
tượng
gồm
các cá nhân
khác nhau

Ba hay nhiều
nhóm
đối
tượng gồm
các cá nhân
khác nhau

Trước và
sau nghiên
cứu
trên
cùng
các
đối tượng

Liên hệ giữa
hai biến số



nxm
(OR, RR…)

Kiểm
định KruskalLiên
tục sắp hạng – Wallis
(không có tổng Mannphân phối Whitney
chuẩn)

Thứ tự

Kiểm định Friedman
sắp hạng có
dấu
Wilcoxon

Hệ số tương
quan Spearman

2.2.2. Quy trình lựa chọn kiểm định – ví dụ
Để lựa chọn các kiểm định thống kê cơ bản trở nên dễ dàng hơn với nhà nghiên
cứu, việc phân tích lựa chọn có quy trình khởi đầu từ biến phụ thuộc.

6


Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC

Hộp 1. Có sự khác biệt hay không? Biến phụ thuộc là biến số định lượng, các
đo lường là độc lập với nhau (không lặp lại)

Biến định
lượng

Không có
phân phối
chuẩn

Hộp 2. Có sự khác biệt hay không? Biến phụ thuộc là biến số phân loại, các
đo lường là độc lập với nhau (không lặp lại)

Biến
phân loại

So sánh
giữa các
nhóm

Có ≥25% ô
có giá trị kỳ
vọng
chúng ta có thể sử dụng bảng chéo (crosstabs) để chắc rằng không có người nam giới
nào có số lần mang thai là một hay nhiều hơn. Phân tán đồ (scatter graph) cũng có thể
được sử dụng để kiểm tra tính hằng định của số liệu số; thí dụ chúng ta có thể vẽ phân
tán đồ của trọng lượng theo tuổi, trọng lượng theo chiều cao, dung tích sống theo chiều
cao. Những giá trị bất thường cũng có thể được phát hiện bằng cách này.
Kết quả của việc kiểm tra: nếu có sai sót:
-

Những sai sót có thể được kiểm tra so với tài liệu gốc. Trong một số trường
hợp cần phải điều chỉnh lại số liệu.

-

Một số trường hợp khác cần phải đưa mã số giá trị khuyết (missing value)
nếu chắc chắn rằng số liệu sai (thí dụ một bà mẹ có trọng lượng trước khi
sinh là 45 kg và đã tăng cân 35kg trong thời gian có thai).

Lưu ý: Trong trường hợp còn chưa rõ, khi số liệu là bất thường nhưng không bị
xem là không thể xảy ra, tốt nhất là để số liệu giữ nguyên. Một cách chặt chẽ, việc
phân tích sau đó phải được kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá
mức vì giá trị cực đoan này. Trên thực tiễn, giá trị bằng số (định lượng) thường được
chia thành các nhóm trước khi phân tích và do đó một hay hai giá trị bất thường khó có
thể có ảnh hưởng đáng kể đến kết quả.
Nếu là nghiên cứu bệnh chứng: Việc kiểm tra cần phải được tiến hành riêng biệt
cho nhóm mắc bệnh và nhóm không mắc bệnh bởi vì phân phối của 2 nhóm này có thể
hoàn toàn khác nhau.
3.2. Mô tả số liệu
Sau khi số liệu đã được làm sạch, phân phối của từng biến số phải được rà soát
lại. Điều này được thực hiện cho 2 mục đích.
-

nhiễm và kết cuộc. Chúng ta thu thập số liệu của các biến số gây nhiễu để
loại bỏ tác động của yếu tố gây nhiễu trong khi phân tích.

-

Biến số thay đổi tác động (biến số tương tác): là biến số làm thay đổi tác
động của biến số phơi nhiễm lên nguy cơ. Chúng ta thu thập số liệu của các
biến số thay đổi tác động để xem xét tác động của biến số phơi nhiễm lên
nguy cơ thay đổi như thế nào tuỳ theo giá trị của biến số thay đổi tác động.

Ví dụ:
-

Khi xem xét mối liên quan giữa biến số kết cuộc “ung thư phổi” có hai giá
trị “bệnh” và không bệnh – “chứng” và biến số phơi nhiễm “hút thuốc
lá”(Hình 1), kết quả cho thấy tỷ số số chênh OR=0.89 < 1Æ hút thuốc có
thể là yếu tố bảo vệ đối với bệnh ung thư phổi (???).

-

Khi phân tích cụ thể theo biến giới tính: phân tích riêng cho nhóm nam và
nhóm nữ, OR = 1.98 hoặc 1.99 Æ Con số OR thực ra là > 1 (gần bằng 2).

-

Như vậy, rõ ràng biến số giới tính đã làm biến dạng mối quan hệ giữa hút
thuốc lá và ung thư phổi. Rõ ràng nếu không loại bỏ sự gây nhiễu của biến
số giới tính, kết quả của chúng ta sẽ bị sai.

Hình 1: Minh hoạ yếu tố gây nhiễu


-

Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò. Qua phân tích biến
số này có thể trở thành biến số phơi nhiễm, hoặc nếu nó không trở thành
biến số phơi nhiễm, nó có thể được xem là biến số gây nhiễu hay thay đổi
tác động.

3.4. Rút gọn số liệu
Trước khi bắt đầu phân tích chính thức, có thể cần phân nhóm giá trị của các
biến số.
Việc phân nhóm là quan trọng cho các biến số liên tục. Ví dụ chúng ta có biến
số BMI với các giá trị 19, 19.2, 19.6, 20, 20.5,… Để đơn giản, chúng ta dựa trên phân
nhóm BMI về béo phì và nhóm các giá trị này thành 2 nhóm: BMI
cứu phải quyết định các chỉ số/giá trị để đo lường các tác động/mối liên quan mà nhà
nghiên cứu quan tâm. Việc lựa chọn phụ thuộc vào thiết kế nghiên cứu. Có các lựa
chọn khác nhau để đo lường tác động cho các thiết kế nghiên cứu. Các lựa chọn bao
gồm:

11


Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC

Bảng 4: Lựa chọn các đo lường tác động
Thiết kế nghiên cứu

Đo lường tần suất bệnh

Thuần tập (người thời Tỉ suất mới mắc
gian)
Thuần tập (không có số Nguy cơ
liệu người thời gian)
Số chênh
Cắt ngang để đo lường Tỉ lệ hiện mắc
hiện mắc
Số chênh
Bệnh chứng

Đo lường tác động
Tỉ số tỉ suất
Hiệu số tỉ suất
Tỉ số nguy cơ
Hiệu số nguy cơ

định….;

ii) Nó cho chúng ta khái niệm ban đầu về các biến số có thể liên quan mạnh đến kết
cuộc;
iii) Mức độ thay đổi của ước lượng thô so với ước lượng khi các biến số khác được
đưa vào để sử dụng trong phân tầng là một chỉ số quan trọng để đánh giá sự hiện
diện của yếu tố gây nhiễu.
12


Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC

Khi phơi nhiễm có trên 2 mức độ, một mức độ phơi nhiễm được chọn làm mức
nền. Thông thường người ta chọn mức nền là mức không có phơi nhiễm (hoặc phơi
nhiễm ít nhất nếu ai đó đều bị phơi nhiễm hoặc ít hoặc nhiều). Tuy nhiên nếu nhóm
này có ít người thì ước lượng sẽ có sai số chuẩn lớn và chúng ta có thể có lợi khi chọn
nhóm lớn hơn làm nền tảng.
Phân tích phơi nhiễm với 2 hoặc hơn các mức độ (cả khi phân tích thô và phân
tích phân tầng) sẽ bao gồm:
i)

Các bảng 2x2, so sánh các mức độ phơi nhiễm với nhóm nền;

ii) Xem xét các ước lượng của tác động có theo một khuynh hướng nào hay không;
iii) Nếu phù hợp, thực hiện một kiểm định khuynh hướng (test for trend) để tìm bằng
chứng về sự tăng giảm nguy cơ theo mức độ phơi nhiễm tăng dần.
3.7. Kiểm soát các yếu tố gây nhiễu
Yếu tố gây nhiễu hiện diện ít nhiều trong các nghiên cứu quan sát và cần phải
thực hiện loại bỏ các yếu tố gây nhiễu trong các phân tích của biến số phơi nhiễm quan
tâm.

quả hoàn toàn đồng nhất.

i)

Giả định rằng không có tương tác giữa các biến số gây nhiễu, chúng ta có thể làm
giảm số tham số cần thiết

ii) Có thể xác định được tác động của từng biến số, được kiểm soát cho tác động của
các biến số khác.
iii) Có thể xem xét tác động liều lượng hậu quả một cách linh hoạt hơn.
13


Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC

3.8. Cách đưa vào biến số gây nhiễu
Khi phân tích với nhiều biến số, nhà nghiên cứu sẽ đặt câu hỏi: nên đưa các
biến số nào vào phân tích để kiểm soát các gây nhiễu? Một số quy tắc có thể áp dụng
được gợi ý sau đây:
i)

Thông thường sẽ có hai hay ba biến số được cho là các biến số gây nhiễu quan
trọng (những biến số này đuợc gọi là biến số gây nhiễu trù định - a priori
confounders, hoặc là biến số gây nhiễu tiềm tàng – potential confounders).
Những biến số này thường là tuổi và một hay hai yếu tố nguy cơ quan trọng của
bệnh và được cho là có thể có liên quan đến biến số phơi nhiễm quan tâm. Theo
các quy tắc chung, những biến số này phải được kiểm soát trong phân tích.

ii) Chúng ta xem xét các biến số có thể gây nhiễu khác. Kiểm soát từng biến số một
và xem có làm thay đổi con số ước lượng tác động hay không.


Lưu ý:
-

Tránh việc đưa vào các biến số không phải là yếu tố gây nhiễu, đặc biệt là
nếu biến số này có liên quan mạnh đến phơi nhiễm quan tâm bởi vì nó sẽ
tạo ra sai số chuẩn lớn và khiến ước lượng kém chính xác.

-

Cần lưu ý rằng các biến số được xem là gây nhiễu phụ thuộc một phần vào
quyết định trù định (a priori decision - dự định trước các yếu tố nào có thể là
yếu tố gây nhiễu) và một phần vào mức độ của ước lượng bị thay đổi sau
khi kiểm soát cho yếu tố gây nhiễu đó. Chúng ta hoàn toàn không dựa vào
14


Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC

kết quả của kiểm định ý nghĩa. Do đó các nhà thống kê và dịch tễ hàng đầu
thường không khuyến cáo sử dụng phương pháp hồi quy từng bước
(stepwise) trong phân tích dịch tễ.
3.9. Phân tích tương tác
Hồi quy là một công cụ rất phù hợp cho phân tích sự tương tác. Có 3 loại tương
tác cần được phân biệt
i)

Tương tác giữa các biến số gây nhiễu:

Sự khác biệt chính giữa phương pháp mô hình hoá và phương pháp cổ điển là

Kết luận
Chiến lược phân tích số liệu đóng vai trò quan trọng trong phân tích số liệu
nghiên cứu. Nhà nghiên cứu cần lưu ý, mọi phân tích đều đi từ mục tiêu nghiên cứu.
Nói cách khác, mục tiêu nghiên cứu phải dẫn đường cho các phân tích về sau.

15




Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status