Đại cương về thống kê và phân tích số liệu - Pdf 18

I. Thống kê và thống kê mô tả
Một số định nghĩa
Thống kê là phương pháp khoa học dùng đề thu thập, tóm tắt, trình bày và
phân tích số liệu.
Số liệu: Kết quả có được do việc quan sát hay thu thập một biến số ở các đối
tượng khác nhau hay ở thời gian khác nhau.
Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số
liệu là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ
có kết quả như sau:
10.213.7 10.4 14.9 11.5 12.0 11.0
13.312.9 12.1 9.4 13.2 10.8 11.7
10.610.5 13.7 11.8 14.1 10.3 13.6
12.112.9 11.4 12.7 10.6 11.4 11.9
9.3 13.5 14.6 11.2 11.7 10.9 10.4
12.012.9 11.1 8 .8 10.2 11.6 12.5
13.412.1 10.9 11.3 14.7 10.8 13.3
11.911.4 12.5 13.0 11.6 13.1 9.7
11.215 .1 10.7 12.9 13.4 12.3 11.0
14.611.1 13.5 10.9 13.1 11.8 12.2
và những con số này được gọi là số liệu.
Cần lưu ý số liệu phải liên kết với một biến số nhất định. Nếu tôi quan sát
giới tính ở người này, tuổi của người khác, quần áo của một người khác nữa
thì kết quả quan sát được không phải là số liệu.
Biến số và các loại biến số
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này
sang người khác hay từ thời điểm này sang thời điểm khác.
Như vậy biến số có thể thể hiện đại lượng hay đặc tính.
- Nếu biến số thể hiện một đại lượng nó được gọi là biến số định
lượng (quantitative variable). Biến số định lượng có thể còn được chia thành

Trung bình của số liệu, được kí hiệu là (x (đọc là x gạch) là tổng các giá trị
của số liệu chia cho số lần quan sát (N).
N
x
x
i
Σ
=
Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125,
130, 135, 150. Huyết áp tâm thu trung bình sẽ là 132
132
5
150125130125120
=
++++
=
Σ
=
N
x
x
i
Do không thể thực hiện các phép toán số học trên các biến số định tính
(danh định và thứ tự) chúng ta chỉ có thể tính trung bình cho số liệu của biến
số định lượng.
Nếu chúng ta sắp xếp số liệu theo thứ tự, giá trị đứng ở giữa được gọi là
trung vị. Nếu có hai giá trị cùng đứng ở giữa, trung bình cộng của hai giá trị
này là trung vị.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là
120, 125, 130, 135, 150. Trung vị của huyết áp tâm thu là giá trị

thời gian từ lúc điều trị đến lúc giảm triệu chứng là 30 ngày trên
thực chất là bệnh nhân không đáp ứng với điều trị. Trung vị và
trung bình của số liệu là 2 và 5 ngày. Con số trung vị phản ánh
chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số
liệu trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm
đau sau 2 ngày dùng thuốc. Con sôs 30 trong thí dụ trên được
gọi là số ngoại lai (outlier) và làm số liệu bị lệch. Nhìn chung,
khi số liệu bị lệch thì con số trung bình sẽ bị ảnh hưởng rất
nhiều và không phản ánh giá trị tiêu biểu như con số trung vị.
Thống kê mô tả tính phân tán:
Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ phân vị và
phạm vi của số liệu. Việc lựa chọn thống kê mô tả tính phân tán được trình
bày trong bảng 2.
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả
khuynh hướng tập trung.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp
tâm thu sau khi dùng thuốc là 110, 115, 120, 125 và 130. Thuốc hạ áp
B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là
100, 110, 120, 130, 140. Như vậy hai thuốc hạ áp này có hiệu quả hạ
áp là tương đương (bởi vì trung bình của hai số liệu là bằng nhau)
nhưng kết quả của thuốc B phân tán hơn và điều này làm thuốc B trở
nên kém an toàn.
Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là con số đánh giá
mức độ phân tán và được tính theo công thức:
Như vậy độ lệch chuẩn phản ánh khoảng cách trung bình
của số liệu so với giá trị tiêu biểu. Khái niệm độ lệch chuẩn chỉ có thể áp
dụng cho biến số định lượng bởi vì chúng ta có thể thực hiện các phép toán
số học trên các đại lượng nhưng không thể thực hiện trên các giá trị của biến

=

++++
=

−+−+−+−+−
=


=

=
n
i
i
N
xx
s
Phương sai về mặt từ nguyên là bình phương của độ lệch chuẩn. Phương sai
(variance) có thể được kí hiệu và Var hay s
2
và được tính theo công thức sau:

=


=
n
i
i
N
xx

Hãy thử đọc và lí giải kết quả:
Variable | Obs Mean Std. Dev.
Min Max

+

hemoglobin | 70 11.98429 1.416122
8.8 15.1
Phương pháp trình bày số liệu
Số liệu có thể được trình bày thành bảng hoặc các đồ thị.
Trình bày bảng:
Phân phối tần suất của biến số định tính
Số liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phối
tần suất. Phân phối tần suất là một bảng chỉ ra tần suất xuất hiện của từng
giá trị rời rạc của biến số (Bảng 1). Như vậy bảng phân phối tần suất gồm 2
cột, một cột liệt kê các giá trị của biến số và một cột trình bày tần suất tương
ứng của các giá trị đó.
Table 1. Phân phối giới tính của 69 học sinh lớp cơm thường trường
mầm non 23 tháng 11, Huyện Hóc môn
Giới Số trẻ Phần trăm
Nam 45 65%
Nữ 24 35%
Tổng số 69 100%
Bảng trên là bản phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị
nam và nữ nên ta liệt kê 2 giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất
tương ứng của các giá trị này. Ðôi khi bảng phân phối tần suất có thêm cột
phần trăm như trong thí dụ ở trên. Bảng 2 là một thí dụ khác về bảng phân
phối tần suất.
Table 2. Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Phương pháp

13-13,9 1111 1111 111
14-14,9 1111
15-15,9 1
4. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của
biến số và tần suất tương ứng với các khoảng giá trị đó. Chúng ta cũng có
thể thêm vào cột phần trăm và cột phần trăm tích lũy (nếu thích hợp)
Table 3. Hemoglobin của 70 phụ nữ
Hemoglobin Tần suất Phần trăm Phần trăm tích
lũy
8-8,9 1 1.43 1.43
9-9,9 3 4.29 5.71
10-10,9 14 20.00 25.71
11-11,9 19 27.14 52.86
12-12,9 14 20.00 72.86
13-13,9 13 18.57 91.43
14-14,9 5 7.14 98.57
15-15,9 1 1.43 100.00
Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm
tròn chu vi vòng cánh tay đến 1 cm. Khi đó ta có thể xem thang đo của biến
số là rời rạc và trình bày bảng phân phối tần suất của biến số (bảng 2).
Table 4. Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà
trẻ 23 tháng 11, Hóc môn.
Vòng cánh
tay
Tần suất Phần trăm Phần trăm tích lũy
13- <14 2 2.78 2.78
14- <15 31 43.06 45.83
15- <16 27 37.50 83.33
16- <17 9 12.50 95.83
17- <18 0 12.50 95.83

50
Nam Nöõ
Hình 1. Biểu đồ hình thanh (bar chart) mô tả phân bố giới tính của
những học sinh trong trường mầm non 23/11, Hóc môn
Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ
sau
478
65
57
0 100 200 300 400 500
Sinh thöôøng
Sinh forceps
Sinh moå
Hình 2. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm
1998
Ðối với biến số thứ tự, điều cần lưu ý là các giá trị của biến số phải được sẵp
xếp thứ tự theo trục hoành.
T a àn s u a át
e d u m a t
m u ø c h ư õ c a áp 1 c a áp 2 - 3 đ a ïi h o ï
0
1 0 0 0
2 0 0 0
Hình 3. Trình độ học vấn của các bà mẹ trong nghiên cứu
4,3%
19,5%
0,8%
3,9%
0%
5%

trị làm nhiều khoảng giá trị và tính tần suất của những khoảng giá trị đó.
Những khoảng giá trị này được biểu thị ở trên trục hoành. Ứng với mỗi
khoảng giá trị người ta vẽ những hình chữ nhật có diện tích tỉ lệ với tần suất
của khoảng giá trị đó. Bởi vì các khoảng giá trị này nằm sát nhau trên trục
hoành, các hình chữ nhật của tổ chức đồ cũng thường nằm sát nhau.

F r e q u e n c y
h e m o g l o b i n
8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
0
5
1 0
1 5
2 0
Hình 7. Tổ chức đồ mức hemoglobin của 70 phụ nữ.

F r e q u e n c y
h e m o g l o b i n
8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
0
5
1 0
1 5
2 0
Hình 8. Ða giác tần suất của hemoglobin của 70 phụ nữ.
Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm
của các cạnh trên của các hình chữ nhật. Ða giác tần suất thường không đẹp
như các tổ chức đồ nhưng nó có ưu điểm là có thể vẽ nhiều đa giác tần suất
trên cùng một đồ thị để dễ so sánh các phân phối của chúng.


n
s
n
s
es
2

==
Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng
độ lệch chuẩn thể hiện sự phân tán của cá thể chung quanh giá trình trung
bình dân số còn sai số chuẩn là đại lượng thể hiện sự phân tán của con số
thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của tham số
(trung bình dân số hay tỉ lệ của dân số).
Ước lượng khoảng tin cậy của trung bình
Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung
tại giá trị trung bình của dân số, nên chúng ta có thể ước lượng trung bình
dân số bằng cách tính trung bình của mẫu.
Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình
mẫu sẽ chính xác bằng trung bình của dân số mà chỉ có thể tin là trung bình
dân số nằm ở vị trí đâu đó chung quanh trung bình của dân số. Các nhà
thống kê cho rằng 95% các trường hợp trung bình dân số không nằm xa quá
1,96 x SE so với trung bình mẫu: phạm vi này được gọi là khoảng tin cậy
95%. Như vậy khoảng tin cậy 95% của trung bình của biến sô định lượng
Khoảng tin cậy 95% (95% CI) : x ± 1,96s/√n
Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị
1,96 như trong công thức trên mà cần phải sử dụng các giá trị hơi lớn hơn
(và càng lớn nếu cỡ mẫu càng nhỏ), giá trị này được gọi là giá trị của phân
phối t với (cỡ mẫu – 1) độ tự do.
Khoảng tin cậy 95% (95% CI) : x ± t
(1-

p
×+
96,1
Bài tập
Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ
thanh niên hút thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá.
Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào
công thức trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá
là 0,271 đến 0,438
Suy luận thống kê
Kiểm định ý nghĩa
Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của
phép phản chứng. Phép phản chứng trong logic học sử dụng bằng mệnh đề:
Nếu A kéo theo B thì không B sẽ kéo theo không A.
A⇒ B ⇔B⇒A
Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ
tắc ruột và chúng ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không.
Giả sử bệnh nhân không bí trung tiện thì chúng ta sẽ bác cỏ chẩn đoán tắc
ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện thì bệnh
nhân sẽ bí trung tiện, do bệnh nhân không bí trung tiện nên bệnh nhân không
bị tắc ruột.
Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ
như chẩn đoán tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả
thuyết này (Bệnh nhân tắc ruột thường bị đau bụng,nôn ói, bí trung tiện và
chướng bụng). Việc không có một trong các hậu quả phổ biến của giả thuyết
này (thí dụ như bệnh nhân không có đau bụng, không có nôn ói, không bị bí
trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán.
Các biến cố nằm ngoài các hệ quả phổ biến của giả thuyết (biến cố không có
đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng
bụng) được gọi là miền bác bỏ của chẩn đoán.

suất này được gọi là giá trị p. Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ
nghĩa là thống kê T nằm trong vùng bác bỏ và chúng ta có thể bác bỏ
giả thuyết Ho.
Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần
mềm Epi-Info, giá trị p được kí hiệu là p-value, ở phần mềm SPSS, giá trị p
được kí hiệu là Sig. Ở phần mềm Stata, các giá trị p thường được kí hiệu
khác nhau tùy theo thống kê được sử dụng là thống kê gì. Cụ thể, trong phần
mềm Stata, giá trị p được kí hiệu như sau:
P > |T| (nếu kiểm định t)
P > |z| (nếu kiểm định z)
Prob > chi2 (kiểm định chi bình phương)
Prob > F (Kiểm định F; Kiểm định ANOVA)
Kiểm định giả thuyết
Khuyết điểm của phương pháp kiểm định ý nghĩa khi khơng bác bỏ được giả
thuyết H
0
chúng ta khơng biết được xác suất H
0
đúng là bao nhiêu. Một nhà
thống kê học khác tên là Neyman đã đề ra phương pháp kiểm định giả thuyết
trong đó có xét đến sai lầm loại 2.
Phát biển H
0
; H
a
Tính số thống kê
(z; t; chi
2
; F)
Xác suất sai

nghiên cứu không bác bỏ giả thuyết H
0
, nhà nghiên cứu cũng có thể bị sai
lầm (sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là
bằng kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại
một nhưng không thể tính được xác suất sai lầm loại hai mà chỉ có thể tính
được dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu.
Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định
thống kê. Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2.
Khái niệm năng lực của thống kê hay được dùng trong tính cỡ mẫu.
Bảng 1. Tóm tắt về sai lầm loại 1, sai lầm loại 2 và giá trị ngưỡng của nó
Chân lí là Ho đúng
(Không có sự khác
biệt)
Chân lí là Ha đúng
(Không có sự khác
biệt)
Bác bỏ giả thuyết H
0
Sai lầm loại 1
(Xác suất = α)
Kết luận đúng
(Xác suất = 1-β =
Power của nghiên cứu)
Không bác bỏ giả thuyết
H
0
Kết luận đúng
(Xác suất = 1-α)
Sai lầm loại II

điều trị) ở
trên cùng
các đối
Nhiều
điều trị
trên cùng
các đối
tượng
Liên hệ
giữa hai
biến số
nhau tượng
Ðịnh lượng (mẫu
rút từ một dân số
có phân phối
bình thường và
phương sai hai
nhóm đồng nhất
t-test
không
bắt cặp
Phân tích
phương
sai
t-test bắt
cặp
Phân tích
phương
sai đo
lường lập

Kiểm
định
tổng sắp
hạng
Mann-
Whitney
Kruskal-
Wallis
Kiểm
định sắp
hạng có
dấu
Wilcoxon
Friedman hệ số
tương
quan
Spearman
Bảng 11. Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc
lập và biến phụ thuộc
Biến phụ thuộc Biến độc lập
Nhị giá Danh định (hoặc
thứ tự)
Định lượng, đa
biến (hoặc thứ
tự)
Định lượng phân phối bình
thường
T-test ANOVA Hồi quy tuyến
tính
Biến định lượng phân phối

trướcPaC0
2
sauHiệu số
1 70 82 12 49 45 -4
2 59 66 7 68 54 -14
3 53 65 12 65 60 -5
4 54 62 8 57 60 3
5 44 74 30 76 59 -17
6 58 77 19 62 54 -8
7 64 68 4 49 47 -2
8 43 59 16 53 50 -3
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do
Bước 3: Tính thống kê t
Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy
động mạch trước và sau điều trị) để tính thống kê t
66,4
/
;2,8;5,13
====
ns
d
tsd
d
Bước 4: tính xác suất của giá trị thống kê t
Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do,
2). Cụ thể để tính p tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh

x=147.4 s=9.9


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status