Chuong 09 THỐNG KÊ MÔ TẢ - Pdf 14

9
Phân tích thng kê mô t Trong chng này, chúng ta s s dng R cho mc đích phân tích thng kê mô t.
Nói đn thng kê mô t là nói đn vic mô t d liu bng các phép tính và ch s thng
kê thông thng mà chúng ta đã làm quen qua t thu trung hc nh s trung bình
(mean), s trung v (median), phng sai (variance) đ lch chun (standard deviation)
… cho các bin s liên tc, và t s (proportion) cho các bin s không liên tc. Nhng
trc khi hng dn phân tích thng kê mô t, tôi mun bn đc phi phân bit cho đc
hai khái nim tng th (population) và mu (sample).

9.0 Khái nim tng th (population) và mu (sample)

Sách giáo khoa thng kê thng gii thích hai khái nim này mt cách mù m và
có khi vô ngha. Chng hn nh cun “Modern Mathematical Statistics” (E. J. Dudewicz
và S. N. Mishra, Nhà xut bn Wiley, 1988) gii thích tng th rng “population is a set
of n distinct elements (points) a
1
, a
2
, a
3
, … a
n
.” (trang 24, tm dch: “tng th là tp hp
gm n phn t hay đim a
1
, a
2
, a


Phng án (a) rt tn kém và có th nói là không thc t, vì chúng ta phi tp hp
tt c sinh viên ca c nc, mt vic làm rt khó thc hin đc. Nhng gi d nh
chúng ta có th làm đc, thì phng án này không cn đn thng kê hc. Giá tr IQ
trung bình ca n và nam sinh viên tính t phng án (a) là giá tr cui cùng, và nó tr li
câu hi ca chúng ta mt cách trc tip, chúng ta không cn phi suy lun, không cn đn
kim đnh thng kê gì c!

Phng án (b) đòi hi chúng ta phi chn n nam và m n sinh viên sao cho đi
din (representative) cho toàn qun th sinh viên ca c nc. Tính “đi din”  đây có
ngha là các s n nam và m n sinh viên này phi có cùng đc tính nh đ tui, trình đ
hc vn, thành phn kinh t, xã hi, ni sinh sng. v.v… so vi tng th sinh viên ca c
nc. Bi vì chúng ta không bit các đc tính này trong toàn b tng th sinh viên,
chúng ta không th so sánh trc tip đc, cho nên mt phng pháp rt hu hiu là ly
mu mt cách ngu nhiên. Có nhiu phng pháp ly mu ngu nhiên đã đc phát trin
và tôi s không bàn qua chi tit ca các phng pháp này, ngoi tr mun nhn mnh
rng, nu cách ly mu không ngu nhiên thì các c s t mu s không có ý ngha khoa
hc cao, bi vì các phng pháp phân tích thng kê da vào gi đnh rng mu phi đc
chn mt cách ngu nhiên.

Tôi s ly mt ví d c th v tng th và mu qua ng dng R nh sau. Gi d
chúng ta có mt tng th gm 20 ngi và bit rng chiu cao ca h nh sau (tính bng
cm): 162, 160, 157, 155, 167, 160, 161, 153, 149, 157, 159, 164, 150, 162, 168, 165, 156,
157, 154 và 157. Nh vy, chúng ta bit rng chiu cao trung bình ca tng th là 158.65
cm. Xin nhn mnh đó là tng th.

Vì thiu thn phng tin chúng ta không th nghiên cu trên toàn tng th mà
ch có th ly mu t tng th đ c tính chiu cao. Hàm sample() cho phép chúng
ta ly mu. Và c tính chiu cao trung bình t mu tt nhiên s khác vi chiu cao
trung bình ca tng th.


> mean(sample(height, 10))
[1] 156.7
> mean(sample(height, 10))
[1] 157.1
> mean(sample(height, 10))
[1] 159.3
> mean(sample(height, 10))
[1] 159.3
> mean(sample(height, 10))
[1] 158.3
> mean(sample(height, 10))

Chú ý đ dao đng ca s trung bình t 156.7 đn 159.3 cm.

• Chúng ta th ly mu 15 ngi t tng th và tính chiu cao trung bình:

> mean(sample(height, 15))
[1] 158.6667
> mean(sample(height, 15))
[1] 159.4
> mean(sample(height, 15))
[1] 158.0667
> mean(sample(height, 15))
[1] 158.1333
> mean(sample(height, 15))
[1] 156.4667

Chú ý đ dao đng ca s trung bình bây gi t 158.0 đn 158.7 cm, tc thp hn mu
vi 10 đi tng.

mnh: nhng ch s liên quan đn tng th là thông s, còn nhng s c tính t các mu
là c s. Nh thy trên, c s có đ dao đng chung quanh thông s, và vì trong thc
t chúng ta không bit thông s, cho nên chúng mc tiêu chính ca phân tích thng kê là
s dng c s đ suy lun v thông s.

Mc tiêu chính ca phân tích thng kê mô t là tìm nhng c s ca mu. Có
hai loi đo lng: liên tc (continuous measurement) và không liên tc hay ri rc
(discrete measurement). Các bin liên tc nh đ tui, chiu cao, trng lng c th,
v.v… là bin s liên tc, còn các bin mang tính phân loi nh có hay không có bnh,
thích hay không thích, trng hay đen, v.v… là nhng bin s không liên tc. Cách tính
hai loi bin s này cng khác nhau.

c s thông thng nht dùng đ mô t mt bin s liên tc là s trung bình
(mean). Chng hn nh chiu cao ca nhóm 1 gm 5 đi tng là 160, 160, 167, 156, và
161, do đó s trung bình là 160.8 cm. Nhng chiu cao ca nhóm 2 cng gm 5 đi
tng khác nh142, 150, 187, 180 và 145, thì s trung bình vn là 160.8. Do đó, s trung
bình không th phn ánh đy đ s phân phi ca mt bin liên tc, vì  đây tuy hai
nhóm có cùng trung bình nhng đ khác bit ca nhóm 2 cao hn nhóm 1 rt nhiu. Và
chúng ta cn mt c s khác gi là phng sai (variance). Phng sai ca nhóm 1 là
15.7 cm
2
và nhóm 2 là 443.7 cm
2
.

Vi mt bin s không liên tc nh 0 và 1 (0 kí hiu còn sng, và 1 kí hiu t
vong) thì c s trung bình không còn ý ngha “trung bình” na, cho nên chúng ta có c
s t l (proportion). Chng hn nh trong s 10 ngi có 2 ngi t vong, thì t l t
vong là 0.2 (hay 20%). Trong s 200 ngi có 40 ngi qua đi thì t l t vong vn 0.2.
Do đó, cng nh trng hp trung bình, t l không th mô t mt bin không liên tc đy

> igfdata
id sex age weight height ethnicity igfi igfbp3 als pinp ictp p3np
1 1 Female 15 42 162 Asian 189.000 4.00000 323.667 353.970 11.2867 8.3367
2 2 Male 16 44 160 Caucasian 160.000 3.75000 333.750 375.885 10.4300 6.7450
3 3 Female 15 43 157 Asian 146.833 3.43333 248.333 199.507 8.3633 12.5000
4 4 Female 15 42 155 Asian 185.500 3.40000 251.000 483.607 13.3300 14.2767
5 5 Female 16 47 167 Asian 192.333 4.23333 322.000 105.430 7.9233 4.5033
6 6 Female 25 45 160 Asian 110.000 3.50000 284.667 76.487 4.9833 4.9367
7 7 Female 19 45 161 Asian 157.000 3.20000 274.000 75.880 6.3500 5.3200
8 8 Female 18 43 153 Asian 146.000 3.40000 303.000 86.360 7.3700 4.6700
9 9 Female 15 41 149 Asian 197.667 3.56667 308.500 254.803 11.8700 6.8200
10 10 Female 24 45 157 African 148.000 3.40000 273.000 44.720 3.7400 6.1600 97 97 Female 17 54 168 Caucasian 204.667 4.96667 441.333 64.130 5.1600 4.4367
98 98 Male 18 55 169 Asian 178.667 3.86667 273.000 185.913 7.5267 8.8333
99 99 Female 18 48 151 Asian 237.000 3.46667 324.333 105.127 5.9867 5.6600
100 100 Male 15 54 168 Asian 130.000 2.70000 259.333 325.840 10.2767 6.5933 Trên đây ch là mt phn s liu trong s 100 đi tng.

Cho mt bin s
123
, , , ,
n
x
xx x chúng ta có th tính toán mt s ch s thng kê mô t
nh sau:


1
2
2
1
1var(x)
 lch chun:
2
ss=
sd(x)
Sai s chun (standard error):
s
SE
n
=
Không có
Tr s thp nht
min(x)
Tr s cao nht
max(x)
Toàn c (range)
range(x)

Ví d 1:  tìm giá tr trung bình ca đ tui, chúng ta ch đn gin lnh:

> mean(age)
[1] 19.17


sd <- sd(x)
se <- sd/sqrt(length(x))
c(MEAN=av, SD=sd, SE=se)
}

Và có th gi hàm này đ tính bt c bin nào chúng ta mun, nh tính bin als sau
đây:

> desc(als)
MEAN SD SE
301.841120 58.987189 5.898719  có mt “quang cnh” chung v d liu igfdata chúng ta ch đn gin lnh
summary nh sau:

> summary(igfdata)
id sex age weight height ethnicity
Min. : 1.00 Female:69 Min. :13.00 Min. :41.00 Min. :149.0 African : 8
1st Qu.: 25.75 Male :31 1st Qu.:16.00 1st Qu.:47.00 1st Qu.:157.0 Asian :60
Median : 50.50 Median :19.00 Median :50.00 Median :162.0 Caucasian:30
Mean : 50.50 Mean :19.17 Mean :49.91 Mean :163.1 Others : 2
3rd Qu.: 75.25 3rd Qu.:21.25 3rd Qu.:53.00 3rd Qu.:168.0
Max. :100.00 Max. :34.00 Max. :60.00 Max. :196.0

igfi igfbp3 als pinp ictp
Min. : 85.71 Min. :2.000 Min. :192.7 Min. : 26.74 Min. : 2.697
1st Qu.:137.17 1st Qu.:3.292 1st Qu.:256.8 1st Qu.: 68.10 1st Qu.: 4.878
Median :161.50 Median :3.550 Median :292.5 Median :103.26 Median : 6.338
Mean :165.59 Mean :3.617 Mean :301.8 Mean :167.17 Mean : 7.420

Max. :99.0 Max. :34.00 Max. :60.00 Max. :196.0
ethnicity igfi igfbp3 als
African : 4 Min. : 85.71 Min. :2.767 Min. :204.3
Asian :43 1st Qu.:136.67 1st Qu.:3.333 1st Qu.:263.8
Caucasian:22 Median :163.33 Median :3.567 Median :302.7
Others : 0 Mean :167.97 Mean :3.695 Mean :311.5
3rd Qu.:186.17 3rd Qu.:3.933 3rd Qu.:361.7
Max. :427.00 Max. :5.233 Max. :471.7
pinp ictp p3np
Min. : 26.74 Min. : 2.697 Min. : 2.343
1st Qu.: 62.75 1st Qu.: 4.717 1st Qu.: 4.337
Median : 78.50 Median : 5.537 Median : 5.143
Mean :108.74 Mean : 6.183 Mean : 5.643
3rd Qu.:115.26 3rd Qu.: 7.320 3rd Qu.: 6.143
Max. :502.05 Max. :13.633 Max. :14.420

sex: Male
id sex age weight height
Min. : 2.00 Female: 0 Min. :14.00 Min. :44.00 Min. :155.0
1st Qu.: 34.50 Male :31 1st Qu.:15.00 1st Qu.:48.50 1st Qu.:161.5
Median : 56.00 Median :17.00 Median :51.00 Median :164.0
Mean : 55.61 Mean :18.23 Mean :51.16 Mean :165.6
3rd Qu.: 75.00 3rd Qu.:20.00 3rd Qu.:53.50 3rd Qu.:169.0
Max. :100.00 Max. :27.00 Max. :59.00 Max. :191.0
ethnicity igfi igfbp3 als
African : 4 Min. : 94.67 Min. :2.000 Min. :192.7
Asian :17 1st Qu.:138.67 1st Qu.:3.183 1st Qu.:249.8
Caucasian: 8 Median :160.00 Median :3.500 Median :276.0
Others : 2 Mean :160.29 Mean :3.443 Mean :280.2
3rd Qu.:183.00 3rd Qu.:3.775 3rd Qu.:311.3

2.0 3.0 4.0 5.0
0 10203040
Histogram of als
als
Frequency
150 250 350 450
0 102030
Histogram of pinp
pinp
Frequency
0 200 400 600 800
01020304050
Histogram of ictp
ic tp
Frequency
5101520
0102030
Histogram of p3np
p3np
Frequency
51015
0 10203040
9.2 Kim đnh xem mt bin có phi phân phi chun

Trong phân tích thng kê, phn ln các phép tính da vào gi đnh bin s phi là
mt bin s phân phi chun (normal distribution). Do đó, mt trong nhng vic quan
trng khi xem xét d kin là phi kim đnh gi thit phân phi chun ca mt bin s.


> hist(weight)

Histogram of weight
weight
Frequency
40 45 50 55 60
0510159.3 Thng kê mô t theo tng nhóm

Nu chúng ta mun tính trung bình ca mt bin s nh igfi cho mi nhóm nam
và n gii, hàm tapply trong R có th dùng cho vic này:

> tapply(igfi, list(sex), mean)
Female Male
167.9741 160.2903

Trong lnh trên, igfi là bin s chúng ta cn tính, bin s phân nhóm là sex, và ch s
thng kê chúng ta mun là trung bình (mean). Qua kt qu trên, chúng ta thy s trung
bình ca igfi cho n gii (167.97) cao hn nam gii (160.29).

Nhng nu chúng ta mun tính cho tng gii tính và sc tc, chúng ta ch cn thêm mt
bin s trong hàm list:

> tapply(igfi, list(ethnicity, sex), mean)
Female Male
African 145.1252 120.9168
Asian 165.6589 160.4999

t
sn
µ

=

Trong đó,
x
là giá tr trung bình ca mu,
µ
là trung bình theo gi thit (trong trng
hp này, 30), s là đ lch chun, và n là s lng mu (100). Nu giá tr t cao hn giá tr
lí thuyt theo phân phi t  mt tiêu chun có ý ngha nh 5% chng hn thì chúng ta có
lí do đ phát biu khác bit có ý ngha thng kê. Giá tr này cho mu 100 có th tính toán
bng hàm
qt ca R nh sau:

> qt(0.95, 100)
[1] 1.660234

Nhng có mt cách tính toán nhanh gn hn đ tr li câu hi trên, bng cách dùng hàm
t.test nh sau:

> t.test(age, mu=30)

One Sample t-test

data: age
t = -27.6563, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 30


2
x
là s trung bình ca hai nhóm nam và n, và SED là đ lch chun
ca (
1
x
-
2
x
) . Thc ra, SED có th c tính bng công thc:

22
12
SED SE SE=+

Trong đó
1
SE và
2
SE là sai s chun (standard error) ca hai nhóm nam và n. Theo lí
thuyt xác sut, t tuân theo lut phân phi t vi bc t do
12
2nn
+
− , trong đó n
1
và n
2


ng/L. Vì đ khác bit quá ln và đó là thêm bng chng cho thy không có khác bit có
ý ngha thng kê gia hai nhóm.

Kim đnh trên da vào gi thit hai nhóm nam và n có khác phng sai. Nu
chúng ta có lí do đ cho rng hai nhóm có cùng phng sai, chúng ta ch thay đi mt
thông s trong hàm t vi
var.equal=TRUE nh sau:

> t.test(igfi~ sex, var.equal=TRUE)

Two Sample t-test

data: igfi by sex
t = 0.7071, df = 98, p-value = 0.4812
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-13.88137 29.24909
sample estimates:
mean in group Female mean in group Male
167.9741 160.2903 V mc s, kt qu phân tích trên có khác chút ít so vi kt qu phân tích da vào gi
đnh hai phng sai khác nhau, nhng tr s p cng đi đn mt kt lun rng đ khác bit
gia hai nhóm không có ý ngha thng kê. 9.5 So sánh phng sai (var.test)

Bây gi chúng ta th kim đnh xem phng sai gia hai nhóm có khác nhau không. 


data: igfi
W = 0.8528, p-value = 1.504e-08

Tr s p nh hn 0.05 rt nhiu, cho nên chúng ta có th nói rng phân phi ca igfi
không tuân theo lut phân phi chun. Trong trng hp này, vic so sánh gia hai
nhóm có th da vào phng pháp phi tham s (non-parametric) có tên là kim đnh
Wilcoxon, vì kim đnh này (không nh kim đnh t) không tùy thuc vào gi đnh phân
phi chun.

> wilcox.test(igfi ~ sex)

Wilcoxon rank sum test with continuity correction

data: igfi by sex
W = 1125, p-value = 0.6819
alternative hypothesis: true mu is not equal to 0

Tr s p = 0.682 cho thy qu tht đ khác bit v igfi gia hai nhóm nam và n không
có ý ngha thng kê. Kt lun này cng không khác vi kt qu phân tích bng kim đnh
t. 9.7 Kim đnh t cho các bin s theo cp (paired t-test,
t.test)

Kim đnh t va trình bày trên là cho các nghiên cu gm hai nhóm đc lp nhau
(nh gia hai nhóm nam và n), nhng không th ng dng cho các nghiên cu mà mt
nhóm đi tng đc theo dõi theo thi gian. Tôi tm gi các nghiên cu này là nghiên
cu theo cp. Trong các nghiên cu này, chúng ta cn s dng mt kim đnh t có tên là

data: before and after
t = 2.7924, df = 9, p-value = 0.02097
alternative hypothesis: true difference in means is not equal to
0
95 percent confidence interval:
1.993901 19.006099
sample estimates:
mean of the differences
10.5

Kt qu trên cho thy sau khi điu tr áp sut máu gim 10.5 mmHg, và khong tin cy
95% là t 2.0 mmHg đn 19 mmHg, vi tr s p = 0.0209. Nh vy, chúng ta có bng
chng đ phát biu rng mc đ gim huyt áp có ý ngha thng kê.

Chú ý nu chúng ta phân tích sai bng kim đnh thng kê cho hai nhóm đc lp di đây
thì tr s p = 0.32 cho bit mc đ gim áp sut không có ý ngha thng kê!

> t.test(before, after)

Welch Two Sample t-test

data: before and after
t = 1.0208, df = 17.998, p-value = 0.3209
alternative hypothesis: true difference in means is not equal to
0
95 percent confidence interval:
-11.11065 32.11065
sample estimates:
mean of x mean of y
168.0 157.5


> table(ethnicity)
ethnicity
African Asian Caucasian Others
8 60 30 2

Mt bng thng kê 2 chiu: > table(sex, ethnicity)
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2 Chú ý trong các bng thng kê trên, hàm table không cung cp cho chúng ta s phn
trm.  tính s phn trm, chúng ta cn đn hàm prop.table và cách s dng có th
minh ho nh sau:

# to ra mt object tên là freq đ cha kt qu tn s
> freq <- table(sex, ethnicity)

# kim tra kt qu
> freq
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2


Trong bng thng kê trên, prop.table tính t l gii tính cho tng sc tc. Chng hn
nh trong nhóm ngi Á châu, 71.7% là n và 28.3% là nam.

# tính phn trm cho toàn b bng
> freq/sum(freq)
ethnicity
sex African Asian Caucasian Others
Female 0.04 0.43 0.22 0.00
Male 0.04 0.17 0.08 0.02 9.10 Kim đnh t l (proportion test, prop.test,
binom.test)

Kim đnh mt t l thng da vào gi đnh phân phi nh phân (binomial distribution).
Vi mt s mu
n và t l p, và nu n ln (tc hn 50 chng hn), thì phân phi nh phân
có th tng đng vi phân phi chun vi s trung bình np và phng sai np(1 – p).
Gi x là s bin c mà chúng ta quan tâm, kim đnh gi thit p = π có th s dng thng
kê sau đây:

()
1
xn
z
n
π
π
π


Mt cách tính chính xác hn kim đnh t l là kim đnh nh phân
bionom.test(x,
n, π) nh sau:

> binom.test(69, 100, 0.50)

Exact binomial test

data: 69 and 100
number of successes = 69, number of trials = 100, p-value = 0.0001831
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.5896854 0.7787112
sample estimates:
probability of success
0.69

Nói chung, kt qu ca kim đnh nh phân không khác gì so vi kim đnh Chi bình
phng, vi tr s p = 0.00018, chúng ta càng có bng chng đ kt lun rng t l n gii
trong nghiên cu này tht s cao hn 50%. 9.11 So sánh hai t l (prop.test, binom.test)

Phng pháp so sánh hai t l có th khai trin trc tip t lí thuyt kim đnh mt t l
va trình bày trên. Cho hai mu vi s đi tng
n
1
và n
2


Trong đó:
12
12
x
x
p
nn
+
=
+Thành ra,
z = d/V
d
tuân theo lut phân phi chun vi trung bình 0 và phng sai 1. Nói
cách khác, z
2
tuân theo lut phân phi Chi bình phng vi bc t do bng 1. Do đó,
chúng ta cng có th s dng prop.test đ kim đnh hai t l.

Ví d 6. Mt nghiên cu đc tin hành so sánh hiu qu ca thuc chng gãy
xng. Bnh nhân đc chia thành hai nhóm: nhóm A đc điu tr gm có 100 bnh
nhân, và nhóm B không đc điu tr gm 110 bnh nhân. Sau thi gian 12 tháng theo
dõi, nhóm A có 7 ngi b gãy xng, và nhóm B có 20 ngi gãy xng. Vn đ đt ra
là t l gãy xng trong hai nhóm này bng nhau (tc thuc không có hiu qu)? 
kim đnh xem hai t l này có tht s khác nhau, chúng ta có th s dng hàm
prop.test(x, n, π) nh sau:


Female 4 43 22 0
Male 4 17 8 2

Chúng ta mun bit t l n gii gia 4 nhóm sc tc có khác nhau hay không, và đ tr
li câu hi này, chúng ta li dùng prop.test nh sau:

> female <- c( 4, 43, 22, 0)
> total <- c(8, 60, 30, 2)
> prop.test(female, total)

4-sample test for equality of proportions without continuity
correction

data: female out of total
X-squared = 6.2646, df = 3, p-value = 0.09942
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4
0.5000000 0.7166667 0.7333333 0.0000000

Warning message:
Chi-squared approximation may be incorrect in: prop.test(female, total)

Tuy t l n gii gia các nhóm có v khác nhau ln (73% trong nhóm 3 (ngi da trng)
so vi 50% trong nhóm 1 (Phi châu) và 71.7% trong nhóm Á châu, nhng kim đnh Chi
bình phng cho bit trên phng din thng kê, các t l này không khác nhau, vì tr s
p = 0.099. 9.12.1 Kim đnh Chi bình phng (Chi squared test, chisq.test)

lí thuyt đng sau kim đnh fisher đ hiu rõ hn v logic ca phng pháp này, nhng
 đây, chúng ta ch quan tâm đn cách dùng R đ tính toán kim đnh này. Chúng ta ch
đn gin lnh:

> fisher.test(sex, ethnicity)

Fisher's Exact Test for Count Data

data: sex and ethnicity
p-value = 0.1048
alternative hypothesis: two.sided

Chú ý tr s p t kim đnh Fisher là 0.1048, tc rt gn vi tr s p ca kim đnh Chi
bình phng. Cho nên, chúng ta có thêm bng chng đ khng đnh rng t l n gii
gia các sc tc không khác nhau mt cách đáng k.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status