1
7
Kim đnh gi thit thng kê
và ý ngha ca tr s P (P-value)
7.1 Tr s P
Trong nghiên cu khoa hc, ngoài nhng d kin bng s, biu đ và hình nh,
con s mà chúng ta thng hay gp nht là tr s P (mà ting Anh gi là P-value). Trong
các chng sau đây, bn đc s gp tr s P rt nhiu ln, và đi đa s các suy lun phân
tích thng kê, suy lun khoa hc đu da vào tr s P. Do đó, trc khi bàn đn các
phng pháp phân tích thng kê bng R, tôi thy cn phi có đôi li v ý ngha ca tr s
này.
Tr s P là mt con s xác sut, tc là vit tt ch “probability value”. Chúng ta
thng gp nhng phát biu đc kèm theo con s, chng hn nh “Kt qu phân tích
cho thy t l gãy xng trong nhóm bnh nhân đc điu tr bng thuc Alendronate là
2%, thp hn t l trong nhóm bnh nhân không đc cha tr (5%), và mc đ khác bit
này có ý ngha thng kê (p = 0.01)”, hay mt phát biu nh “Sau 3 tháng điu tr, mc đ
gim áp sut máu trong nhóm bnh nhân là 10% (p < 0.05)”. Trong vn cnh trên đây,
đi đa s nhà khoa hc hiu rng tr s P phn ánh xác sut s hiu nghim ca thuc
Alendronate hay mt thut điu tr, h hiu rng câu vn trên có ngha là “xác sut mà
thuc Alendronate tt hn gi dc là 0.99” (ly 1 tr cho 0.01). Nhng cách hiu đó
hoàn toàn sai!
Trong “T đin toán kinh t thng kê, kinh t lng Anh – Vit” (Nhà xut bn
Khoa hc và K thut, 2004), tác gi đnh ngha tr s P nh sau: “P – giá tr (hoc giá
tr xác sut). P giá tr là mc ý ngha thng kê thp nht mà đó giá tr quan sát đc
màu đen” có th b bác b nu ta tìm ra có mt con qu màu đ.
Có th xem qui trình phn nghim là mt cách hc hi t sai lm! Tht vy, trong
khoa hc chúng ta hc hi t sai lm. Khoa hc phát trin cng mt phn ln là do hc
hi t sai lm mà gii khoa hc không ai chi cãi. Sai lm là đim mnh ca khoa hc.
Có th xác đnh nghiên cu khoa hc nh là mt qui trình th nghim gi thuyt, theo các
bc sau đây:
Bc 1, nhà nghiên cu cn phi đnh ngha mt gi thuyt đo (null hypothesis),
tc là mt gi thuyt ngc li vi nhng gì mà nhà nghiên cu tin là s tht. Thí d
trong mt nghiên cu lâm sàng, gm hai nhóm bnh nhân: mt nhóm đc điu tr bng
thuc A, và mt nhóm đc điu tr bng placebo, nhà nghiên cu có th phát biu mt
gi thuyt đo rng s hiu nghim thuc A tng đng vi s hiu nghim ca placebo
(có ngha là thuc A không có tác dng nh mong mun).
Bc 2, nhà nghiên cu cn phi đnh ngha mt gi thuyt ph (alternative
hypothesis), tc là mt gi thuyt mà nhà nghiên cu ngh là s tht, và điu cn đc
“chng minh” bng d kin. Chng hn nh trong ví d trên đây, nhà nghiên cu có th
phát biu gi thuyt ph rng thuc A có hiu nghim cao hn placebo.
Bc 3, sau khi đã thu thp đy đ nhng d kin liên quan, nhà nghiên cu dùng
mt hay nhiu phng pháp thng kê đ kim tra xem trong hai gi thuyt trên, gi
thuyt nào đc xem là kh d. Cách kim tra này đc tin hành đ tr li câu hi: nu
gi thuyt đo đúng, thì xác sut mà nhng d kin thu thp đc phù hp vi gi thuyt
đo là bao nhiêu. Giá tr ca xác sut này thng đc đ cp đn trong các báo cáo
khoa hc bng kí hiu “P value”. iu cn chú ý đây là nhà nghiên cu không th
nghim gi thuyt khác, mà ch th nghim gi thuyt đo mà thôi.
Bc 4, quyt đnh chp nhn hay loi b gi thuyt đo, bng cách da vào giá
tr xác sut trong bc th ba. Chng hn nh theo truyn thng la chn trong mt
xy ra là bao nhiêu? Do đó, lí thuyt xác sut nh phân có phn ng dng trong trng
hp này, bi vì kt qu ca nghiên cu ch có hai “giá tr” (hoc là thích A, hoc thích
B).
Nói theo ngôn ng ca phn nghim, gi thit đo là nu không có s khác bit v
s thích, xác sut mà mt khách hàng a chung mt loi cà phê là 0.5. Nu gi thit này
là đúng (tc p = 0.5, p đây là xác sut thích cà phê A), và nu nghiên cu trên đc lp
đi lp li (chng hn nh) 1000 ln, và mi ln vn 50 khách hàng, thì có bao nhiêu ln
vi 35 khách hàng a chung cà phê A? Gi s ln nghiên cu mà 35 (hay nhiu hn)
trong s 50 thích cà phê A là “bin c” X, nói theo ngôn ng xác sut, chúng ta mun tìm
P(X | p=0.50) =?
tr li câu hi này, chúng ta có th ng dng hàm rbinom đ mô phng vì
nh nói trên thc cht ca vn đ là mt phân phi nh phân:
> bin <- rbinom(1000, 50, 0.5)
Trong lnh trên, chúng ta yêu cu R mô phng 1000 ln nghiên cu, mi ln có 50 khách
hàng, và theo gi thit đo, xác sut thích A là 0.50. bit kt qu ca mô phng đó,
chúng ta s dng hàm table nh sau:
> table(bin)
4
bin
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
1 1 2 11 16 24 47 60 83 94 107 132 114 98 65 44 44 26 14 12
34 35
2 3
31 5 7 1
Ln này, chúng ta có nhiu kh nng hn (vì s ln mô phng tng lên). Chng hn nh
có th có nghiên cu cho ra 11 khách hàng (ti thiu) hay 40 khách hàng (ti đa) thích cà
5
phê A. Nhng chúng ta mun bit s ln nghiên cu mà 35 khách hàng tr lên thích cà
phê A, và kt qu trên cho chúng ta bit, xác sut đó là:
> (223+98+21+5+7+1)/100000
[1] 0.00355
Nói cách khác, xác sut P(X ≥ 35 | p=0.50) quá thp (ch 0.3%), chúng ta có bng
chng đ cho rng kt qu trên có th không do các yu t ngu nhiên gây nên; tc có
mt s khác bit v s thích ca khách hàng đi vi hai loi cà phê.
Con s P = 0.0035 chính là tr s P. Theo mt qui c khoa hc, tt c các tr s
P thp hn 0.05 (tc thp hn 5%) đc xem là “significant”, tc là “có ý ngha thng
kê”.
Cn phi nhn mnh mt ln na đ hiu ý ngha ca tr s P nh sau: Mc đích
ca phân tích trên là nhm tr li câu hi: nu hai loi cà phê có xác sut a chung
bng nhau (p = 0.5, gi thuyt đo), thì xác sut mà kt qu trên (35 trong s 50 khách
hàng thích A) xy ra là bao nhiêu? Nói cách khác, đó chính là phng pháp đi tìm tr s
P. Do đó, din dch tr s P phi có điu kin, và điu kin đây là p = 0.50. bn đc có
th làm thí nghim thêm vi p = 0.6 hay p = 0.7 đ thy kt qu khác nhau ra sao.
Trong thc t, tr s P có mt nh hng rt ln đn s phn ca mt bài báo khoa
hc. Nhiu tp san và nhà khoa hc xem mt nghiên cu khoa hc vi tr s P cao hn
0.05 là mt “kt qu tiêu cc” (“negative result”) và bài báo có th b t chi cho công