49
Phần II
THỐNG KÊ ỨNG DỤNG TRONG
NGHIÊN CỨU Y HỌC 50
VAI TRÒ CỦA TOÁN THỐNG KÊ
TRONG NGHIÊN CỨU Y HỌC
Cơ thể Con người là một thực thể sinh học cũng như các sinh vật khác, luôn chịu
sự tác động qua lại của các yếu tố môi trường, vũ trụ xung quanh. Sự khoẻ mạnh của
một con người, của một quần thể dân cư nằm trong mối liên quan tổng hợp với các yếu
tố môi trường và sinh thái. Các quá trình sinh lý, sinh hoá diễn ra trong cơ thể cũng
tuân theo một quy luật toán học về m
ặt sinh học.
Việc sử dụng toán thống kê trong nghiện cứu Y học nói riêng, Y sinh học nói
chung sẽ góp phần đánh giá một cách chuẩn xác các vấn đề sức khoẻ và bệnh tật, đồng
thời cũng xác định được mối tương quan, quan hệ nhân quả của các yếu tố tác động
sinh ra trong môi trường lên sức khoẻ và bệnh tật của cộng đồng.
Ngày nay các nghiên cứu điều tra cơ bản, nghiên cứu can thi
ệp hoặc các giải
pháp công nghệ cũng được toán học hoá để tìm ra những quy luật trong sức khoẻ cộng
quả.
3. Nghiên cứu các quy luật biến thiên của các trị số quan trắc thực tế, xây dựng
thành mô hình lý thuyết, toán học hoá. Đây là yêu cầu bắt buộc đối với những người
làm nghiên cứu ở trình độ cao vì qua đó những vấn đề nghiên cứu sẽ được khẳng định
một cách khoa học nhất.
4. So sánh các tập hợp số liệu với nhau về bản chất cũng như các vấn đề có liên
quan giữa các chùm số liệu được quan trắc.
52
CÁC KHÁI NIỆM THỐNG KÊ CƠ BẢN
1. Tập hợp
1.1 Khái niệm
Trong nghiên cứu, quan sát một nhóm các số liệu hoặc một nhóm các cá thể ta
nới tầng có một tập hợp mà mỗi cá thể trong đó gọi là một phần tử của tập hợp.
Ví dụ: Một lớp học 50 người được xem là một tập hợp trong đó mỗi người là một
phần tử của tập hợp.
1.2. Sắp xếp các số li
ệu trong tập hợp
Khi nghiên cứu với số lượng càng nhiều các số liệu, việc sắp xếp chúng càng trở
nên cần thiết. Cách sắp xếp số liệu cần dựa trên cơ sở định tính và định lượng và phân
nhóm cụ thể. Về nguyên tắc ta nên xếp các nhóm dựa vào định tính với thuộc tính
đồng khả năng sau đó mới tính đến thuộc tính về lượng và theo thứ bậc từ thấ
p đến cao
hoặc ngược lại. Tuỳ loại hình nghiên cứu mà có cách sắp xếp phù hợp tạo thành chuỗi
thống kê.
Ví dụ:
+ Phân nhóm theo lứa tuổi:
0 - 4 tuổi
5 - 9 tuổi
2.2. Xác suất
Nếu gọi K là số lần xuất hiện sự kiện A trong n phép thử ta có tần suất của A là
tỷ số:
n
K
Khi n tiến dần đến vô hạn (n → ∞) thì tần suất này dao động quanh hằng số p nào
đó, hằng số “p” được gọi là xác xuất của A. Ví dụ: Tỷ lệ trẻ em trai được sinh ra ở
bệnh viện X
Bảng: Tỷ lệ trẻ em trai được sinh ra ở bệnh viện X năm 2004
Quý Số trẻ sinh Số trẻ trai Tần suất
I 100 45 0,45
II 500 219 0,438
III 1000 432 0,432
IV 2000 861 0,4305
Số sản phụ đến đẻ ở bệnh viện nhiều lên, tần suất trẻ trai được sinh ra dao động
quanh giá trị 0,43. Do đó nếu A là sự kiện trẻ sơ sinh trai, gọi F (A) là số lần sinh trẻ
trai trong n lần sinh của các sản phụ của bệnh viện X năm 2006. Ta sẽ có: 1
Vậy xác suất P (A) bằng xác suất cả một sự kiện ngẫu nhiên A, là giới hạn của
tần suất xảy ra sự kiện A khi n tăng đến vô hạn.
54
Ta có: 0 ≤ P (A) ≤ 1
Nếu A là sự kiện tất yếu, P (A) = 1
Nếu A là sự kiện không thể, P(A) = 0
Vậy xác suất P(A) của sự kiện ngẫu nhiên A càng gần 1 thì sự kiện A càng chắc
chắn xảy ra và ngược lại.
Kết luận với P = 0,999999 xem như chính xác hoàn toàn
Đây là trung bình số học, là giá trị trung tâm thường dùng để làm nên giá trị điển
hình hoặc đặc trưng cho chuỗi thống kê.
Thí dụ: Đo hàm lượng glucose huyết lúc đói cg/lít ở 17 người (n = 17) ta thu
được các số liệu sau:
Bảng: Hàm lượng glucose huyết lúc đói cg/1ít
75 80 85 85 90 95 95 95 100
100 100 100 100 105 105 110 120
Số trung bình ký hiệu bằng ( X ) của chuỗi thống kê được tính như sau:
Có thể viết một cách tổng quát nếu đại lượng X
i
có n trị số X
1
, X
2
, X
3
,…X
n
thì
Số trung bình
X sẽ được tính như sau:
Σ là chữ cái Hy Lạp viết hoa chỉ một tổng gồm nhiều trị số. Muốn thể hiện đầy
đủ ta phải viết Σ dưới dạng
∑
=
=
ni
1i
0
, n
1
(x
1
- x
0
)
16
17
18
19
20
21
22
23
24
25
26
4
9
31
75
183
204
157
97
40
12
3
i
0i
x
K
xx
=
−
ta sẽ có công thức:
Ví dụ: Tính huyết áp tối thiểu (mmHg) của 2750 nam giới được phân bố vào 12
nhóm với khoảng cách K = 5.
57Bảng: Huyết áp trung bình của 2750 nam giới
X
i
n
i
x
i
= x
o
K
xx
x
0i
'
185
46
25
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
-24
-40
-360
Trung vị (Me) là số đứng giữa một chuỗi thống kê đã được sắp x
ếp. Ví dụ: 1 2 2
3 4 6 6 7 9 ở đây Me là số 4 vì nó đứng ở vị trí số 5 trong chuỗi thống kê có n = 9.
Vậy: Me =
2
1n
+
nếu n là số lẻ.
Nếu n là số chẵn thì Me là trị số thứ
2
n
và
2
1n
+
58
1.3. Mốt (Mode)
Mốt là trị số của x
i
ứng với tần suất cao nhất, và nghĩa là trị số của x
i
này được
gặp nhiều lần nhất, tương ứng với giá trị x
o
mà ta đã nói ở trên (1.1). Mode được ký
hiệu là M
o
1
158 2 158 4 16 2 16 4
159 3 159 3 17 3 17 6
160 1 160 5 18 4 18 12
161 4 161 6 19 6 19 48
162 6 162 6 20 16 20 71
163 6 163 7 21 37 21 148
164 4 164 7 22 92 22 270
165 3 165 8 23 1 02 23 308
166 3 166 5 24 79 24 280
167 2 167 6 25 73 25 242
168 2 168 6 26 58 26 152
169 1 169 4 27 35 27 80
170 1 170 3 28 20 28 21
171 2 171 2 29 6 29 17
172 1 172 1 30 1 30 4
Ở bài toán trên có 4 giá trị X ta cần phải tính, như vậy việc cần làm trước hết là
chọn công thức nào cho phù hợp? Tiếp theo cần phải lập bảng với số cột tương ứng
với số thừa số trong công thức để tính kết quả.
2. Các tham số, số đo chỉ sự phân tán
Các tham số đặc trưng cho độ phân tán thường dùng là: Phương sai, độ lệch
chuẩn, hệ số biến thiên
. Giá trị trung bình chỉ phản ánh được một đặc điểm của chuỗi
thống kê, là xu hướng tập trung của số liệu. Trong nhiều trường hợp bản thân hiện
tượng hay quá trình đã thay đổi rõ rệt nhưng số trung bình không thay đổi, hoặc thay
59
đổi rất ít. Do đó việc đánh giá mức độ phân tán của các số liệu so với số trung bình là
không thể bỏ qua được.
độ lệch chuẩn trực tiếp bằng toán học. Phương sai của một tập hợp giống như cầu nói
cho nhà nghiên cứu xác định độ phân tán của dãy số liệ
u.
Phương sai có thể ký hiệu như sau: δ
2
hay S
2
δ là chữ xích ma thường trong chữ cái Hy Lạp.
S là chữ La Tinh, còn có khi viết là SD.
Công thức:
nếu n < 30 thì n ở mẫu số sẽ là (n-1)
Trong trường hợp có nhiều số liệu được phân nhóm, để tính số trung bình ta sẽ
tìm được x
o
và đơn vị mới K, ta sẽ có công thức mới:
60
Hoặc đơn giản hơn (không phân nhóm K)
Độ lệch chuẩn S là trị số bậc một của phương sai hay nói cách khác chính là căn
bậc hai của phương sai: S =
2
S
Độ lệch chuẩn là giá trị được ứng dụng nhiều trong thực hành, nghiên cứu các
vấn đề sinh học và y học bởi chính nó mới cho nhà nghiên cứu biết sự phân tán của
những số liệu nghiên cứu đã thu thập được xung quanh số trung bình. Khi tính được độ
lệch chuẩn của một tập hợp to hay nhỏ người ta biết được sự dao động của các giá trị
62
phối chuẩn, việc phân lớp số liệu có chiều hướng làm gia tăng giá trị của S
2
.Vì vậy để
giảm bớt sai số có hệ thống này, Sheppar đưa ra công thức tính như sau:
Trong đó K là khoảng cách nhóm
2.5. Đánh giá hết hợp giữa giá trị trung bình và độ lệch chuẩn
Nhằm ước lượng xác suất hoặc độ chính xác trong các nghiên cứu, thông thường
người ta sử dụng chỉ số kết hợp “
X
± nS” để lượng giá, thông qua các diện tích đặc
biệt dưới đường cong chuẩn thuộc hàm phân bố của luật Gauss chuẩn tức là:
Đường cong chuẩn thu gọn xác suất dồn có hình dạng như sau:
Hình 1.6. Đường cong Gauss
(l) Diện tích của
X
± 1S cho biết đa số gần với chuẩn mực của quần thể
(68,27%).
(2) Diện tích
X ± 2S cho biết hầu hết các giá trị nằm trong quần thể. Nếu số
lượng nghiên cứu với mẫu đủ lớn thì số đo này sẽ là hằng số vì nó đại diện cho
95,45% quần thể.
(3) Diện tích
X ± 3S cho biết khi này cần hầu hết các giá trị của quần thể đã lọt
vào khung này. Độ đại diện đã rất cao song thông thường nghiên cứu khó đạt được vì
đòi hỏi mẫu nghiên cứu rất lớn (99,73%), đây chính là hằng số thu được thông qua các