Qun lý s liu - bin phân loi
(bin nh tính)
Tài liu ging dy: Giáo trình thng kê Y t Công Cng- phn 2, Phân tích
liu. Nhà xut bn Y hc xut bn nm 2005 vi b s liu biostats2. sav
Tài liu này c vit da trên s dng b s liu Chilumba.sav. hai b s
liu này c ng ti trên website ca môn hc
Qun lý s liu là các thao tác c tin hành trên s liu trc khi tin hành
phân tích s liu và sau khi hoàn thành thu thp s liu ti cng ng. Quá trình
qun lý s liu bao gm:
1. Mã hóa s liu
2. Nhp s liu
3. Kim tra và làm sch s liu.
Qun lý s liu là mt bc quan trng trong quá trình phân tích s liu và nh
ng n kt qu nghiên cu. Trc khi bc vào vic qun lý s liu bn
nên kim tra li s liu thô (s liu trên phiu) trc khi nhp vào máy tính.Bn
phi m bo rng nhng u tra viên ã n úng vào bng hi ca bn (h
có thn hai hoc nhiu hn hai la chn cho mt ý câu hi n la chn).
Sau khi ã hoàn thành công n làm sch thô trên phiu hi, bn bt u tin
hành mã hóa s liu.
I. Mã hóa s liu là quá trình s hóa các giá tr hoc mc ca bin. Sau
ây là mt vài quy tc chúng ta nên tham kho và cân nhc khi tin hành mã
hóa s liu:
1. t c s liu nên dng s. Trên thc t chúng ta có th s dng ch hoc
câu (bin dng ký t) nh là mt dng s liu ký t. Tuy nhiên trong SPSS
chúng ta không nên lm dng cách dùng này. tránh dùng các bin có dng
ký t chúng ta nên mã hóa nó dng s. Ví d nh bin Gii tính (gender), mt
quan sát có th là nam hoc n. Vy chúng ta có th mã hóa li nh sau:
1 : Nam
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
2: N.
u ý rng bn phi nht quán trong nghiên cu cách mã hóa ging nhau và
chn mt cách mã hóa cho tt c các i tng tham gia nghiên cu. Hn th
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
các mc phân loi và các giá tr ca các bin li vi nhau khi tin hành mã hóa
liu. Nu bn thy cn phi gp thì hãy tin hành gp khi phân tích s liu
ng máy tính. Trong tng hp lý tng thì thông tin nhp vào máy tính càng
chi tit càng tt. Các thông tin nh tính ch s BIM hay là nhóm tui nên thc
hin sau này. Nu ngc li, bn nhóm các thông tin li vi nhau ri nhp s
liu, nu khi bn phân tích bn thay i các nhóm hoc cách tính thì bn không
có thông tin và phi nhp li toàn b s liu.
3. i mt bin ca mi trng hp/ quan sát phi nm trên cùng mt ct ca
liu SPSS. Trong SPSS các thông tin ca mi quan sát ch nm trên mt
dòng và mi ct cha thông tin ca mt bin. Bn nên t tên bin ngn, d
nh và theo mt quy tc nht nh. Không nên t tên bin bng ting Vit vì
máy tính không nhn c.
4. i bin ca mi quan sát phi có mã hoc giá tr bin. Các mã này phi
ng s ngoi tr nhng bin b thiu thông tin. Bn nên trng cho nhng
bin không có thông tin vì SPSS s tng nhn các giá tr trng là giá tr
missing (ch ra bin b thiu thông tin). Tuy nhiên thì nhiu khi chúng ta
missing s làm cho vic phân tích s liu sau này khó hn, c bit là trong
nhng trng hp missing là do không phù hp thì bn nên mã hóa 98 (không
phù hp) hoc 99 (missing) cho các trng không phi là giá tr ca bin.
5. Áp dng các quy tc v thng nht s liu ca tt c các quan sát. u này
có có ngha là bn thng nht mt mã cho tt c các quan sát cùng tr li mt
câu hi, b thiu thông tin mt câu hi. Lu ý này rt quan trng cho nhng
câu hi nhiu la chn nu bn 1 là có, 0 là không cho la chn ó thì phi
thng nht trên toàn b s liu hoc trong câu hi ó.
6. Nên s dng các giá tr cao cho nhng câu tr li có th t. Bn nên code
giá tr 1 cho không ng ý và 5 cho rt ng ý. Tuy nhiên bn không sai nu
mã hóa ngc li nhng nó có th làm bn nhm ln khi c ý ngha.
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
1
Chi tit c th v phn mã hóa s liu, hãy c phn 2.2.1 X lý và
nhp s liu trong Giáo trình Thng kê Y t Công cng phn 2 (trang 12 -
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
Age group: 1=1/14 2=15/24 3
= 25/34 4 = 35-44 5 = 45+
Nhóm tui: 1=1/14 2=15/24 3 =
25/34 4 = 35-44 5 = 45+
Sex (gii thiu) 0=male, 1=female 0=nam, 1=nu
Bcgscar (chng
nga BCG)
0=no, 1=yes 0=không, 1=có
School (hc
n)
Duration of schooling: 1=none
2=1-3 year 3=4-6 year 4=7+
year
Hc vn : 1=không 2=1-3 nm
3=4-6 nm 4=7+ nm
Mbcont (tip
xúc phong u)
Contact with MB case Tip xúc vi phong u (có nhiu
vi khun)
Pbcont (tip
xúc phong c)
Contact with PB case Tip xúc vi phong c (có ít vi
khun)
Sau khi s liu c nhp vào SPSS bn nên tin hành kim tra s bin, nhãn
bin và loi bin. Khi bn nhp mt phn mm khác ri sau ó chuyn sang
SPSS thì tu vào phn mm mà loi bin nhãn bin có th b thay i. Bn nên
thay i loi bin bng cách m ca s Variable view. Sau ó ca s màn hình
sau s hin th ra. Bn kim tra dng bin ct type (vòng tròn màu ).
u bn mun chuyn kiu bin hãy kích chut vào du ba chm ti bin mà
n mun chuyn. Khi ó ca s kiu bin s hin ra nh sau và bn chn loi
m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Sau ó có mt ca s nh Missing values hin ra, bn chn Dicrete missing
value và nhp vào nhng giá tr mà bn ã mã hóa là missing.
Ngòai ra, trong ca s Variable view còn cho phép bn thay i s ký t sau
u phy ca bin có dng thp phân (decimal) và các tính cht khác ca bin.
Chi tit phn này bn có th tham kho Menu Help ca SPSS.
Bây gi bn ã nh ngha và dán nhãn cho bin xong, bn có th in ra mt
codebook, ó nh là mt tn cho s liu ca bn. Vic này rt hu ích vì nó
giúp bn lu li nhng gì bn ã thc hin có codebook bn dùng File
Display Data File Information Working File
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
c bn nhng thông tin trong codebook ging nh là các thông tin c th
hin trong màn hình Variable view. Và kt quc th hin nh sau:
Variable Information
Variable Position Label
Measurement
Level
Column
Width Alignment
Print
Format
Write
Format
id
1
Identity
number
Scale 8 Right F9.2 F9.2
caco
2
1=case,
0=control
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
caco
2
Control
0
Male
sex
1
Female
0
No
bcgscar
1
Yes
'
t qu này trích t SPSS 15.0. Nu bn dùng bn cao hoc thp hn thì
t qu có thc trình bày hi khác mt chút nhng lng thông tin thì cng
ng t.
Làm sch s liu:
c dù s liu c kim sóat t khi thu thp và nhp s liu, nhng s liu có
th còn nhiu sai sót nên vc làm sch bao gi cng là mt khâu bt buc trc
khi phân tích s liu. làm sch s liu gm thc hin các thao tác kim tra tính
phù hp ca s liu, tính nht quán và các giá tr bt thng trong b s liu.
i vi các bin nh tính, kim tra và làm sch s liu, chúng ta s
ng ng phân phi tn s - nh Frequencies
nh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies
nh này ch yu dùng cho các bin phân loi
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Sau ó ca s màn hình sau ây s hin ra:
n chn bin mà bn cn phi kim tra kích chuyn sang ô Variable và
kích Ok
t qu ca câu lnh này là:
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
Valid
Frequency Percent Valid Percent
Cumulative
Percent
0=no, 1=yes
744 59.0 59.0 59.0
516 41.0 41.0 100.0
1260 100.0 100.0
no
yes
Total
Valid
Frequency Percent Valid Percent
Cumulative
Percent
Nhìn vào kt quu ra ây bn có th tìm ra nhng giá tr không phù hp
a b s liu. Ví d nh bin caco: bin ghi là 0: control 1: case (ã dán nhãn
phi nh th) nhng ã dán nhãn nhm là 1: case, 2 là control. Chúng ta phi
quay li ca s nhãn bin lúc âu chnh li
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
n thay s 2 Value và gõ vào s 0 ri kích vào Change. Sau ó kích OK.
Ngòai ra câu lênh frequency cng cho các bn bin thông tin v giá tr missing
a các bin
Statistics
1260 1260 1260
0 0 0
Valid
Missing
N
1=case,
0=control
c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w