QUẢN LÝ SỐ LIỆU - BIẾN PHÂN LOẠI (BIẾN ĐỊNH TÍNH), ĐẠI HỌC Y TẾ CÔNG CỘNG - Pdf 29

Qun lý s liu - bin phân loi
(bin nh tính)
Tài liu ging dy: Giáo trình thng kê Y t Công Cng- phn 2, Phân tích
 liu. Nhà xut bn Y hc xut bn nm 2005 vi b s liu biostats2. sav
Tài liu này c vit da trên s dng b s liu Chilumba.sav.  hai b s
liu này c ng ti trên website ca môn hc
Qun lý s liu là các thao tác c tin hành trên s liu trc khi tin hành
phân tích s liu và sau khi hoàn thành thu thp s liu ti cng ng. Quá trình
qun lý s liu bao gm:
1. Mã hóa s liu
2. Nhp s liu
3. Kim tra và làm sch s liu.
Qun lý s liu là mt bc quan trng trong quá trình phân tích s liu và nh
ng n kt qu nghiên cu. Trc khi bc vào vic qun lý s liu bn
nên kim tra li s liu thô (s liu trên phiu) trc khi nhp vào máy tính.Bn
phi m bo rng nhng u tra viên ã n úng vào bng hi ca bn (h
có thn hai hoc nhiu hn hai la chn cho mt ý câu hi n la chn).
Sau khi ã hoàn thành công n làm sch thô trên phiu hi, bn bt u tin
hành mã hóa s liu.
I. Mã hóa s liu là quá trình s hóa các giá tr hoc mc ca bin. Sau
ây là mt vài quy tc chúng ta nên tham kho và cân nhc khi tin hành mã
hóa s liu:
1. t c s liu nên  dng s. Trên thc t chúng ta có th s dng ch hoc
câu (bin dng ký t) nh là mt dng s liu ký t. Tuy nhiên trong SPSS
chúng ta không nên lm dng cách dùng này.  tránh dùng các bin có dng
ký t chúng ta nên mã hóa nó dng s. Ví d nh bin Gii tính (gender), mt
quan sát có th là nam hoc n. Vy chúng ta có th mã hóa li nh sau:
1 : Nam
Click to buy NOW!
P
D

F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
2: N.
u ý rng bn phi nht quán trong nghiên cu cách mã hóa ging nhau và
chn mt cách mã hóa cho tt c các i tng tham gia nghiên cu. Hn th

F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D

các mc phân loi và các giá tr ca các bin li vi nhau khi tin hành mã hóa
 liu. Nu bn thy cn phi gp thì hãy tin hành gp khi phân tích s liu
ng máy tính. Trong tng hp lý tng thì thông tin nhp vào máy tính càng
chi tit càng tt. Các thông tin nh tính ch s BIM hay là nhóm tui nên thc
hin sau này. Nu ngc li, bn nhóm các thông tin li vi nhau ri nhp s
liu, nu khi bn phân tích bn thay i các nhóm hoc cách tính thì bn không
có thông tin và phi nhp li toàn b s liu.
3. i mt bin ca mi trng hp/ quan sát phi nm trên cùng mt ct ca
 liu SPSS. Trong SPSS các thông tin ca mi quan sát ch nm trên mt
dòng và mi ct cha thông tin ca mt bin. Bn nên t tên bin ngn, d
nh và theo mt quy tc nht nh. Không nên t tên bin bng ting Vit vì
máy tính không nhn c.
4. i bin ca mi quan sát phi có mã hoc giá tr bin. Các mã này phi
ng s ngoi tr nhng bin b thiu thông tin. Bn nên  trng cho nhng
bin không có thông tin vì SPSS s tng nhn các giá tr trng là giá tr
missing (ch ra bin b thiu thông tin). Tuy nhiên thì nhiu khi chúng ta 
missing s làm cho vic phân tích s liu sau này khó hn, c bit là trong
nhng trng hp missing là do không phù hp thì bn nên mã hóa 98 (không
phù hp) hoc 99 (missing) cho các trng không phi là giá tr ca bin.
5. Áp dng các quy tc v thng nht s liu ca tt c các quan sát. u này
có có ngha là bn thng nht mt mã cho tt c các quan sát cùng tr li mt
câu hi, b thiu thông tin mt câu hi. Lu ý này rt quan trng cho nhng
câu hi nhiu la chn nu bn 1 là có, 0 là không cho la chn ó thì phi
thng nht trên toàn b s liu hoc trong câu hi ó.
6. Nên s dng các giá tr cao cho nhng câu tr li có th t. Bn nên code
giá tr 1 cho không ng ý và 5 cho rt ng ý. Tuy nhiên bn không sai nu
mã hóa ngc li nhng nó có th làm bn nhm ln khi c ý ngha.
Click to buy NOW!
P
D

F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
1
Chi tit c th v phn mã hóa s liu, hãy c phn 2.2.1 X lý và
nhp s liu trong Giáo trình Thng kê Y t Công cng phn 2 (trang 12 -

D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P

Age group: 1=1/14 2=15/24 3
= 25/34 4 = 35-44 5 = 45+
Nhóm tui: 1=1/14 2=15/24 3 =
25/34 4 = 35-44 5 = 45+
Sex (gii thiu) 0=male, 1=female 0=nam, 1=nu
Bcgscar (chng
nga BCG)
0=no, 1=yes 0=không, 1=có
School (hc
n)
Duration of schooling: 1=none
2=1-3 year 3=4-6 year 4=7+
year
Hc vn : 1=không 2=1-3 nm
3=4-6 nm 4=7+ nm
Mbcont (tip
xúc phong u)
Contact with MB case Tip xúc vi phong u (có nhiu
vi khun)
Pbcont (tip
xúc phong c)
Contact with PB case Tip xúc vi phong c (có ít vi
khun)
Sau khi s liu c nhp vào SPSS bn nên tin hành kim tra s bin, nhãn
bin và loi bin. Khi bn nhp  mt phn mm khác ri sau ó chuyn sang
SPSS thì tu vào phn mm mà loi bin nhãn bin có th b thay i. Bn nên
thay i loi bin bng cách m ca s Variable view. Sau ó ca s màn hình
sau s hin th ra. Bn kim tra dng bin  ct type (vòng tròn màu ).
u bn mun chuyn kiu bin hãy kích chut vào du ba chm ti bin mà
n mun chuyn. Khi ó ca s kiu bin s hin ra nh sau và bn chn loi

m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o

-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u

Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m

Sau ó có mt ca s nh Missing values hin ra, bn chn Dicrete missing
value và nhp vào nhng giá tr mà bn ã mã hóa là missing.
Ngòai ra, trong ca s Variable view còn cho phép bn thay i s ký t sau
u phy ca bin có dng thp phân (decimal) và các tính cht khác ca bin.
Chi tit phn này bn có th tham kho Menu Help ca SPSS.
Bây gi bn ã nh ngha và dán nhãn cho bin xong, bn có th in ra mt
codebook, ó nh là mt tn cho s liu ca bn. Vic này rt hu ích vì nó
giúp bn lu li nhng gì bn ã thc hin  có codebook bn dùng File
Display Data File Information Working File
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-

t
r
a
c
k
.
c
o
m
 c bn nhng thông tin trong codebook ging nh là các thông tin c th
hin trong màn hình Variable view. Và kt quc th hin nh sau:
Variable Information
Variable Position Label
Measurement
Level
Column
Width Alignment
Print
Format
Write
Format
id
1
Identity
number
Scale 8 Right F9.2 F9.2
caco
2
1=case,
0=control

F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D

caco
2
Control
0
Male
sex
1
Female
0
No
bcgscar
1
Yes
'
t qu này trích t SPSS 15.0. Nu bn dùng bn cao hoc thp hn thì
t qu có thc trình bày hi khác mt chút nhng lng thông tin thì cng
ng t.
Làm sch s liu:
c dù s liu c kim sóat t khi thu thp và nhp s liu, nhng s liu có
th còn nhiu sai sót nên vc làm sch bao gi cng là mt khâu bt buc trc
khi phân tích s liu. làm sch s liu gm thc hin các thao tác kim tra tính
phù hp ca s liu, tính nht quán và các giá tr bt thng trong b s liu.
i vi các bin nh tính,  kim tra và làm sch s liu, chúng ta s
ng ng phân phi tn s - nh Frequencies
nh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies
nh này ch yu dùng cho các bin phân loi
Click to buy NOW!
P
D
F

-
X
C
H
A
N
G
E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Sau ó ca s màn hình sau ây s hin ra:
n chn bin mà bn cn phi kim tra kích chuyn sang ô Variable và
kích Ok
t qu ca câu lnh này là:

u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o
c

Valid
Frequency Percent Valid Percent
Cumulative
Percent
0=no, 1=yes
744 59.0 59.0 59.0
516 41.0 41.0 100.0
1260 100.0 100.0
no
yes
Total
Valid
Frequency Percent Valid Percent
Cumulative
Percent
Nhìn vào kt quu ra ây bn có th tìm ra nhng giá tr không phù hp
a b s liu. Ví d nh bin caco: bin ghi là 0: control 1: case (ã dán nhãn
phi nh th) nhng ã dán nhãn nhm là 1: case, 2 là control. Chúng ta phi
quay li ca s nhãn bin lúc âu  chnh li
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G

E
w
w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
n thay s 2 Value và gõ vào s 0 ri kích vào Change. Sau ó kích OK.
Ngòai ra câu lênh frequency cng cho các bn bin thông tin v giá tr missing
a các bin
Statistics
1260 1260 1260
0 0 0
Valid
Missing
N
1=case,
0=control

c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w
w
w
.
d
o

w
w
.
d
o
c
u
-
t
r
a
c
k
.
c
o
m
Click to buy NOW!
P
D
F
-
X
C
H
A
N
G
E
w


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status