Phương pháp nghiên cứu và phân tích dữ liệu - Pdf 12

1
PhươngPhương pháppháp ghiênghiên cứucứu
vàvà PhânPhân tíchtích dữdữ liệuliệu
CâuCâu hhỏỏii nghiênnghiên ccứứuu
2
MMụục tiêu nghiên cc tiêu nghiên cứứuu
 Xác ñịnh những kết quả cần ñạt ñể trả lời
cho câu hỏi nghiên cứu
3
GiGiảả thithiếếtt
 Mô tả mối quan hệ giữa các biến
 Các biến phải ño lường ñược
 Giả thiết phải thể hiện dưới dạng kiểm tra
ñược (xác nhận hay không xác nhận)
◦ Nếu giả thuyết ñược xác nhận => ñóng góp vào
khám phá của ñề tài
◦ Nếu giả thuyết không ñược xác nhận =>tìm hiểu
xem nhân tố nào là quan trọng cần nghiên cứu
thêm
4
TTổổngng quanquan lýlý thuythuyếếtt
((Literature Review)Literature Review)
 Vấn ñề quan tâm ñã ñược nghiên cứu trước
ñây chưa và kết quả như thế nào.
 Liệu có thể phát triển thêm từ công trình ñã có.
 Các chuyên gia ñánh giá phần này dựa trên:
◦ Tính logic trong lập luận
◦ Tính ñầy ñủ trong tham khảo các ñề tài ñã có
◦ Tính liên quan ñến mục tiêu nghiên cứu
5
TTổổngng quanquan lýlý thuythuyếếtt

Xác định các kiến nghị
Báo cáo nghiên cứu
Quyết định
quản lý
Hoạch định phân tích sơ bộ
Điều chỉnh giả thiết
Trình bày bằng biểu đồ
Kiểm định các giả thiết
Thu thập và chuẩn bị
thông tin
Các loCác loạại phân tích di phân tích dữữ liliệệuu
 Phân tích dữ liệu ñể khám phá (EDA)
◦ Dữ liệu hướng dẫn lựa chọn phân tích - hay
xem lại phân tích ñã dự kiến
 Phân tích dữ liệu ñể khẳng ñịnh (CDA)
◦ Gần với suy lý thống kê cổ ñiển qua sử dụng
ñộ tin cậy và mức ý nghĩa
◦ Có thể sử dụng thông tin từ bộ dữ liệu có
liên quan mật thiết hay xác nhận giá trị các
kết quả tìm thấy qua thu thập và phân tích
dữ liệu mới
10
PHAÂN TÍCH DỮ LIEÄU
ĐEÅ KHAÙM PHAÙ (EDA)
206 0 10
43,5% ,0% 2,1%
157 27 74
33,1% 5,7% 15,6%
Female
Male

 Biểu đồ
◦ Trình bày tất cả các khoảng trong phân
phối, kể cả khơng có giá trị quan sát
◦ Khảo sát dạng của phân phối về độ lệch,
độ nhọn
15 16
Stem width: 10000
Each leaf: 3 case(s)
Frequency Stem & Leaf
33 1 . 56667789999
110 2 . 00001111111222222222333334444444444
115 2 . 555555556666666667777777778888889999999
80 3 . 000000000001111112233333444
32 3 . 55556677889
20 4 . 0001233
12 4 . 5678
12 5 . 0124
7 5 . 556
53 Extremes (>=56750)
Current Salary Current Salary
StemStem andand Leaf PlotLeaf Plot
17
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii
 Box-plot
◦ Hộp chữ nhật chứa 50% giá trị của dữ liệu
◦ Vạch đứng trên hộp diễn tả trung vị
◦ Các đoạn mở rộng về bên phải và trái kết
thúc với giá trị lớn nhất và nhỏ nhất
18

% within Gender
% within Employment
Category
% of Total
Count
% within Gender
% within Employment
Category
% of Total
Count
% within Gender
% within Employment
Category
% of Total
Female
Male
Gender
Total
Clerical Custodial Manager
Employment Category
Total
22
ThThốốngng kêkê mômô ttảả
 Ñaëc tröng vò trí (Central
tendency)
Trung bình (Mean)
Mode
Trung vị (Median)
23
TrungTrung bìnhbình (MEAN(MEAN) & Mode) & Mode

Phõn hng trong lp,
th t lỳc sinh
Trung bỡnh
(Mean)
Quóng v
t l
D liu phự hp T l tr li, tui, mc
thớch
26
ThThngng kờkờ mụmụ tt
ẹaởc trửng phaõn taựn (Dispersion)
Variance
Standard deviation
Standard error of Mean
Min, Max
Extreme values - Outliers
Range
Quartiles
Interquartile range
Boxplot
27
ThThngng kờkờ mụmụ tt
ẹaởc trửng phaõn phoỏi (Distribution)
Phaõn phoỏi chuaồn
28
SS ủủ phõn phphõn phi chui chun (hỡnh chuụng)n (hỡnh chuụng)
Mean = median = mode
i xng qua ủim gia
uụi chuụng tip cn trc X , nhng khụng ct
29

Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Statistic Std. Error
32
PHAÂN TÍCH DỮ LIEÄU
ĐEÅ XAÙC NHAÄN (CDA)
Các loCác loạại gii giảả thithiếếtt
 Giả thiết không
 Giả thiết khác
34
Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt
 Phép kiểm hai ñuôi
 Phép kiểm một ñuôi
35
Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt
 Lỗi loại 1
 Lỗi loại 2
36
7
KiKiểểm ñm ñịịnh vnh vớới ý nghĩa thi ý nghĩa thốống kêng kê
 Phát biểu giả thiết không
 Chọn phép kiểm thống kê
 Chọn mức ý nghĩa α mong muốn
 Tính giá trị sai biệt
 Tra bảng tìm giá trị sig. tương ứng
 Sig. nhỏ hơn α ⇔ Bác bỏ giả thiết không

Difference
Test Value = 14
39
IndependentIndependent sample T testsample T test
Group Statistics
258 14,43 2,979 ,185
216 12,37 2,319 ,158
Gender
Male
Female
Educational
Level (years)
N Mean
Std.
Deviation
Std. Error
Mean
Independent Samples Test
17,884 ,000 8,28 472 ,000 2,060 ,249
8,46 469,6 ,000 2,060 ,244
Equal variances
assumed
Equal variances
not assumed
Educational
Level
(years)
F Sig.
Levene's Test
for Equality of

of

Error

Standard
Difference

Mean
t ↔=⇒








+
−+
−+−
−
=
2121
2
22
2
11
21
N
1



+
−
=
2
2
2
1
2
1
21
N
S
N
S
XX
t
1N1N
)(
df
2
2
2
1
2
1
2
21
−

Mean
Paired Samples Test
$17403.48 $10,814.620 $496.732 35,04 473 ,000
Current Salary -
Beginning Salary
Mean Std. Deviation
Std. Error
Mean
Paired Differences
t df
Sig.
(2-tailed)
43
ANOVAANOVA
 Phân tích phương sai (ANOVA)
◦ Phương pháp thống kê để kiểm định
giả thiết khơng về sự bằng nhau của
nhiều trung bình
◦ H: µ
1
= µ
2
= = µ
i
= = µ
n
44
ANOVAANOVA
 Sum of Squares Between Groups
df = n -1

ijij
XNXNSST
45
OneOne way ANOVAway ANOVA
Descriptives - Educational Level (years)
N Mean Std. Deviation Std. Error
Clerical 363 12,87 2,333 ,122
Custodial 27 10,19 2,219 ,427
Manager 84 17,25 1,612 ,176
Total 474 13,49 2,885 ,133
ANOVA
Educational Level (years)
1622,989 2 811,495 165,2 ,000
2313,477 471 4,912
3936,466 473
Between Groups
Within Groups
Total
Sum of
Squares df
Mean
Square F Sig.
46
ANOVAANOVA
 Nếu bác bỏ H: µ
1
= µ
2
= = µ
i

49
Post Hoc TestsPost Hoc Tests
Test of Homogeneity of Variances
Educational Level (years)
6,159 2 471 ,002
Levene
Statistic df1 df2 Sig.
Multiple Comparisons
Dependent Variable: Educational Level (years)
Tamhane
2,683* ,444 ,000
-4,382* ,214 ,000
-2,683* ,444 ,000
-7,065* ,462 ,000
4,382* ,214 ,000
7,065* ,462 ,000
(J) Employment
Category
Custodial
Manager
Clerical
Manager
Clerical
Custodial
(I) Employment
Category
Clerical
Custodial
Manager
Mean

◦ Một mẫu,
◦ Hai mẫu
◦ K mẫu
 Nu là hai hay k mu, các quan sát ñc
lp hay có liên quan?
 Thang ño là danh xưng, th t, quãng,
hay t l?
53
PhépPhép kikiểểmm Phi Phi thamtham ssốố
10
Điềiều kiệnkiện củacủa cáccác phépphép
kiểmkiểm thamtham sốsố
 Các phép kiểm T dùng để so sánh trung
bình dựa trên loại dữ liệu theo thang đo
quãng (interval)
 Phân phối của quan sát là phân phối chuẩn
 Trên thực tế, đôi khi các điều kiện này
không thõa, hoặc ta muốn kiểm các vấn đề
khác chứ không chỉ muốn so sánh các
trung bình
55
 Các gi đnh
◦ Các quan sát đc lp cho mt s phép kim
◦ Phân phi khơng cn phi chuNn
◦ Phương sai khơng cn phi đng nht
◦ Phù hp cho d liu danh xưng hay th t, có
th dùng cho c trưng hp qng và t l
PhépPhép kikiểểmm phi phi thamtham ssốố
56
ChiChi square square testtest

likelyhood-ratio chi-square, linear-by-linear
association chi-square.
59
ChiChi Square TestsSquare Tests
Chi-Square Tests
79,277
a
2 ,000
95,463 2 ,000
67,463 1 ,000
474
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value df
Asymp. Sig.
(2-sided)
0 cells (,0%) have expected count less than 5. The
minimum expected count is 12,30.
a.
gender * Employment Category Crosstabulation
157 27 74 258
206 0 10 216
363 27 84 474
male
female
gender
Total

: Hai mẫu có cùng phân phối
 Moses extreme reactions:
◦ Các quan sát phải dùng thang đo thứ tư
◦ Tầm (span = max – min) của nhóm đối chứng đo
mức độ các cực trò trong nhóm thí nghiệm ảnh
hưởng đến giá trò tầm nầy khi kết hợp với nhóm
đối chứng
◦ nh hưởng càng lớn càng dễ bác bỏ H
63
TWOTWO INDEPENDENTINDEPENDENT SAMPLES SAMPLES
TESTSTESTS
 H
0
: Hai mẫu có cùng phân phối
 Wald-Wolfowitz runs:
◦ Các quan sát sử dụng thang đo thứ tư
◦ Hai mẫu được kết hợp lại và sắp hạng từ nhỏ đến
lớn
◦ Run là một dãy liên tiếp các giá trò trong cùng một
mẫu
◦ Nếu các mẫu có cùng phân phối thì hai nhóm phải
phân tán ngẫu nhiên qua quá trình sắp hạng,
nghóa là số runs càng nhỏ càng dễ bác bỏ H
64
TESTS FOR SEVERAL TESTS FOR SEVERAL
INDEPENDENT SAMPLESINDEPENDENT SAMPLES
 H
0
: k mẫu có cùng phân phối
 Kruskal-Wallis H:

j
2
jj
∈






−
+
=
∑
TESTS FOR SEVERAL TESTS FOR SEVERAL
INDEPENDENT SAMPLESINDEPENDENT SAMPLES
 H
0
: k mẫu có cùng phân phối
 Median:
◦ Liệt kê số trường hợp lớn hơn và nhỏ hơn trung vò
cho từng nhóm
◦ Dùng Chi-square tính sai lệch Q giữa lý thuyết và
thực tế
 Jonckheere-Terpstra:
◦ Mạnh hơn Kruskal-Wallis trong trường hợp các dữ
liệu liên tục hay thang đo thứ tự
◦ J-T càng lớn càng dễ bác bỏ H
66
12

TWOTWO RELATED SAMPLES TESTSRELATED SAMPLES TESTS
 H
0
: Hai mẫu liên quan có cùng phân phối
 McNemar:
◦ Khi hai biến lấy giá trò nhò phân và có liên quan
 Marginal Homogeneity:
◦ Mở rộng của McNemar cho trường hợp dữ kiện đa
thức (multinomial)
69
TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
 H
0
: k mẫu liên quan có cùng phân phối
 Friedman:
◦ Tương ứng với Two-way ANOVA
◦ k biến trong mỗi trường hợp được sắp hạng lại từ
1 tới k
◦ F
r
tính dựa trên các hạng này
◦ F
r
càng lớn càng dễ bác bỏ H
70
( )
1)-square(k-Chi F
mẫu
từng

◦ Với mỗi đối tượng ta tính tổng hạng
◦ W lấy giá trò từ 0 (không thống nhất) tới 1 (hoàn
toàn thống nhất)
71
TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
 H
0
: k mẫu liên quan có cùng phân phối
 Q của Cochran:
◦ Giống như F
r
của Friedman nhưng được dùng khi k
biến quan sát trên cùng đối tượng chỉ lấy giá trò
nhò phân
◦ Đây là mở rộng của phép kiểm McNemar từ 2 mẫu
ra cho trường hợp k mẫu
72
13
TómTóm tắttắt phépphép kiểmkiểm phi phi thamtham sốsố
 Chi-square
ONE-SAMPLE KOLMOGOROV-SMIRNOV TEST
TWO-INDEPENDENT-SAMPLES TESTS
 U của Mann-Whitney
 Moses extreme reactions
 Wald-Wolfowitz runs
TESTS FOR SEVERAL INDEPENDENT SAMPLES
 H của Kruskal-Wallis
 Median
 Jonckheere-Terpstra

Correlations)
◦ Hệ số tương quan Pearson
◦ Hệ số tương quan Tau-b của Kendall
◦ Hệ số tương quan Spearman
78
14
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 Hệ số tương quan Pearson:
◦ ánh giá mức độ tương quan tuyến tính của
hai biến, lấy giá trò từ –1 đến +1
◦ Dấu chỉ chiều tương quan (nghòch hay thuận)
◦ ộ lớn cho thấy mức độ tương quan tuyến
tính nhiều hay ít
79
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 Hệ số tương quan Tau-b của Kendall:
◦ Số liệu theo thang đo thứ tự hay các biến đã
được sắp hạng lại
◦ Tau-b lấy giá trò trong khoảng [-1;+1]
◦ Ý nghóa giống như hệ số tương quan
Pearson, nhưng giá trò –1 và +1 chỉ có thể
đạt được khi bảng số liệu hai chiều là bảng
vuông.
80
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 Hệ số tương quan Spearman:
◦ Dựa trên hạng chứ không dựa trên giá trò
thực của quan sát
◦ Sử dụng khi số liệu theo thang đo thứ tự
hoặc không thỏa các giả thuyết chuẩn

Qu chăm
sóc sc khe
1 0.013
T l bnh
báo cáo
0.013 1
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hồi quy đơn (Simple Regression)
 Hồi quy bội (Multiregression)
84
15
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
 Hoài quy ñôn (Simple Regression)
85
P
4
XX
1
X
2
X
3
X
4
P
3
P
2
P
1

=
==
=
−
−−
−
ˆ
Y
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
86
Phân tích phương sai trong hi quy
∑
−=
2
total
YYSS )(
regressionresidualtotal
22
total
2
total
SSSSSS
YYYYSS
YYYYSS
+=
−+−=
−+−=
∑∑
∑
)()(

Sum of Squares df Mean Square F Sig.
ANOVA
b
Predictors: (Constant), Previous experience (months)
a.
Dependent Variable: Current salary
b.
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
89
H
0
: Không có tương quan tuyn tính gia hai bin
Model Summary
.097
a
.009 .007 $17,012.353
Model
1
R R Square
Adjust ed
R Square
Std. Error of
the Estimate
Predictors: (Const ant), Prev ious Experience (months)
a.
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
90
H
0
: Không có tương quan tuyn tính gia hai bin

Enter: Tất cả các biến đã chọn được đưa vào
mô hình cùng một lúc
Remove: Tất cả các biến đã chọn được đưa ra
khỏi mô hình cùng một lúc
92
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hồi quy bội (Multiregression)
Các phương pháp đưa biến vào mô hình:
Forward:
 Từng biến có tương quan riêng với biến phụ
thuộc lớn nhất được lần lượt đưa vào mô
hình
Backward:
 Đưa tất cả các biến đã chọn vào mô hình
 Lần lượt lấy ra từng biến có tương quan
riêng với biến phụ thuộc nhỏ nhất
93
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hồi quy bội (Multiregression)
Các phương pháp đưa biến vào mô hình:
Stepwise:
 Ở mỗi bước, biến độc lập chưa đưa vào mô
hình có P(F) nhỏ nhất sẽ được đưa vào
 Các biến đã có trong mô hình sẽ được đưa
ra nếu P(F) của chúng tăng lên đáng kể
 Quy trình kết thúc khi không còn biến nào
có thể đưa vào hay đưa ra
94
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hi quy bi (Multiregression)

thng kê có th ñưc gii quyt bng phân
tích hi quy, trong ñó có t-test và ANOVA
 GLM còn hu dng hơn vì có th x lý c
thang ño quãng và ñnh danh trong mô hình
General Linear Model (GLM)General Linear Model (GLM)
General Linear Model: General Linear Model: HHồồii quyquy bbộộii
Y = a +b
1
* X
1
+ b
2
*X
2
+ b
3
*X
3
+ … + e
Trong biu thc này, im Y ca mt ngưi là tng hp
ca nhiu nh hưng:
1. nh hưng c nh ging nhau cho mi cá nhân (a)
2. nh hưng ca các bin khác ghi im khác nhau
cho tng ngưi (X
s
)
3. Các nh hưng không o lưng ưc (e)
Ví d:
Current Salary = 771 + 1.9 (Beginning Salary) ± e
General Linear Model: General Linear Model:

t-test cho phép ta phán oán liu hai trung bình có
khác nhau không?
H s tương quan cho phép ta phán oán liu hai bin
có liên quan vi nhau không?
0
5
10
15
20
25
30
35
0 5 10 15 20 25
Series1
General Linear Model: tGeneral Linear Model: t test test vàvà rr
Thy khác nhau nhưng tht ra t-test là trưng hp c
bit ca phép kim h s tương quan
Bin 1: i lưng ph thuc
Bin 2: Bin tách i tưng thành 2 nhóm
General Linear Model: tGeneral Linear Model: t test test vàvà rr
Gi thit nghiên cu ca t: Các trung bình khác nhau
Gi thit nghiên cu ca r: r ≠ 0
Nu r ≠ 0 thì các trung bình phi khác nhau
General Linear Model: General Linear Model:
ANOVA ANOVA vàvà HHồồii quyquy bbộộii
• Nu t là trưng hp c bit ca phép kim h s
tương quan thì ANOVA cũng có th là trưng hp
c bit ca phép kim cho hi quy bi
• Vì t-test là trưng hp c bit ca F-test khi s
nhóm là hai, F cũng có th kim h s tương quan

SW388R6
Data Analysis and
Computers I
Slide 112
DùngDùng Recode trong SPSS Recode trong SPSS ññểể ttạạoo
cáccác bibiếếnn gigiảả
Chn Recode >
Into Different
Variables t
Transform menu.
CácCác bibiếếnn gigiảả chocho bibiếếnn classclass
Các ñi tưng trưc ñây
có mã là 2 trong bin
Class bây gi nhn giá
tr 0  mi bin dummy
Các ñi tưng trưc ñây
có mã là 3 trong bin
Class gi ñây nhn giá
tr 1 trong bin
middleClass và 0  các
bin dummy khác
Các ñi tưng trưc ñây có mã là 4
trong bin Class gi ñây nhn giá
tr 1 trong bin upperClass và 0 
các bin dummy khác
Các ñi tưng trưc ñây có
mã là 1 trong bin Class
gi ñây nhn giá tr 1
trong bin lowerClass và 0
 các bin dummy khác

ANOVA ANOVA vàvà HHồồii quyquy bbộộii

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Phương pháp nghiên cứu và phân tích dữ liệu - Pdf 12

Tài liệu, ebook tham khảo khác

Học thêm