1
PhươngPhương pháppháp ghiênghiên cứucứu
vàvà PhânPhân tíchtích dữdữ liệuliệu
CâuCâu hhỏỏii nghiênnghiên ccứứuu
2
MMụục tiêu nghiên cc tiêu nghiên cứứuu
Xác ñịnh những kết quả cần ñạt ñể trả lời
cho câu hỏi nghiên cứu
3
GiGiảả thithiếếtt
Mô tả mối quan hệ giữa các biến
Các biến phải ño lường ñược
Giả thiết phải thể hiện dưới dạng kiểm tra
ñược (xác nhận hay không xác nhận)
◦ Nếu giả thuyết ñược xác nhận => ñóng góp vào
khám phá của ñề tài
◦ Nếu giả thuyết không ñược xác nhận =>tìm hiểu
xem nhân tố nào là quan trọng cần nghiên cứu
thêm
4
TTổổngng quanquan lýlý thuythuyếếtt
((Literature Review)Literature Review)
Vấn ñề quan tâm ñã ñược nghiên cứu trước
ñây chưa và kết quả như thế nào.
Liệu có thể phát triển thêm từ công trình ñã có.
Các chuyên gia ñánh giá phần này dựa trên:
◦ Tính logic trong lập luận
◦ Tính ñầy ñủ trong tham khảo các ñề tài ñã có
◦ Tính liên quan ñến mục tiêu nghiên cứu
5
TTổổngng quanquan lýlý thuythuyếếtt
Xác định các kiến nghị
Báo cáo nghiên cứu
Quyết định
quản lý
Hoạch định phân tích sơ bộ
Điều chỉnh giả thiết
Trình bày bằng biểu đồ
Kiểm định các giả thiết
Thu thập và chuẩn bị
thông tin
Các loCác loạại phân tích di phân tích dữữ liliệệuu
Phân tích dữ liệu ñể khám phá (EDA)
◦ Dữ liệu hướng dẫn lựa chọn phân tích - hay
xem lại phân tích ñã dự kiến
Phân tích dữ liệu ñể khẳng ñịnh (CDA)
◦ Gần với suy lý thống kê cổ ñiển qua sử dụng
ñộ tin cậy và mức ý nghĩa
◦ Có thể sử dụng thông tin từ bộ dữ liệu có
liên quan mật thiết hay xác nhận giá trị các
kết quả tìm thấy qua thu thập và phân tích
dữ liệu mới
10
PHAÂN TÍCH DỮ LIEÄU
ĐEÅ KHAÙM PHAÙ (EDA)
206 0 10
43,5% ,0% 2,1%
157 27 74
33,1% 5,7% 15,6%
Female
Male
Biểu đồ
◦ Trình bày tất cả các khoảng trong phân
phối, kể cả khơng có giá trị quan sát
◦ Khảo sát dạng của phân phối về độ lệch,
độ nhọn
15 16
Stem width: 10000
Each leaf: 3 case(s)
Frequency Stem & Leaf
33 1 . 56667789999
110 2 . 00001111111222222222333334444444444
115 2 . 555555556666666667777777778888889999999
80 3 . 000000000001111112233333444
32 3 . 55556677889
20 4 . 0001233
12 4 . 5678
12 5 . 0124
7 5 . 556
53 Extremes (>=56750)
Current Salary Current Salary
StemStem andand Leaf PlotLeaf Plot
17
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii
Box-plot
◦ Hộp chữ nhật chứa 50% giá trị của dữ liệu
◦ Vạch đứng trên hộp diễn tả trung vị
◦ Các đoạn mở rộng về bên phải và trái kết
thúc với giá trị lớn nhất và nhỏ nhất
18
% within Gender
% within Employment
Category
% of Total
Count
% within Gender
% within Employment
Category
% of Total
Count
% within Gender
% within Employment
Category
% of Total
Female
Male
Gender
Total
Clerical Custodial Manager
Employment Category
Total
22
ThThốốngng kêkê mômô ttảả
Ñaëc tröng vò trí (Central
tendency)
Trung bình (Mean)
Mode
Trung vị (Median)
23
TrungTrung bìnhbình (MEAN(MEAN) & Mode) & Mode
Phõn hng trong lp,
th t lỳc sinh
Trung bỡnh
(Mean)
Quóng v
t l
D liu phự hp T l tr li, tui, mc
thớch
26
ThThngng kờkờ mụmụ tt
ẹaởc trửng phaõn taựn (Dispersion)
Variance
Standard deviation
Standard error of Mean
Min, Max
Extreme values - Outliers
Range
Quartiles
Interquartile range
Boxplot
27
ThThngng kờkờ mụmụ tt
ẹaởc trửng phaõn phoỏi (Distribution)
Phaõn phoỏi chuaồn
28
SS ủủ phõn phphõn phi chui chun (hỡnh chuụng)n (hỡnh chuụng)
Mean = median = mode
i xng qua ủim gia
uụi chuụng tip cn trc X , nhng khụng ct
29
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Statistic Std. Error
32
PHAÂN TÍCH DỮ LIEÄU
ĐEÅ XAÙC NHAÄN (CDA)
Các loCác loạại gii giảả thithiếếtt
Giả thiết không
Giả thiết khác
34
Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt
Phép kiểm hai ñuôi
Phép kiểm một ñuôi
35
Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt
Lỗi loại 1
Lỗi loại 2
36
7
KiKiểểm ñm ñịịnh vnh vớới ý nghĩa thi ý nghĩa thốống kêng kê
Phát biểu giả thiết không
Chọn phép kiểm thống kê
Chọn mức ý nghĩa α mong muốn
Tính giá trị sai biệt
Tra bảng tìm giá trị sig. tương ứng
Sig. nhỏ hơn α ⇔ Bác bỏ giả thiết không
Difference
Test Value = 14
39
IndependentIndependent sample T testsample T test
Group Statistics
258 14,43 2,979 ,185
216 12,37 2,319 ,158
Gender
Male
Female
Educational
Level (years)
N Mean
Std.
Deviation
Std. Error
Mean
Independent Samples Test
17,884 ,000 8,28 472 ,000 2,060 ,249
8,46 469,6 ,000 2,060 ,244
Equal variances
assumed
Equal variances
not assumed
Educational
Level
(years)
F Sig.
Levene's Test
for Equality of
of
Error
Standard
Difference
Mean
t ↔=⇒
+
−+
−+−
−
=
2121
2
22
2
11
21
N
1
+
−
=
2
2
2
1
2
1
21
N
S
N
S
XX
t
1N1N
)(
df
2
2
2
1
2
1
2
21
−
Mean
Paired Samples Test
$17403.48 $10,814.620 $496.732 35,04 473 ,000
Current Salary -
Beginning Salary
Mean Std. Deviation
Std. Error
Mean
Paired Differences
t df
Sig.
(2-tailed)
43
ANOVAANOVA
Phân tích phương sai (ANOVA)
◦ Phương pháp thống kê để kiểm định
giả thiết khơng về sự bằng nhau của
nhiều trung bình
◦ H: µ
1
= µ
2
= = µ
i
= = µ
n
44
ANOVAANOVA
Sum of Squares Between Groups
df = n -1
ijij
XNXNSST
45
OneOne way ANOVAway ANOVA
Descriptives - Educational Level (years)
N Mean Std. Deviation Std. Error
Clerical 363 12,87 2,333 ,122
Custodial 27 10,19 2,219 ,427
Manager 84 17,25 1,612 ,176
Total 474 13,49 2,885 ,133
ANOVA
Educational Level (years)
1622,989 2 811,495 165,2 ,000
2313,477 471 4,912
3936,466 473
Between Groups
Within Groups
Total
Sum of
Squares df
Mean
Square F Sig.
46
ANOVAANOVA
Nếu bác bỏ H: µ
1
= µ
2
= = µ
i
49
Post Hoc TestsPost Hoc Tests
Test of Homogeneity of Variances
Educational Level (years)
6,159 2 471 ,002
Levene
Statistic df1 df2 Sig.
Multiple Comparisons
Dependent Variable: Educational Level (years)
Tamhane
2,683* ,444 ,000
-4,382* ,214 ,000
-2,683* ,444 ,000
-7,065* ,462 ,000
4,382* ,214 ,000
7,065* ,462 ,000
(J) Employment
Category
Custodial
Manager
Clerical
Manager
Clerical
Custodial
(I) Employment
Category
Clerical
Custodial
Manager
Mean
◦ Một mẫu,
◦ Hai mẫu
◦ K mẫu
Nu là hai hay k mu, các quan sát ñc
lp hay có liên quan?
Thang ño là danh xưng, th t, quãng,
hay t l?
53
PhépPhép kikiểểmm Phi Phi thamtham ssốố
10
Điềiều kiệnkiện củacủa cáccác phépphép
kiểmkiểm thamtham sốsố
Các phép kiểm T dùng để so sánh trung
bình dựa trên loại dữ liệu theo thang đo
quãng (interval)
Phân phối của quan sát là phân phối chuẩn
Trên thực tế, đôi khi các điều kiện này
không thõa, hoặc ta muốn kiểm các vấn đề
khác chứ không chỉ muốn so sánh các
trung bình
55
Các gi đnh
◦ Các quan sát đc lp cho mt s phép kim
◦ Phân phi khơng cn phi chuNn
◦ Phương sai khơng cn phi đng nht
◦ Phù hp cho d liu danh xưng hay th t, có
th dùng cho c trưng hp qng và t l
PhépPhép kikiểểmm phi phi thamtham ssốố
56
ChiChi square square testtest
likelyhood-ratio chi-square, linear-by-linear
association chi-square.
59
ChiChi Square TestsSquare Tests
Chi-Square Tests
79,277
a
2 ,000
95,463 2 ,000
67,463 1 ,000
474
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value df
Asymp. Sig.
(2-sided)
0 cells (,0%) have expected count less than 5. The
minimum expected count is 12,30.
a.
gender * Employment Category Crosstabulation
157 27 74 258
206 0 10 216
363 27 84 474
male
female
gender
Total
: Hai mẫu có cùng phân phối
Moses extreme reactions:
◦ Các quan sát phải dùng thang đo thứ tư
◦ Tầm (span = max – min) của nhóm đối chứng đo
mức độ các cực trò trong nhóm thí nghiệm ảnh
hưởng đến giá trò tầm nầy khi kết hợp với nhóm
đối chứng
◦ nh hưởng càng lớn càng dễ bác bỏ H
63
TWOTWO INDEPENDENTINDEPENDENT SAMPLES SAMPLES
TESTSTESTS
H
0
: Hai mẫu có cùng phân phối
Wald-Wolfowitz runs:
◦ Các quan sát sử dụng thang đo thứ tư
◦ Hai mẫu được kết hợp lại và sắp hạng từ nhỏ đến
lớn
◦ Run là một dãy liên tiếp các giá trò trong cùng một
mẫu
◦ Nếu các mẫu có cùng phân phối thì hai nhóm phải
phân tán ngẫu nhiên qua quá trình sắp hạng,
nghóa là số runs càng nhỏ càng dễ bác bỏ H
64
TESTS FOR SEVERAL TESTS FOR SEVERAL
INDEPENDENT SAMPLESINDEPENDENT SAMPLES
H
0
: k mẫu có cùng phân phối
Kruskal-Wallis H:
j
2
jj
∈
−
+
=
∑
TESTS FOR SEVERAL TESTS FOR SEVERAL
INDEPENDENT SAMPLESINDEPENDENT SAMPLES
H
0
: k mẫu có cùng phân phối
Median:
◦ Liệt kê số trường hợp lớn hơn và nhỏ hơn trung vò
cho từng nhóm
◦ Dùng Chi-square tính sai lệch Q giữa lý thuyết và
thực tế
Jonckheere-Terpstra:
◦ Mạnh hơn Kruskal-Wallis trong trường hợp các dữ
liệu liên tục hay thang đo thứ tự
◦ J-T càng lớn càng dễ bác bỏ H
66
12
TWOTWO RELATED SAMPLES TESTSRELATED SAMPLES TESTS
H
0
: Hai mẫu liên quan có cùng phân phối
McNemar:
◦ Khi hai biến lấy giá trò nhò phân và có liên quan
Marginal Homogeneity:
◦ Mở rộng của McNemar cho trường hợp dữ kiện đa
thức (multinomial)
69
TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
H
0
: k mẫu liên quan có cùng phân phối
Friedman:
◦ Tương ứng với Two-way ANOVA
◦ k biến trong mỗi trường hợp được sắp hạng lại từ
1 tới k
◦ F
r
tính dựa trên các hạng này
◦ F
r
càng lớn càng dễ bác bỏ H
70
( )
1)-square(k-Chi F
mẫu
từng
◦ Với mỗi đối tượng ta tính tổng hạng
◦ W lấy giá trò từ 0 (không thống nhất) tới 1 (hoàn
toàn thống nhất)
71
TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
H
0
: k mẫu liên quan có cùng phân phối
Q của Cochran:
◦ Giống như F
r
của Friedman nhưng được dùng khi k
biến quan sát trên cùng đối tượng chỉ lấy giá trò
nhò phân
◦ Đây là mở rộng của phép kiểm McNemar từ 2 mẫu
ra cho trường hợp k mẫu
72
13
TómTóm tắttắt phépphép kiểmkiểm phi phi thamtham sốsố
Chi-square
ONE-SAMPLE KOLMOGOROV-SMIRNOV TEST
TWO-INDEPENDENT-SAMPLES TESTS
U của Mann-Whitney
Moses extreme reactions
Wald-Wolfowitz runs
TESTS FOR SEVERAL INDEPENDENT SAMPLES
H của Kruskal-Wallis
Median
Jonckheere-Terpstra
Correlations)
◦ Hệ số tương quan Pearson
◦ Hệ số tương quan Tau-b của Kendall
◦ Hệ số tương quan Spearman
78
14
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
Hệ số tương quan Pearson:
◦ ánh giá mức độ tương quan tuyến tính của
hai biến, lấy giá trò từ –1 đến +1
◦ Dấu chỉ chiều tương quan (nghòch hay thuận)
◦ ộ lớn cho thấy mức độ tương quan tuyến
tính nhiều hay ít
79
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
Hệ số tương quan Tau-b của Kendall:
◦ Số liệu theo thang đo thứ tự hay các biến đã
được sắp hạng lại
◦ Tau-b lấy giá trò trong khoảng [-1;+1]
◦ Ý nghóa giống như hệ số tương quan
Pearson, nhưng giá trò –1 và +1 chỉ có thể
đạt được khi bảng số liệu hai chiều là bảng
vuông.
80
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
Hệ số tương quan Spearman:
◦ Dựa trên hạng chứ không dựa trên giá trò
thực của quan sát
◦ Sử dụng khi số liệu theo thang đo thứ tự
hoặc không thỏa các giả thuyết chuẩn
Qu chăm
sóc sc khe
1 0.013
T l bnh
báo cáo
0.013 1
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hồi quy đơn (Simple Regression)
Hồi quy bội (Multiregression)
84
15
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
Hoài quy ñôn (Simple Regression)
85
P
4
XX
1
X
2
X
3
X
4
P
3
P
2
P
1
=
==
=
−
−−
−
ˆ
Y
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
86
Phân tích phương sai trong hi quy
∑
−=
2
total
YYSS )(
regressionresidualtotal
22
total
2
total
SSSSSS
YYYYSS
YYYYSS
+=
−+−=
−+−=
∑∑
∑
)()(
Sum of Squares df Mean Square F Sig.
ANOVA
b
Predictors: (Constant), Previous experience (months)
a.
Dependent Variable: Current salary
b.
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
89
H
0
: Không có tương quan tuyn tính gia hai bin
Model Summary
.097
a
.009 .007 $17,012.353
Model
1
R R Square
Adjust ed
R Square
Std. Error of
the Estimate
Predictors: (Const ant), Prev ious Experience (months)
a.
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
90
H
0
: Không có tương quan tuyn tính gia hai bin
Enter: Tất cả các biến đã chọn được đưa vào
mô hình cùng một lúc
Remove: Tất cả các biến đã chọn được đưa ra
khỏi mô hình cùng một lúc
92
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hồi quy bội (Multiregression)
Các phương pháp đưa biến vào mô hình:
Forward:
Từng biến có tương quan riêng với biến phụ
thuộc lớn nhất được lần lượt đưa vào mô
hình
Backward:
Đưa tất cả các biến đã chọn vào mô hình
Lần lượt lấy ra từng biến có tương quan
riêng với biến phụ thuộc nhỏ nhất
93
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hồi quy bội (Multiregression)
Các phương pháp đưa biến vào mô hình:
Stepwise:
Ở mỗi bước, biến độc lập chưa đưa vào mô
hình có P(F) nhỏ nhất sẽ được đưa vào
Các biến đã có trong mô hình sẽ được đưa
ra nếu P(F) của chúng tăng lên đáng kể
Quy trình kết thúc khi không còn biến nào
có thể đưa vào hay đưa ra
94
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hi quy bi (Multiregression)
thng kê có th ñưc gii quyt bng phân
tích hi quy, trong ñó có t-test và ANOVA
GLM còn hu dng hơn vì có th x lý c
thang ño quãng và ñnh danh trong mô hình
General Linear Model (GLM)General Linear Model (GLM)
General Linear Model: General Linear Model: HHồồii quyquy bbộộii
Y = a +b
1
* X
1
+ b
2
*X
2
+ b
3
*X
3
+ … + e
Trong biu thc này, im Y ca mt ngưi là tng hp
ca nhiu nh hưng:
1. nh hưng c nh ging nhau cho mi cá nhân (a)
2. nh hưng ca các bin khác ghi im khác nhau
cho tng ngưi (X
s
)
3. Các nh hưng không o lưng ưc (e)
Ví d:
Current Salary = 771 + 1.9 (Beginning Salary) ± e
General Linear Model: General Linear Model:
t-test cho phép ta phán oán liu hai trung bình có
khác nhau không?
H s tương quan cho phép ta phán oán liu hai bin
có liên quan vi nhau không?
0
5
10
15
20
25
30
35
0 5 10 15 20 25
Series1
General Linear Model: tGeneral Linear Model: t test test vàvà rr
Thy khác nhau nhưng tht ra t-test là trưng hp c
bit ca phép kim h s tương quan
Bin 1: i lưng ph thuc
Bin 2: Bin tách i tưng thành 2 nhóm
General Linear Model: tGeneral Linear Model: t test test vàvà rr
Gi thit nghiên cu ca t: Các trung bình khác nhau
Gi thit nghiên cu ca r: r ≠ 0
Nu r ≠ 0 thì các trung bình phi khác nhau
General Linear Model: General Linear Model:
ANOVA ANOVA vàvà HHồồii quyquy bbộộii
• Nu t là trưng hp c bit ca phép kim h s
tương quan thì ANOVA cũng có th là trưng hp
c bit ca phép kim cho hi quy bi
• Vì t-test là trưng hp c bit ca F-test khi s
nhóm là hai, F cũng có th kim h s tương quan
SW388R6
Data Analysis and
Computers I
Slide 112
DùngDùng Recode trong SPSS Recode trong SPSS ññểể ttạạoo
cáccác bibiếếnn gigiảả
Chn Recode >
Into Different
Variables t
Transform menu.
CácCác bibiếếnn gigiảả chocho bibiếếnn classclass
Các ñi tưng trưc ñây
có mã là 2 trong bin
Class bây gi nhn giá
tr 0 mi bin dummy
Các ñi tưng trưc ñây
có mã là 3 trong bin
Class gi ñây nhn giá
tr 1 trong bin
middleClass và 0 các
bin dummy khác
Các ñi tưng trưc ñây có mã là 4
trong bin Class gi ñây nhn giá
tr 1 trong bin upperClass và 0
các bin dummy khác
Các ñi tưng trưc ñây có
mã là 1 trong bin Class
gi ñây nhn giá tr 1
trong bin lowerClass và 0
các bin dummy khác
ANOVA ANOVA vàvà HHồồii quyquy bbộộii