CÁC PHƯƠNG PHÁP KIỂM ĐỊNH PHI THAM SỐ
Kiểm định phim tham số là các loại kiểm định ít đòi hỏi các giả thiết về phân phối của dữ kiệnn.
Thông thường, kiểm định phí tham số phù hợp nhất trong các trường hợp chúng ta không thể
dùng các kiểm định tham số ví dụ dữ liệu mà chúng ta thu thập là loại dữ liệu định tính (biểu
danh hay thứ tự) hoặc khi các dữ liệu thuộc thang đo lường kho
ảng cách (interval) nhưng khi
kiểm định phân phối chuẩn không thỏa. Trong những trường hợp như vậy, chúng ta thường sử
dụng phương pháp kiểm định phi tham số. Trong phần này sẽ đề cập đến những kiểm định sau:
Kiểm định hai mẫu phụ thuộc (Dấu, Wilcoxon, Nemar)
Ở phần kiểm định tham số ta đã đề cập đến việc so sánh trung bình của hai tổng thể với giải định
tổng thể phân phối chuẩn và có phương sai bằng nhau. Khi các điều kiện này không thỏa mãn ta
thực hiện kiểm định dấu.
Ứng dụng: Dữ liệu mẫu từng cặp phối hợp, tổng thể không phân phối chuẩn và có thể phương sai
khác nhau. Việc kiểm định dấu thường được dùng khi phân tích dự liệu từ mẫu phối hợp. Tuy
nhiên, người ta ít dùng kiểm định dấu do nói không làm sáng tỏ được giá tr
ị của khác biệt, kết
quả không thuyết phục lắm nên người ta thường thực hiện kiểm định Wilcoxon.
Trường hợp mẫu nhỏ (n<30)
Cách thức thực hiện kiểm định Wilcoxon trong trường hợp mẫu nhỏ như sau:
: µ
1≥ µ
2
Đối thiết
H
1
: µ
1
≠ µ
2
H
1
: µ
1> µ
2
H
1
: µ
1
< µ
2
2. Xác định mức ý nghĩa σ
3. Phương pháp kiểm nghiệm Wilcoxon - Phân phối Wilcoxon.
BB
W
2
α
BB
W
α
BB
W
α
B2. Chọn mức ý nghĩa α
B3. Phương pháp kiểm định : Phương pháp kiểm định Wilcoxon
B4. Tính tiêu chuẩn kiểm định :
-
Xếp hạng giá trị tuyết đối các chênh lệch D theo thứ tự tăng dần, các giá trị bằng nhau sẽ nhận
hàng trung bình (bỏ qua các trường hợp chênh lệch bằng 0).
159
-
Tính tổng cộng hạng. Giá trị W của kiểm định là: W= min [Σ(+), Σ(-)]
B5. Tham chiếu với giá trị ở bảng Wilconxon trong bảng phân phối, so sánh với giá trị kiểm định
để đưa ra kết luận.
Ví dụ: Mẫu 9 khách hàng được chọn ngẫu nhiên và yêu cầu họ cho biết sở thích của họ về hai
loại kem đánh răng A, B khác nhau thông qua một thang điểm từ 1 (rất không thích) đến 5 (rất
thích). Kết quả như sau:
=W
0,1
= 4
Miền bác bỏ
W
2
α
=4
W=3 Vì W<W
2
α
nên ta chưa có cơ sở để bác bỏ H
0
tức là chưa có cơ sở để chứng minh có sự khác
biệt trong ưa chuộng của người tiêu dùng giữa sản phẩm A, B trong tổng thể
Trường hợp mẫu lớn (n
≥
30)
Trong trường hợp mẫu lớn, dùng phân phối chuẩn thay thế cho phân phối của kiểm định
Wilcoxon. Giá trị trung bình và phương sai của hai mẫu được tính: 160
24
)12)(1(
4
)1(
(mẫu lớn)
1. Giả thiết và đối thiết:
Đối xứng Phải Trái
Giả thiết
H
0
: µ
1
= µ
2H
0
: µ
1≤ µ
2
H
0
: µ
1≥ µ
2
Đối thiết
H
µ
−
=≡
5. Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái
Điểm tới hạn
U
1-α/2
U
1-α
U
1-α
Miền bác bỏ
Z <U
1-α/2
Z < -U
1-α
Z <U
1-α
Mô hình
BB
U
1-
α
/2
BB
=0,05
B3. Lựa chọn phương pháp kiểm định : Kiểm định Wilcoxon với tham chiếu là tham chiếu phân
phối chuẩn (Z) vì n=50>30
B4. Tính tiêu chuẩn kiểm định
Với mẫu n=50 ta có:
161
5,673
4
)49(50
4
)1(
==
+
=
nn
T
µ25,10731
24
101*51*50
24
)12)(1(
2
==
++
=
Kiểm định không yêu cầu các giả định về hình dạng của phân phối, nó được dùng để các giả thiêt
về hai mẫu độc lập có xuất phát từ hai tổng thể có phân phối có thể không giống nhau. Kiểm định
này gần giống như kiểm định wilconxon vì các biến phải có thể xếp hạng (trong kiểm định
wilcoxon ta phải xét cả dấu và hạng còn trong kiểm định Mann-Whitney U ta chỉ xét thứ hạng mà
không cần xét dấu. Tình huống và kết quả được mô tả ở phần SPSS.
Kiểm định nhiều hơn hai mẫu
độc lập (Kruskal-Wallis H)
Giả sử rằng chúng ta có các mẫu ngẫu nhiên độc lập gồm k quan sát, nếu ta sắp xếp các quan sát
này thành từng nhóm mà mỗi nhóm có phân phối tuân theo quy luật phân phối chuẩn và phương
sai của chúng bằng nhau thì chúng ta có thể dùng phương pháp kiểm định tham số (ANOVA) để
phân tích.
Tuy nhiên, có một số trường hợp, mẫu không thoải mãn những điều kiện để sử dụng ANOVA thì
chúng ta sử dụng phương pháp kiểm định phi tham số vớ
i phương pháp Kruskal-Wallis.
Từ tổng thể n quan sát ta sắp xếp các hạng một cách liên tục từ nhỏ đến lớn, nếu giá trị quan sát
trùng nhau thì hạng xếp giống nhau bằng cách dùng số trung bình cộng các hạng của chúng.
Gọi R
1
, R
2
,..., R
k
là tổng của các hạng được xếp theo thứ tự, khi đó từ n quan sát ta có của k
nhóm.
B1. Giả thiết và đối thiết
H
0
: µ
1
= µ
12
B5. Miền bác bỏ và kết luận :
162
Trong trường hợp này chúng ta dùng phân phối Chi bình phương với bậc tự do là k-1, khi đó
chúng ta sẽ bác bỏ H
0
nếu .
2
,1k
W
α−
χ>
XỬ LÍ DỮ LIỆU CÙNG SPSS
KIỂM ĐỊNH THAM SỐ
Kiểm định t đối với tham số trung bình mẫu
Như chúng ta đã biết, thu nhập trung bình của các đối tượng phỏng vấn là 33,224 triệu/năm, có
giả thiết cho rằng thu nhập của đối tượng mà chúng ta phỏng vấn trên tổng thể là 32 triệu/năm,
chúng ta cần kết luận nhận định đó có đúng không.
Khi đó, giả thiết củ
a bài toán là:
H
0
: µ = µ
0
= 32 (triệu) và H
1
: µ ≠ µ
Thu nhap nam (trieu)
t df
Sig.
(2-tailed)
Mean
Difference
Lower Upper
95% Confidence Interval of the
Difference
Test Value = 32000
Giá trị t-student
= 1,34
Giá trị p-value
=0,182>0,05 & Tại các biểu trên, ta có thể biết giá trị trung bình, độ lệch chuẩn của mẫu. Ngoài ra t=1,34 nên
p-value=0,182>0,05 nên chúng ta chưa có cơ sở để bác bỏ H
0
hay chưa có cơ sở để chấp nhận H
1
.
Kiểm định tham số trung bình hai mẫu (hai mẫu độc lập)
Giả sử ta muốn so sánh thu nhập trung bình giữa những người có giới tính nam và nữ trên tổng
thể có khác nhau hay không, ta có giả thiết:
H
0
: Thu nhập trung bình của người nam và người nữ bằng nhau trên tổng thể
H
Equal variances
assumed
Equal variances
not assumed
Thu
nhap
nam
(trieu)
F Sig.
Levene's
Test for
Equality of
Variances
t df
Sig.
(2-ta
iled)
Mean
Difference
Std. Error
Difference
Lower Upper
95% Confidence
Interval of the
Difference
t-test for Equality of Means
Trung bình người có
giới tính là Nam
Trung bình người có
Kiểm định tham số trung bình hai mẫu (hai mẫu phụ thuộc)
& Nhấn Analyze – Compare Means – Paired sample t-test. Chọn biến cần phân tích vào ô
Paired Variables.
Nhấn Option để thiết đặt
độ tin cậy
(giả sử độ tin cậy là 95%)
& Kết quả:
Paired Samples Statistics
42.9333 15 30.6419 7.9117
44.1333 15 28.1422 7.2663
TRUOCQC
SAUQC
Pair
1
Mean N Std. Deviation Std. Error Mean
Paired Samples Test
-1.200 5.7842 1.4935 -4.4032 2.0032 -.803 14 .435
TRUOCQC - SAUQCPair 1
Mean
Std.
Deviation
Std.
Error
Mean
Lower Upper
95% Confidence
Interval of the
H
1
: Thu nhập trung bình của người làm trong lĩnh vực dịch vụ - thương mại, xây dựng và công
nghiệp không bằng nhau (có nghĩa là tồn tại ít nhất một thu nhập trung bình của một ngành
khác với ít nhất một thu nhập trung bình của hai ngành còn lại)
& Nhấn Analyze – Compare Means – One-way ANOVA.
& Chọn biến cần phân tích (định lượng) vào ô Dependent List và biến phân loại vào ô Factor 166
& Nhấn Post Hoc để chọn loại kiểm định nhằm xác định cụ thể sự khác biệt giữa các nhóm
(nhóm nào khác với nhóm nào). Chúng ta có thể chọn Bonferroni hoặc Tukey’s-b (hai thống kê
này đều cho ra cùng một kết quả).
& Nếu phương sai giữa các nhóm cần so sánh không bằng nhau, chúng ta chọn Tamhane’s T2
(ứng dụng cho kiểm định t từng cặp nếu phương sai của chúng không bằng nhau).
& Nhấn Continue, nhấn Option để thiết đặt các lựa chọn.
& Trong đó Homogeneity-of-variance để kiểm định sự bằng nhau phương sai các nhóm, Means
plot để làm cho hình minh họa.
Test of Homogeneity of Variances
Thu nhap nam (trieu)
.414 2 197 .661
Levene Statistic df1 df2 Sig.
& Vì Sig. >0,05 nên ta có thể khẳng định là phương sai của các nhóm là bằng nhau, thỏa mãn
điều kiện của phân tích ANOVA.
167
ANOVA
Giả sử chúng ta mong muốn tìm mối tương quan giữa hai biến năm làm việc (biến độc lập) và thu
nhập hàng năm (biến phụ thuộc) trên tổng thể, chúng ta sẽ thực hiện như thế nào.
& Vẽ sơ đồ, kiểm tra bằng thị giác mối quan hệ
& Vào Graphs, nhấn Scatter 168
& Chọn Simple và bấm Define
& Chọn các biến vào ô Y Axis (biến phụ thuộc) và X Axis (biến độc lập), bấm OK
Nam lam viec
20181614121086
Thu nhap nam (trieu)
100000
80000
60000
40000
20000
0
& Chúng ta có thể xem đường hồi quy lí thuyết của dãy dữ liệu bằng cách click hai lần vào
chuôt.
& Sau khi một màn hình mới hiện ra, vào Chart – Option, hội hội thoại tiếp theo sẽ hiện ra –
Bấm OK – Hội hội thoại sẽ là:
169