CHƯƠNG 4:
KIỂM ÐỊNH PHI THAM SỐ
(Nonparametric Tests)
I. KIỂM ĐỊNH WILCOXON
II. KIỂM ĐỊNH MANN-WHITNEY
III. KIỂM ĐỊNH SỰ PHÙ HỢP
1. Kiểm định sự phù hợp trong trường hợp giả định đã biết các
tham số của tổng thể
2. Kiểm định sự phù hợp trong trường hợp các tham số tổng thể
chưa biết
IV. BẢNG TIẾP LIÊN
Trong chương 3, chúng ta kiểm định sự bằng nhau của hai trung bình tổng thể
nhưng phân phối của tổng thể được giả sử có phân phối chuẩn. Trong chương này,
kiểm định được phát triển thêm một bước, cũng với giả thuyết H0 về sự bằng nhau
của hai trung bình tổng thể nhưng phân phối của các tổng thể được giả sử có phân
phối bất kỳ. Ðây chính là thuận lợi của kiểm định phi tham số vì kiểm định loại
này phù hợp với nhiều giả định hơn về phân phối của tổng thể.
Trong nhiều tình huống thực tế, số liệu chỉ có thể biểu hiện dưới hình thức
xếp hạng, vì vậy kiểm định Wilconxon và Mann-Whitney là hai lọai kiểm định
thông dụng nhất ứng với hai trường hợp: một là sử dụng cho mẫu ngẫu nhiên gồm
các quan sát từng cặp và một dùng cho mẫu ngẫu nhiên độc lập. Hơn nữa, khi
phân phối của tổng thể được giả định không phải là phân phối chuẩn (phân
phối bất kỳ) thì kiểm định phi tham số có thể có nhiều ứng dụng hơn. Tuy nhiên,
phương pháp kiểm định phi tham số thì khó mở rộng để giải quyết các vấn đề của
mô hình kinh tế phức tạp.
Kiểm định phi tham số bạn có thể dễ dàng tìm được kết quả khi sử dụng
phần mềm phân tích SPSS, sau khi nhập sữ liệu, chọn menu Analize -
Nonparametric Tests - Chọn loại kiểm định mà bạn mong đợi.
I. KIỂM ĐỊNH WILCOXON (Kiểm định T)
Kiểm định Wilcoxon được áp dụng khi một mẫu ngẫu nhiên gồm các quan
sát từng cặp và phân phối tổng thể của chênh lệch (di) trong các cặp này thì đối
215 254 123 97 153
Sau
quảng
cáo (xi)
123 160 180 93
13
-22
57
-2 34
16
Xếp
hạng
l d
i
l
8 2 3 6,5
4 6,5
10
1 9 5
{+d
i
}
8 2
0
6,5
1. Trường hợp mẫu nhỏ (n < 10 và n1 < n2): : là số quan sát mẫu chọn ra từ
tổng thể thứ 1,
Ví dụ: Chúng ta muốn so sánh lương khởi điểm của sinh viên tốt nghiệp ở ngành
kinh tế và điện tử tin học được trả bởi các công ty như sau (100.000 đồng):
Ðiện tử tin học 15 18 27 30 24
Kinh tế 17 22 24 12 28 30 14 18 25 22
Giả thuyết H0: Trung bình lương khởi điểm của 2 ngành thì bằng nhau
H1: Trung bình lương khởi điểm ngành tin học được trả cao hơn
Trước tiên ta xếp hạng các số liệu liên tục cho cả hai ngành từ nhỏ đến lớn:
Ðiện
tử
Tin
học
1
5
18 24
2
14,
5
Kinh tế
1
2
1
4
17
18
22
22
24
2
5
13
14,
5
Chú ý: Trong xếp hạng, hạng của các giá trị trùng nhau của hai ngành cũng được
xếp bằng nhau và bằng trung bình cộng của giá trị hai hạng liên tiếp đó.
2. Trường hợp mẫu lớn (n >10):
Ví dụ: Trở lại vấn đề tiền lương khởi điểm của hai ngành kinh tế và điện tử tin
học. Mỗi ngành chọn ngẫu nhiên 80 sinh viên và sau đó tiền lương được xếp hạng
từ nhỏ đến lớn, và tổng cộng hạng được xếp cho tiền lương của hai ngành thì bằng
nhau và bằng 7.287.
Ta có : n1 = 80 n2 = 80 R1 = 7.287
Giả thuyết H0: Trung bình lương khởi điểm của hai ngành thì bằng nhau.
H1: Trung bình lương khởi điểm ngành kinh tế và điện tử tin học được
trả khác nhau.
III. KIỂM ĐỊNH SỰ PHÙ HỢP (Goodness-of-fit test)
Kiểm định sự phuùhợp là kiểm định xem giả thuyết về phân phối của tổng
thể và số liệu thực tế phù hợp (thích hợp) với nhau đến mức nào. Ở đây ta dùng
phân phối "Chi" bình phương (
2
) để so sánh trong quá trình kiểm định. Một kiểm
định
2
thường bao gồm những bước sau đây:
1. Thiết lập giả thuyết H
0
và H
Ví dú: Một công ty dự định đưa ra thị trường một sản phẩm mới với bốn màu sắc
khác nhau. Giám đốc công ty muốn tìm hiểu thị hiếu khách hàng về màu sắc sản
phẩm - thích đặc biệt một màu nào hay sở thích đối với cả bốn màu là giống nhau
ở mức ý nghĩa 1%. Một mẫu 80 khách hàng đợc chọn ngẫu nhiên. Mỗi khách hàng
được xem sản phẩm với các màu sắc khác nhau và cho biết ý kiến. Kết quả như
sau:
Trắng Nâu Xanh Đen Tổng cộng
12 40 8 20 80
· Giả thuyết H0: Sở thích đối với 4 màu là giống nhau, nghĩa là các suất khách
hàng chọn lựa một trong 4 màu bằng nhau:
p
1
= p
2
= p
3
= p
4
= 0,25.
· Giả thuyết H1 : Sở thích đối với 4 màu là giống nhau, nghĩa là xác suất
khách hàng chon lựa đối với 4 màu khơng bằng nhau
Theo giả thuyết H0 số lượng khách hàng chọn màu thứ i là Ei
= n .p
i
.
Do đó, ta có:
E
1
= E
và dùng các
xác suất giả thuyết đó để tính toán các giá trò E
i
.
2. Kiểm định sự phù hợp trong trư
ờng hợp các tham số tổng thể
chưa biết.
Ở phần (1) trang 150, ta đã thực hiện kiểm định giả thuyết về việc quan sát
được phân phối với các xác suất xác định nào đó. Khi đó, xác suất để một quan sát
rơi vào nhóm thứ i được xác định rõ khi lập giả thuyết H
0
.
Phần này sẽ đề cập đến việc kiểm định giả thuyết các quan sát tn theo
một luật phân phối nào đó - có thể là phân phối nhị thức, phân phối Poission, hay
phân phối chuẩn - trường hợp không giả định là đã biết các tham số của tổng thể
như và . Trường hợp này, ta có thể dùng cácdữ liệu thu thập được để ước
lượng tham số tổng thể.
Trước hết, dựa vào các tham số mẫu để xác định xác suất một quan sát rơi
vào nhóm thứ i theo như luật phân phối muốn kiểm định, nghĩa là xác định các pi.
Sau đó, tính các E
i
, giá trị kiểm định
2
và áp dụng qui tắc kiểm định giống như
đã nói ở phần (1). Cần chú ý rằng trong trường hợp này, số bậc tự do giảm đi 1
cho mỗi tham số tổng thể được ước lượng.
Ví dú: Một nhà nghiên cứu thống kê muốn kiểm định giả thuyết về phân phối của
số tiền chi ra của khách hàng trong một lần mua sắp ở siêu thị. Một mẫu ngẫu
nhiên 100 khách hàng được chọn cho thấy số tiền chi trung bình cho một lần mua
sắm là x = 125.000 đồng và độ lệch chuẩn s=40.000 đồng ở mức ý nghĩa 10%.
x
1
= 125+ (-1)(40) = 85
x
2
= 125+ (-0,44)(40) = 107,4
x
3
= 125+ (0)(40) = 125
x
4
= 125+ (0,44)(40) = 142,6
x
5
= 125+ (1)(40) = 165
Từ số liệu thu thập được, ta dễ dàng xác định được số lượng các quan sát rơi
vào từng nhóm, nghĩa là xác định Oi. Như vậy, ta đã xác định được các nhóm, xác
suất để một quan sát rơi vào nhóm thứ i (pi), số lượng quan sát thực tế (Oi) và số
lượng quan sát theo lý thuyết (Ei).
Từ đó, tính giá trị kiểm định
2
theo công thức:
Số liệu tính toán được trình bày trong bảng 4.1 như sau:
Bảng 4.1: Xác định giá trị kiểm định
xi (1000đđ) p
i
E
i =
(n.p
0,17
17
16 0,06
125 - 142,59
0,17
17
19 0,24
142,6 - 164,99
0,1713
17,13
16 0,07
165
15,87
15,87
15 0,05
Tổng cộng 1
100
tiêu thức với nhau, hình thành nên bảng tiếp liên gồm (r) hàng và (c) cột. Gọi O
ij
là
quan sát ứng với hàng thứ i và cột thứ j, R
i
là tổng số quan sát ở hàng thứ i, C
j
là
tổng số quan sát ở cột thứ j, n là tổng số quan sát của (r) hàng đồng thời cũng là
tổng số quan sát của (c) cột.
Bảng 4.2: Dạng tổng quát của một bảng tiếp liên kết hợp hai tiêu thức.
Phân nhóm
Phân nhóm theo tiêu thức 1
theo tiêu thức
2
1 2 3 c
1 O
11
O
12
O
13
O
1c
R
1
2 O
1
C
2
C
3
C
c
n
Để kiểm định xem có mối liên hệ giữa hai tiêu thức này không, trước hết ta lập giả
thuyết H
0
vaø H
1
· Giả thuyết H
0
: Không có mối liên hệ giữa hai tiêu thức.
· Giả thuyết H
1
: Tồn tại mối liên hệ giữa hai tiêu thức.
Nguyên tắc của kiểm định ở đây cũng giống như kiểm định sự phù hợp
(Goodness-of-Fitness) đã nói ở phần trước. Điểm khác biệt duy nhất là khi tính giá
trị kiểm định phải lấy tổng số cho tất cả các ô gồm (r) hàng và (c) cột trong bảng
tiếp liên, nghĩa là:
Giá trị kiểm định:
với số lượng quan sát lý thuyết (theo giả thuyết H
0
):Eij = R
i
C
: Tồn tại mối liên hệ giữa tuổi tác và kết quả học tập.
Số lượng quan sát lý thuyết (theo giả thuyết H
0
) E
ij
được tính toán và được để
trong dấu ngoặc đơn bên phải giá trị O
ij
. Chẳng hạn, E
11
= R
1
C
1
/ n = (288)(570) /
1140 = 144
Tương tự cách tính như trên ta có: E
42
= R
4
C
2
/n = (264) (570)/1140 = 132
Bảng 4.4: Bảng kết quả các Oij và Eij
Tuổi Kết quả học tập
Tốt Không tốt
25
198 (144) 90 (144)
26 - 35 114 (105,5) 97 (105,5)
36 - 45 166 (188,5) 211 (188,5)
thường 93% sản phẩm không có lỗi nào, 5% có một lỗi và 2% có hơn một lỗi. Từ
một mẫu 500 sản phẩm được lấy ngẫu nhiên từ sản phẩm được sản xuất ra trong
tuần, người Quản đốc thấy có 458 sản phẩm không có lỗi. Ông cho rằng chất
lượng của những sản phẩm sản xuất ra trong tuần giống như trong điều kiện sản
xuất bình thường. Hãy kiểm định nhận định trên của ông ở mức ý nghĩa 5%?
3. Một công ty đang xem xét việc đặt tên cho một sản phẩm mới. Trước khi quyết
định chọn một trong 5 tên được đề nghị, giám đốc muốn kiểm định xem phải
chăng cả 5 tên đều có sức hấp dẫn bằng nhau đối với khách hàng. Mẫu 100 khách
hàng được chọn ngẫu nhiên và được yêu cầu cho biết ý kiến về một tên cho sản
phẩm mà họ thích nhất, kết quả như dưới đây. Hãy kiểm định giả thuyết nói trên ở
mức ý nghĩa 5%?
Tên sản phẩm: A B C D E
Lượng khách hàng chọn: 4 12 34 40 10
4. Một nhà phân tích thống kê muốn xem xét mối quan hệ giữa giới tính và việc
chọn lựa các nhãn hiệu nước giải khát. Một mẫu 330 người được chọn ngẫu nhiên
và kết quả như sau:
Sự chọn lựa nhãn hiệu
Giới tính Coke Pepsi 7up Tribeco
Tổng cộng
Nam 55 32 47 21 155
Nữ 60 43 35 37 175
Tổng
cộng
115 75 82 58 330
Hãy kết luận về mối quan hệ nói trên ở mức ý nghĩa 5%?
7. Lương khởi điểm của sinh viên tốt nghiệp bằng MBA từ hai trường kinh doanh
nổi tiếng được đem ra so sánh. Những mẫu ngẫu nhiên độc lập gồm 30 sinh viên
từ mỗi trường được chọn ra để phỏng vấn. Sáu mươi mức lương được đánh giá
xếp hạng. Tổng hạng được xếp của một trong hai trường này là 1243. Hãy kiểm
định giả thuyết H0 rằng phân phối của hai tổng thể thì bằng nhau?