131
CHƯƠNG TÁM
8
PHÂN TÍCH VÀ DIỄN GIẢI DỮ LIỆU
TRONG NGHIÊN CỨU MARKETING
NỘI DUNG CHÍNH Nội dung chương này bàn đến bao gồm:
- Thế nào là giả thuyết nghiên cứu
- Các loại sai lầm khi thực hiện kiểm định giả thuyết
- Các bước giải quyết một bài toán kiểm định
- Các phương pháp kiểm định tham số
- Các phương pháp kiểm định phi tham số
là số thực. Tất nhiên điều giả định θ = θ
0
này có thể đúng
hoặc có thể sai, do đó cần phải kiểm tra lại giả định đó. Từ đó ta có giả thiết cần kiểm định là
{H
0
: θ = θ
0
}.
Các giả thiết đối (đối thiết)
Vì giả thiết H
0
cũng có thể đúng và cũng có thể sai với một độ tin cậy nào đó, khi giả thiết H
0
sai
thì ta phải bác bỏ nó. Khi đó phải chấp nhận một trong ba giả thiết đối (ký hiệu: H
1
) sau đây:
- Trong trường hợp kiểm định dạng "hai đuôi" (Two-tail test):
⎩
⎨
⎧
≠
=
01
00
: H
:
θθ
θθ
, ta cần phát
biểu kèm một giả thiết đối H
1
để khẳng định rằng nếu như giả thiết H
0
bị bác bỏ thì ta chấp nhận
giả thiết đối kèm theo với một mức ý nghĩa α nào đấy (1- α được gọi là độ tin cậy).
Các loại sai lầm
Chú ý rằng, vì mẫu không phải là hình ảnh chính xác của tổng thể, nên mọi mẫu chọn được đều
chứa một sai số ngẫu nhiên nào đó. Do vậy, khi dựa vào mẫu để kiểm định giả thiết có thể gặp
ph
ải hai loại sai lầm sau:
- Sai lầm loại 1: Khi ta bác bỏ một giả thiết đúng.
- Sai lầm loại 2: Khi ta thừa nhận một giả thiết sai.
132
Trong khi tiến hành kiểm định, người ta thường ấn định trước một xác suất mức sai lầm loại 1.
Nếu xác suất này bằng α, thì α được gọi là mức ý nghĩa của kiểm định (thông thường α phải khá
bé, α = 0,05, α = 0,1).
Giả thiết H
0
đúng Giả thiết H
0
sai
Chấp nhận
Quyết định đúng
Sai lầm loại 2 (xác suất β)
Bác bỏ
Sai lầm loại 1 (xác suất α)
Quyết định đúng
của thống kê K mà lại thấy giá trị k
qs
∈W
α
, thì điều này sẽ mâu thuẫn với điều kiện nói trên.
Nguyên nhân sinh ra mâu thuẫn giữa lý thuyết và thực tế là do ta giả thiết rằng H
0
đúng. Để tránh
mâu thuẫn này ta phải bác bỏ giả thiết, vì thế W
α
được gọi là miền bác bỏ và k
qs
được gọi là tiêu
chuẩn kiểm định.
Chú ý:
- Khi giả thiết H
0
đúng thì tiêu chuẩn kiểm định K vẫn có thể nhận giá trị k
qs
∈W
α
với xác suất
xảy ra là α. Vì vậy trong trường hợp k
qs
∈W
α
mà ta bác bỏ giả thiết H
0
thì ta có thể mắc sai
lầm loại 1, với xác suất mắc sai lầm loại 1 chính là α.
.
Nếu tồn tại một tiêu chuẩn kiểm định k
qs
với miền bác bỏ W
α
sao cho (1-β) là nhỏ nhất và β lớn
nhất. Khi đó k
qs
được gọi là tiêu chuẩn kiểm định mạnh nhất. Một tiêu chuẩn được coi là mạnh
nhất thì nó đảm bảo 3 yêu cầu:
- Xác suất mắc sai lầm loại 1 là α qui định trước.
- Xác suất mắc sai lầm loại 2 là nhỏ nhất.
- Khi bác bỏ giả thiết H
0
thì ta có thể thừa nhận giả thiết đối H
1
.
Như vậy chúng ta có thể xác định miền bác bỏ và miền chấp nhận trong các trường hợp kiểm
định một đuôi và hai đuôi là:
- Trong kiểm định hai đuôi:
133
134
- Trong kiểm định một đuôi: Các bước chung để giải bài toán kiểm định
Bước 1: Phát biểu giả thiết và đối thiết
01
00
: H
:
θθ
θθ
H
Bước 2: Xác định mức ý nghĩa và xây dựng miền bác bỏ
+ Mức ý nghĩa α
+ Miền bác bỏ (tùy thuộc vào phương pháp kiểm định, loại phân phối và mức ý nghĩa).
Bước 2: Lựa chọn phương pháp kiểm định và loại phân phối của nó.
Bước 4: Tính giá trị quan sát của tiêu chuẩn kiểm định k
qs
Bước 5: So sánh với miền bác bỏ để kết luận:
Miền bác bỏ
Miền chấp nhận
W
1-α
Miền bác bỏ
Miền chấp nhận
-W
1-α
Miền bác bỏ
Miền bác bỏ
Miền chấp nhận
W
1-α/2
-W
1-α/2
Kiểm định giả thiết về tham số trung bình µ của tổng thể
Điều kiện: Biến định lượng và phân phối của biến phải tuân theo quy luật phân phối chuẩn.
Trường hợp đã biết phương sai (
σ
2
) hoặc độ lệch chuẩn của tổng thể
Đối với trường hợp kiểm định giả thiết về tham số trung bình của tổng thể, chúng ta có thể thực
hiện thông qua các bước sau:
B1: Phát biểu giả thiết và đối thiết:
Đối xứng Phải Trái
Giả thiết
H
0
: µ = µ
0
H
0
: µ ≤µ
0
H
0
: µ ≥ µ
0
Đối thiết
H
1
: µ ≠ µ
0
H
1
⎬
⎫
⎪
⎩
⎪
⎨
⎧
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
==
−
αα
σ
µ
1
0
,U
nx
UW
hay
2
1
α
, chấp nhận H
1
với
µ < µ
0
.
Chúng ta so sánh k
qs
với W
α
để đưa ra kết luận
Để tiện cho việc theo dõi, có thể tóm lược những bước của bài toán kiểm định tham số trung bình
ở trên như bảng sau:
0
H
1
: µ < µ
0 2. Xác định mức ý nghĩa
3. Phương pháp kiểm nghiệm: Tham số trung bình tổng thể
4. Tiểu chuẩn kiểm định:
(khi chưa biết σ thay bằng s’)
5. Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái
Điểm tới hạn
- U
1-α/2
và U
1-α/2
U
1-α
- U
1-α
Miền bác bỏ
U<- U
1-α/2
và U>U
1-α/2
U>U
)(
0
−
=≡
Ví dụ: Trọng lượng một loại sản phẩm do nhà máy sản xuất là đại lượng ngẫu nhiên tuân theo
qui luật phân phối chuẩn, có trọng lượng qui định là 20kg và độ lệch chuẩn là 2kg. Có ý kiến cho
rằng: Do thiết bị hoạt động không ổn định nên trọng lượng sản phẩm đã thay đổi, người ta tiến
hành kiểm tra 100 sản phẩm và đo được trọng lượng trung bình là 20,35kg. Với mức ý nghĩa
α
=
0,05. Hãy kết luận xem trọng lượng của sản phẩm đã thay đổi chưa? Cho biết U
0,975
=1,96.
Giải: Gọi X là trọng lượng sản phẩm do nhà máy sản xuất. Theo giả thiết X là đại lượng ngẫu
nhiên tuân theo qui luật phân phối chuẩn, trong đó
σ
= 2(kg), M(X) = 20(kg).
Ta có bài toán kiểm định giả thiết về giá trị tham số
µ
của qui luật phân phối chuẩn.
B1. Phát biểu giả thiết:
H
0
:
µ
=
µ
0
−
−
=≡
σ
µ
nx
Uk
qs
B5. Xác định miền bác bỏ và kết luận:
Với mức ý nghĩa
α
= 0,05, miền bác bỏ tương ứng trong trường hợp này có dạng:
()
⎪
⎭
⎪
⎬
⎫
⎪
⎩
⎪
⎨
⎧
==≥
−
==
−
96,1,
975,0
):
Đối với trường hợp chưa biết phương sai tổng thể, cần phải xem xét hai trường hợp sau:
a. Trường hợp mẫu nhỏ n<30
Trong trường hợp chưa biết phương sai, các giả thiết và đối thiết cũng giống như trường hợp đã
biết phương sai. Tuy nhiên, để tính toán giá trị kiểm định, cần phải tìm độ lệch chuẩn điều chỉnh
(s’) của mẫ
u để tiến hành phân tích. Vì mẫu khá nhỏ (n<30), có thể giả định hàm phân phối tuân
theo hàm T-student. Khi đó, tiêu chuẩn kiểm định được chọn là:
( )
'
0
s
nx
Tk
qs
µ
−
=≡
Với
x
là trung bình mẫu và s’ là độ chênh lệch chuẩn điều chỉnh của mẫu.
Với mức ý nghĩa α, miền bác bỏ:
()
()
⎪
⎭
⎪
⎬
⎫
, chấp nhận H
1
(hay µ ≠ µ
0
).
()
1−
≥
n
TT
α
hoặc P(T)<2α Æ bác bỏ H
0
, chấp nhận H
1
(hay µ > µ
0
).
()
1−
−≤
n
TT
α
hoặc P(T)<2α Æ bác bỏ H
0
, chấp nhận H
1
(hay µ < µ
0
= 150
H
1
:
µ
<
µ
0
B2. Xác định mức ý nghĩa
α
=0,05
B3. Phương pháp kiểm định: Đây là trường hợp kiểm định một đuôi bên trái với mẫu nhỏ,
σ
chưa biết.
B4. Tính tiêu chuẩn kiểm định:
Tiêu chuẩn kiểm định là :
167,4
6
25)150145()(
'
−=
−
=
−
=≡
s
nx
Tk
Miền bác bỏ
-2,49
-4,167
Kết luận: Vì k
qs
∈
W
α
nên chúng ta bác bỏ giả thiết H
0
và chấp nhận đối thuyết H
1
, nghĩa là lời
tuyên bố rằng tuổi thọ trung bình của loại bóng đèn trên thấp nhất là 150 giờ là sai.
b. Trường hợp mẫu nhỏ n≥30
Nếu kích thước mẫu n ≥ 30, khi đó giá trị
( )
1n
2
T
−
α
sẽ tiến đến giá trị U
α/2
, khi đó tiêu chuẩn kiểm
định trong trường hợp này là:
( )
'
0
= 75
H
1
:
µ
>
µ
0
=
75
B2. Chọn mức ý nghĩa
α
=0,05
B3. Xác định phương pháp kiểm đinh: Đây là bài toán kiểm định tham số trung bình,
σ
chưa biết,
mẫu lớn hơn 30
B4. Tính giá trị kiểm định
( )
2363,6
8
350)7582(
,
0
=
−
=
−
=≡
UUU
s
nx
UW
αα
µ
Với mức ý nghĩa 5%,vì U
1-
α
=1,645
1,645 6,2363
Miền bác bỏ
Kết luận: Vì k
qs
∈
W
α
nên giả thiết H
0
bị bác bỏ, ta kết luận rằng với việc cải tiến các dịch vụ,
công ty thiết bị viễn thông ATC đã làm cho thỏa mãn khách hàng ở mức độ cao hơn trước
Kiểm định giả thiết tham số tỷ lệ
Trong một số trường hợp, chúng ta cần kiểm định giả thiết về tham số tỷ lệ của các phần tử loại
A (loại phần tử
mà chúng ta muốn nghiên cứu) trong tổng thể (P), gọi f
n
là tỷ lệ của phần tử loại
A có trong mẫu và P
0
B4. Tính giá trị kiểm định:
()
()
00
0
1 PP
nPf
Uk
n
qs
−
−
=≡
B5. Miền bác bỏ và kết luận:
139
Với α cho trước, ta có miền bác bỏ W
α
là:
()
()
⎪
⎭
⎪
⎬
⎫
⎪
⎩
⎪
⎨
−
−≤
1
UU kiểm định phía trái - bác bỏ H
0
và chấp nhận H
1
(hay P < P
0
).
2
1
α
−
≥ UU
kiểm định đối xứng – bác bỏ H
0
và chấp nhận H
1
(hay P ≠ P
0
).
Chúng ta so sánh k
qs
với W
α
để đưa ra kết luận
Các bước của bài toán kiểm định tham số tỷ lệ các phần tử loại A trong tổng thể được thể hiện
trong bảng sau:
1
: P ≠ P
0
H
1
: P > P
0
H
1
: P < P
0
2. Xác định mức ý nghĩa
3. Phương pháp kiểm nghiệm tham số tỷ lệ tổng thể
4. Tiểu chuẩn kiểm định: 5. Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái
Điểm tới hạn
- U
1-α/2
và U
1-α/2
U
1-α
- U
1-α
Miền bác bỏ
P<- U
1-α/2
−
−
=
Ví dụ: Giả sử một sản phẩm của công ty sản xuất vỏ xe ô tô đã chiếm được 42% thị trường.
Hiện tại, trước sự cạnh tranh của đối thủ và những điều kiện thay dổi của môi trường, ban lãnh
đạo công ty muốn kiểm tra lại xem thị phần của công ty có còn là 42% hay không. Chọn ngẫu
nhiên 550 ô tô trên đường, kết quả cho thấy 219 xe sử dụng vỏ xe của công ty. Có kết luậ
n gì ở
mức ý nghĩa 5%.
Giải: Trường hợp này ta chỉ quan tâm đến thị phần của công ty có còn là 42% hay không. Khi
đó:
B1. Phát biểu giả thiết và đối thiết:
H
o
: P = P
0
= 0,42
H
1
: P ≠ P
0
= 0,42
B2. Chọn mức ý nghĩa
α
=0,01
B3. Chọn phương pháp kiểm định: Phương pháp điểm định đối xứng tham số tỉ lệ trong tổng thể.
140
B4. Tính tiêu chuẩn kiểm định
⎨
⎧
==>
−
−
==
−
96,1,
)1(
975,0
2
1
00
0
UUU
PP
nPf
UW
n
αα
Thể hiện qua hình vẽ
141Miền bác bỏ
-1,96 -1,037
Miền bác bỏ
-1,96
: µ
x
- µ
y
≤ D
0
H
0
: µ
x
- µ
y
≥ D
0
Đối thiết
H
1
: µ
x
- µ
y
≠ D
0
H
1
: µ
x
- µ
y
> D
B5. Miền bác bỏ và kết luận: Miền bác bỏ với α cho trước :
Nếu H
1
đúng tức µ
x
- µ
y
> D
0
, khi đó W
α
:
α
σ
σ
−
>
+
−−
=
1
2
2
0
U
nn
Dyx
U
y
y
y
y
x
x
Nếu H
1
đúng tức µ
x
- µ
y
< D
0
, khi đó W
α
:
2
1
2
2
0
α
σ
σ
−
≥
+
−−
= U
nn
y
; khi đó
µ
x
,
µ
y
là các đại lượng
ngẫu nhiên phân phối chuẩn. Theo đề bài, chúng ta cần quan tâm đến việc thời gian sử dụng
trung bình của pin X có lớn hơn pin Y ít nhất là 45 phút hay không. Do vậy, B1. Giả thiết và đối
thiết:
H
0
:
µ
x
-
µ
y
≤
45
H
1
:
µ
x
-
µ
y
nn
Dyx
k
σ
σ
B5. Miền bác bỏ với
α
=0,05 cho trước :
Ta có W
α
:
28,1
90,01
2
2
0
==>
+
−−
=
−
UU
nn
Dyx
U
y
y
x
x
α
y
≥30) với giả định cả hai tổng thể X và Y phân phối chuẩn,
ta có thể dùng công thức và quy tắc trên để kiểm định và với phương sai hiệu chỉnh mẫu s’
2
x
, s’
2
y
thay cho phương sai tổng thể kể cả trường hợp phân phối tổng thể không chuẩn.
• Trường hợp kích thước mẫu nhỏ (n
x
<30; n
y
< 30):
Phương pháp kiểm định sự khác biệt của hai trung bình tổng thể (dựa trên mẫu ngẫu nhiên độc
lập) theo luật phân phối Student (chưa biết σ):
143
Trong trường hợp mẫu nhỏ (hoặc n
x
, hoặc n
y
<30, hoặc cả n
x
, n
y
<30). Chúng ta vẫn dùng s’
2
x
x
y
y
x
x
n
n
s
n
n
s
n
s
n
s
btd
1,28 0,838 B1. Giả thiết và đối thiết:
Đối xứng Phải Trái
Giả thiết
H
0
: µ
x
1
: µ
x
- µ
y
> D
0
H
1
: µ
x
- µ
y
< D
0
B2. Chọn mức ý nghĩa α
B3. Xác định phương pháp kiểm định : Phương pháp kiểm định sự khác biệt tham số trung bình
giữa hai mẫu (độc lập).
B4. Tiêu chuẩn kiểm định :
y
y
x
x
n
s
n
s
Dyx
TK
2'
α
>
+
−−
=
2
,
2
,
0
Nếu H
1
đúng tức µ
x
- µ
y
< D
0
, khi đó W
α
:
btd
y
y
x
x
T
n
s
x
T
n
s
n
s
Dyx
T
2
2
'
2
'
0
α
−<
+
−−
=
Tính hệ số quan sát, so sánh với W
α
và kết luận .
Ví dụ: Kiểm tra chiều dài trung bình của một chi tiết được chế tạo từ hai thiết bị khác nhau
một cách ngẫu nhiên, ta có : mẫu ngẫu nhiên 15 chi tiết của thiết bị thứ nhất có chiều dài trung
bình là 100 cm và độ lệch chuẩn hiệu chỉnh là 5 cm ; mẫu ngẫu nhiên 10 chi tiết của thiết bị thứ
hai có chiều daì trung bình là 110 cm và độ lệch chuẩn hiệu chỉnh là 3cm. Với mức ý nghĩa
α
=
x
- µ
y
= 0
H
1
: µ
x
- µ
y
≠ 0
B2. Chọn mức ý nghĩa
α
B3. Xác định phương pháp kiểm định: Phương pháp kiểm định sự khác biệt tham số trung bình
giữa hai mẫu (độc lập),
σ
chưa biết.
B4. Tiêu chuẩn kiểm định:
074,2
22
025,0
2
2
'
2
'
0
==≥
+
10
9
15
25
(
22
2
=
+
+
=btd
Minh họa bằng hình vẽ:
Miền bác bỏMiền bác bỏ
-
6,242
2,074-2,074 Kết luận: k
qs
∈
W
α
, ta bác bỏ giả thiết H
0
và chấp nhận đối thuyết H
1
- µ
y
≥ D
0
Đối thiết
H
1
: µ
x
- µ
y
≠ D
0
H
1
: µ
x
- µ
y
> D
0
H
1
: µ
x
- µ
y
< D
0
B2. Lựa chọn mức ý nghĩa α
: T
d
s
nDx
'
)(
0
−
=
> U
1-α
(hoặc -T
(n-1);α
nếu n<30)
Nếu H
0
: µ
x
- µ
y
< D
0
, khi đó W
α
: T
d
s
nDx
'
)(
(n-1);α/2
nếu n<30)
Tính hệ số quan sát k
qs
để so sánh với miền bác bỏ và kết luận.
Mô hình của bài toán kiểm định sự khác biệt giữa hai tham số trung bình có thể tóm lược ở biểu
sau:
145
Ví dụ: Một công ty hóa mỹ phẩm đã tiến hành một chiến dịch khuyến mãi nhằm mục đích tăng
doanh số. Để đánh giá xem việc khuyến mãi có thực sự làm tăng doanh số hay không, công ty đã
chọn ngẫu nhiên 15 cửa hàng trong hệ thống phân phối sản phẩm của mình và khảo sát sự khác
biệt về doanh số bán trong tuần lễ trước và sau chiến dịch khuyến mãi. Số liệu thu thập được thể
hiện trong bảng sau:
Doanh số trong tuần (triệu đồng)
12
38
12
69
5
69
88
9
92
26
14
70
22
60
54
20
35
21
70
1
65
79
10
90
32
19
77
29
-3
7
x
=-1.2
s’
d=
5,78
KIỂM ĐỊNH THAM SỰ KHÁC NHAU HAI TRUNG BÌNH TỔNG THỂ
(dựa trên sự phân phối từng cặp)
1. Giả thiết và đối thiết:
Đối xứng Phải Trái
Giả thiết
H
0
: µ
x
- µ
y
=D
0
H
0
: µ
x
- µ
y
≤ D
0
H
0
: µ
x
2. Xác định mức ý nghĩa
3. Phương pháp kiểm nghiệm sự khác nhau của hai trung bình tổng thể - Bảng phân
phối chuẩn hoặc T-student (nếu n<30)
4. Tiểu chuẩn kiểm định T hoặc U:
x
và s’
d
là trung bình và độ lệch chuẩn điều chỉnh của n khác biệt
5. Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái
Điểm tới hạn
- T
(n-1);1-α/2
và T
(n-1);1-
α/2
T
(n-1);1-α
- T
(n-1);1-α
Miền bác bỏ
D<- T
(n-1);1-α/2
và D>T
(n-1);1-α/2
D>T
(n-1);1-α
−
=≡
146
Với mức ý nghĩa
α
=0,05, có thể kết luận chiến dịch khuyến mãi đã làm tăng doanh số hay
không?
Giải:
Gọi
µ
x
,
µ
y
lần lượt là doanh số trung bình sau và trước khi thực hiện chiến dịch khuyến mãi,
µ
x
,
µ
y
là đại lượng ngẫu nhiên tuân theo quy luật phân phối T-student (vì n=15<30)
B1. Giả thiết và đối thiết:
H
0
:
µ
x
-
µ
x
và s’
d
là trung bình và độ lệch chuẩn của n khác biệt.
Từ số liệu trên, ta tính được
x
=-1,2 và s’
d
= 5,78. Khi đó K
qs
sẽ là:
803,0
78,5
152,1
)(
'
0
−=
−
=
−
=
d
qs
s
nDx
k
B4. Miền bác bỏ và kết luận:
Với H
1
không thuộc W
α
nên chưa có cơ sở để bác bỏ giả thiết H
0
và chấp nhận giả
thuyết đối H
1
ở mức ý nghĩa
α
=0,05, hay chiến dịch khuyến mãi của công ty vẫn chưa làm
tăng doanh số.
Kiểm định sự khác nhau giữa trung bình từ hai mẫu trở lên – Phân tích ANOVA (Gồm một
biến định lượng và một biến phân loại (biến định tính))
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều tổng thể dựa trên các trung
bình mẫu, đây là hình thức mở rộng của kiểm định T-student. Trong trường hợp biến phân loại có
nhiều hơn 2, chúng ta th
ường sử dụng phân tích phương sai (ANOVA – Analysis of variance).
Tại sao vây?, bởi vì khi sử dụng kiểm định t đối với hai mẫu độc lập, trong trường hợp biến phân
loại có 3 hoặc nhiều hơn 3 nhóm, chúng ta phải thực hiện rất nhiều cặp (k) so sánh lẫn nhau từng
đôi một, điều này dẫn đến một tình trạng là sai số của kiểm định sẽ lớn hơn rất nhiều so với mong
muốn ban
đầu. Ví dụ, mỗi một kiểm định Z hay t (kiểm định sự khác nhau tham số trung bình
giữa hai mẫu độc lập) chứa đựng một sai số dạng I, tổng sai số của dạng I đối với k đôi giá trị
trung bình bằng I=1-(1 - α)
k
. Trong một trường hợp cụ thể, giả sử chúng ta có một biến phân loại
147
với 5 giá trị lựa chọn và α = 0,05, khi đó chúng ta sẽ có 10 so sánh nếu chúng ta dùng phương
pháp kiểm định t. Sai số dạng I của kiểm định t khi đó sẽ là:
1
x
,
2
x
,…,
k
x
là giá trị trung bình của các nhóm,
x
là trung bình chung của tất cả các nhóm theo
biến định lượng đang nghiên cứu.
Gọi giá trị trung bình của các nhóm trong tổng thể là µ
1
, µ
2
,…, µ
k
thì phương pháp phân tích
phương sai sẽ cho phép chúng ta so sánh sự khác nhau giữa tham số trung bình của 2 hay nhiều
nhóm có trong mẫu để suy rộng lên tổng thể.
B1. Giả thiết và đối thiết trong phân tích phương sai một chiều được phát biểu như sau:
H
0
: µ
1
= µ
2
=… = µ
k
−=
k
i
n
j
i
ij
i
xxSSW
11
2
)(
-
Tổng các độ lệch bình phương toàn bộ (Total sum of squares): phản ánh toàn bộ biến thiên của
biến định lượng đang nghiên cứu.
148
∑∑
==
−=
k
i
n
j
ij
i
xxSST
11
2
k
i
i
xxSSG
1
2
)(
k-1
1−
=
k
SSG
MSG
MSW
MSG
F =
P(F)
Within
Groups
∑∑
==
−=
k
i
n
j
i
B5. Miền bác bỏ:
Với α cho trước, chúng ta bác bỏ H
0
nếu F>F
k-1,n-k,α
với k-1 là bậc tự do của tử số và n-k là
bậc tự do của mẫu số.
Ví dụ: Công ty A là công ty chuyên phân phối bột giặt cho thị trường Thành phố Đà Nẵng,
hiện tại công ty phân phối đến khách hàng thông qua 4 của hàng 1, 2, 3, 4. Để đưa ra những
quyết định marketing phù hợp, công ty muốn xem xét có sự khác nhau trong doanh số bán của
các cửa hàng hay không, số liệu thu thập trong một năm tại các cửa hàng được thể hiện ở bảng
sau:
ĐVT: triệu đồng
Cửa hàng số 1 Cửa hàng số 2 Cửa hàng số 3 Cửa hàng số
4
Tháng 1 120 123 112 119
Tháng 2 123 143 127 134
Tháng 3 134 132 156 245
Tháng 4 123 153 176 256
Tháng 5 132 143 145 364
Tháng 6 111 164 204 373
Tháng 7 176 174 275 367
Tháng 8 192 184 284 283
149
150
Tháng 9 145 142 195 293
Doanh số trung bình của cửa hàng số 2: 145,67 triệu
-
Doanh số trung bình của cửa hàng số 3: 173,17 triệu
-
Doanh số trung bình của cửa hàng số 4: 265,67 triệu
-
Doanh số trung bình của hàng tháng của công ty là 180,56 triệu
-
Tham số SSG = 124176,56
-
Tham số SSW = 121275,25
-
Bậc tự do k-1=3
-
Bậc tự do n-k = 44
-
Tham số MSG = 41392,18
-
Tham số MSW= 2756,25
-
Hệ số Fisher (F) = 15,01
B5. Miền bác bỏ và kết luận:
-
Ta có F
k-1;n-k;
α
= F
3;47;0,05
= 2,816
-
Y
i
= β
0
+ β
1
X
i
+ ε
i
(1)
Trong đó: X
i
là số năm làm việc của người thứ i
Y
i
là thu nhập hàng năm của người thứ i
β
0
giá trị của mô hình (giá trị của biến Y) khi giá trị của biến độc lập X bằng 0
β
1
đo lường mức độ thay đổi của biến Y khi biến X thay đổi một đơn vị
Nam lam v iec
20181614121086
Thu nhap nam (trieu)
100000
80000
60000
40000
i
i
yySSR
1
2
)
ˆ
(151
-
Gọi SSE là tổng bình phương biến động giữa giá trị thực tế và giá trị hồi quy, khi đó ta có thể
tính được
∑
=
−=
n
i
ii
yySSE
1
2
)
ˆ
(
Khi đó trung bình bình phương hồi quy sẽ là
k
SSR
=MSR
của mẫu có khuynh hướng là ước lượng lạc quan của thước đo sự phù hợp của mô
hình đối với tổng thể. Do vậy, R
2
a
(gọi là R
2
điều chỉnh) được sử dụng để phản ánh chính xác hơn
sự phù hợn của mô hình với tổng thể và:
1
)1(
2
22
−−
−
−=
kn
Rk
RR
a
Tính các hệ số trong mô hình
Ở phương trình (1) chúng ta quan tâm chú ý đến hai hệ số β
0
và β
1
, yêu cầu của mô hình hồi quy
là làm nhu thế nào để tìm được các hệ số này, chúng ta có thể thể tính toán các giá trị tương ứng
của β
0
và β
và β
1
từ các hệ số b
0
và
tham số b
1
của mẫu sao cho tổng bình phương sai số của phương trình sau đây là bé nhất:
∑∑
==
−−==
n
i
n
i
iii
xbbyeSSE
11
2
10
2
)(
Khi đó các giá trị b
0
và b
1
được tính như sau:
∑∑
∑∑∑
−=
Với
n
y
y
n
i
i
∑
=
=
1
và
n
x
x
n
i
i
∑
=
=
1152
Hệ số hồi quy chuẩn hóa (standardized regression coefficient)
Hệ số hồi quy chuẩn hóa, kí hiệu là Beta biểu hiện độ dốc của đường thẳng (tìm được theo
phương pháp bình phương bé nhất) khi cả hai biến X và Y được biểu diễn bằng thang đo chuẩn
1
trên mẫu, chúng ta sẽ suy rộng giá trị này lên tổng thể cho
các giá trị β
0
và β
1
.
Nếu đặt σ
2
e
và s
2
e
là phương sai của sai số của mẫu (e) và tổng thể (ε), ta có:
12
1
2
2
−
=
−
=
∑
=
n
SSE
n
e
s
n
s
1
2
2
2
1
2
2
2
)(
1
Khi đó độ lệch chuẩn của sai số sẽ là:
∑
=
−
==
n
i
i
e
bb
xnx
s
ss
1
2
2
2
2
11
b
s
b
T
β
−
=
153
Gọi α là mức ý nghĩa thì ta luôn luôn tìm được một khoảng tin cậy của β
1
, khi đó:
2
2
11
2
2
1
11
−−
+≤≤−
n
b
n
b
tsbtsb
αα
β
1
: β
1
> β
10
H
1
: β
1
< β
1o
B2. Xác định mức ý nghĩa α
B3. Phương pháp kiểm định: Kiểm định t-student đối với mối quan hệ giữa hai biến.
B4. Tính tiêu chuẩn kiểm định:
1
0
11
b
qs
s
b
Tk
β
−
=≡
B5. Miền bác bỏ và kết luận: Giả thiết H
0
được bác bỏ khi:
1
i
= b
0
+ b
1
xi + e
i
Với mỗi giá trị của x
i
chúng ta sẽ tìm được các giá trị dự đoán của y
i
tương ứng luôn này trong
khoảng
2n
2
1
y
ˆ
tsY
ˆ
−
α
−
± , với sai của dựa đoán sẽ là:
2
2
1
ˆ
)1(
0
thể hiện các xác suất p
i
để một quan sát nào đó thuộc về nhóm thứ i. Chúng ta
cần tính:
Tính số lượng quan sát thuộc về nhóm thứ i trong trường hợp giả thiết H0 đúng, nghĩa là tính các
giá trị mong muốn E
i
theo công thức: E
i
=n*p
i
Nhóm 1 2 … k
Σ
GT thực tế (O
i
)
XS theo H
0
Giá trị mong muốn (E
i
)
O
1
p
1
E
1
O
2
Trong đó: O
i
: tần số quan sát được trong thực tế
E
i
: tần số theo lí thuyết
df = k-1: mức độ tự do trong phép kiểm định.
k : số loại tính chất hay số khoảng đã dùng phân loại tính chất
p
i
: thông số được ước định từ số liệu thu thập được.
KIỂM ĐỊNH CHI BÌNH PHƯƠNG
(kiểm định về sự phân phối tổng thể)
1. Giả thiết và đối thiết:
Giả thiết ……………….là bằng nhau
Đối thiết ………………là khác nhau
2. Xác định mức ý nghĩa
EO
1
2
2
)(
χ155