BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
MỤC LỤC
BÀI 1:Trình bày lại ví dụ 3.4 trang 161 và ví dụ 4.2 trang 171 Giáo Trình
XSTK 2009 2
Bài 2: Có 4 báo cáo viên A, B, C, D nói về cùng một chủ đề. Sau đây là thời
gian tính bằng phút mà mỗi báo cáo viên đó sử dụng trong 5 buổi báo cáo ở
các địa điểm khác nhau: 11
Bài 3: 17
Bài 4.Lượng sữa vắt được bởi 16 con bò cái khi cho nghe các
lọai nhạc khác nhau (nhạc nhẹ, nhạc rốc, nhạc cổ điển, không có
nhạc) được thống kê trong bảng sau đây: 25
Bài 5. Hãy phân tích sự biến động của thu nhập ($/tháng/người)
trên cơ sở số liệu điều tra về thu nhập trung bình của 4 loại ngành
nghề ở 4 khu vực khau nhau sau đây: 28
A. KHÁI NIỆM THỐNG KÊ: 28
B. THUẬT TỐN: ÁP DỤNG ANOVA TWO- FACTOR WITHOUT
REPLIATION 30
SVTH: BÙI DUY KHANH Trang 1
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
BÀI 1:Trình bày lại ví dụ 3.4 trang 161 và ví dụ 4.2 trang 171 Giáo Trình
XSTK 2009.
GIẢI
• Ví dụ 3.4
Hiệu suất phần trăm (%) của một phản ứng hoá học được nghiên cứu
theo ba yếu tố pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày
trong bảng sau:
Yếu tố
A
Yếu tố B
B1 B2 B3 B4
Chọn ô B7 nhập biểu thức =SUM(B2:E2)
Chọn ô C7 nhập biểu thức =SUM(B3:E3)
Chọn ô D7 nhập biểu thức =SUM(B4:E4)
Chọn ô E7 nhập biểu thức =SUM(B5:E5)
- Các giá trò T.j.
Chọn ô B8 nhập biểu thức =SUM(B2:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 đến ô E8.
- Các giá trò T k
Chọn ô B9 nhập biểu thức =SUM(B2,C5,D4,E3)
Chọn ô C9 nhập biểu thức =SUM(B3,C2,D5,E4)
Chọn ô D9 nhập biểu thức =SUM(B4,C3,D2,E5)
Chọn ô E9 nhập biểu thức =SUM(B5,C4,D3,E2)
- Giá trò T…
Chọn B10 và nhập biểu thức =SUM(B2:E5)
Tính các giá trò
G
và
G
Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 đến G9.
- Giá trò
G
Chọn ô G10 và nhập biểu thức =POWER(B10,2)
- Giá trò
G
Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)
F
C
= 11,947368 > F
0,05
(3,6) = 4,76 => Bác bỏ H
0
(nhiệt độ)
F = 30,052632 > F
0,05
(3,6) = 4,76 => Bác bỏ H
0
(chất xúc tác)
3) Kết luận : Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng
đến hiệu suất.
SVTH: BÙI DUY KHANH Trang 4
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
• Ví dụ 4.2
Người ta đã dùng ba mức nhiệt độ gồm 105, 120 và 135
0
C kết hợp với
ba khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng
hợp. Các hiệu suất của phản ứng (%) được trình bày trong bảng sau đây:
Thời gian (phút)
X
1
Nhiệt độ (°C)
X
2
Hiệu suất (%)
kiện nhiệt độ 115
0
C trong vòng 50 phút thì hiệu suất phản ứng là bao
nhiêu ?
Gi ải
1) Dạng toán : hồi quy tuyến tính đa tham số
2) Áp dụng MS-EXCEL :
-Trong trắc nghiệm t:
SVTH: BÙI DUY KHANH Trang 5
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
H
0
: Β
i
= 0 ó Các hệ số hồi quy không có ý nghĩa
H
1
: Β
i
≠ 0 ó Các hệ số hồi quy có ý nghĩa
-Trong trắc nghiệm F:
H
0
: Β
i
= 0 ó Phương trình hồi quy không thích hợp
H
1
: Β
i
= 2,365 (Hay = 0,071 > α = 0,05)
⇒ Chấp nhận giả thiết H
0
.
t
1
= 1,38 < t
0,05
= 2,365 (Hay = 0,209 > α = 0,05)
⇒ Chấp nhận giả thiết H
0
.
F = 1,905 < = 5,590 (Hay = 0,209 > α = 0,05)
⇒ Chấp nhận giả thiết H
0
.
Vậy cả hai hệ số 2,73(B
0
) và 0,04(B
1
) của phương trình hồi quy
= 2,73 + 0,04X
1
đều không có ý nghĩa thống kê. Nói cách khác,
phương trình hồi quy này không thích hợp.
Kết luận: Yếu tố thời gian không liên quan tuyến tính với hiệu suất của
phản ứng tổng hợp.
Ä
Phương trình hồi quy = f(X
2
) và 0,13(B
2
) của phương trình hồi quy
-11,14 + 0,13X
2
đều có ý nghĩa thống kê. Nói cách khác, phương trình
hồi quy này thích hợp.
Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng
tổng hợp.
Ä
Phương trình hồi quy = f(X
1
,X
2
)
= -12,70 + 0,04X
1
+ 0,13X
2
(R
2
= 0,97; S = 0,33)
SVTH: BÙI DUY KHANH Trang 9
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
t
0
= 11,528 > t
0,05
= 2,365 (Hay P
⇒ Bác bỏ giả thiết H0.
Vậy cả hai hệ số -12,70(B
0
), 0,04(B
1
) và 0,13(B
2
) của phương trình hồi
quy = -12,70 + 0,04X
1
+ 0,13X
2
đều có ý nghĩa thống kê. Nói
cách khác, phương trình hồi quy này thích hợp.
3) Kết luận:
Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu
tố là thời gian và nhiệt độ.
Nếu ở điều kiện nhiệt độ 115
0
C trong vòng thời gian 50 phút thì
hiệu suất sẽ là:
SVTH: BÙI DUY KHANH Trang 10
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
= -12,70 + 0,04X
1
+ 0,13X
2
=-12,7+0,04.50+0,13.115
=4,25%
Bài 2: Có 4 báo cáo viên A, B, C, D nói về cùng một chủ đề. Sau đây là thời
ra từ tập hợp chính các giá trò của X
2
, ,
k
1k 2k n k
{x , x , x }
là một mẫu
kích thước n
k
rút ra từ tập hợp chính các giá trò của X
k
. Các số liệu thu
được trình bày thành bảng ở dạng sau đây:
Ta đưa ra một số kí hiệu sau
Trung bình của mẫu thứ i (tức là mẫu ở cột thứ i trong bảng
trên):
=
= =
∑
i
n
ji
j 1
i
i
i i
x
T
x
n n
i
n n
x
11
x
12
x
1k
x
21
x
22
x
2k
1
1n
x
2
2n
x
k
n k
x
Tổng
số
T
1
T
Tổng bình phương chung ký hiệu là SST (viết tắt là chữ
Total Sum of Squares) được tính theo công thức sau:
( ) ( ) ( )
( )
= = =
= =
= − + − + + −
= −
∑ ∑ ∑
∑∑
L
1 2 k
j
k
n n n
2 2 2
i1 i2 ik
i 1 i 1 i 1
n
n
2
ij
j 1 i 1
SST x x x x x x
x x
có thể chứng minh rằng
,
= = =
= + + + −
2
i i
i 1
2 2 2
2
1 2 k
1 2 k
SSF n x x
T T T
T
n n n n
Tổng bình phương do sai số ký hiệu là SSE (viết tắt của
chữ Sum of Squares for the Error) được tính theo công thức:
( ) ( ) ( )
1 2 k
1 2 k
n n n
2 2 2
i1 i 2 2 ik k
i 1 i 1 i 1
n n n
2 2 2
2 2 2
1 2 k
i1 i2 ik
1 2 k
i 1 i 1 i 1
2 2
2
1 k
thức:
SSF
MSF
k 1
=
−
k – 1 được gọi là bậc tự do của nhân tố.
Trung bình bình phương của sai số, ký hiệu là MSE (viết
tắt của chữ Mean Square for Error) được tính bởi công
thức:
SSE
MSE
n k
=
−
n – k được gọi là bậc tự do của sai số.
Tỷ số F được tính bởi công thức
MSF
F
MSE
=
Các kết quả nói trên được trình bày trong bảng sau đây gọi là
ANOVA (viết tắt của chũ Analysis of Variance: phân tích phương sai)
Bảng ANOVA
Nguồn Tổng
bình
phương
Bậc tự
do
42 17 19 35
35 30 26 24
n
i
5 5 5 5 20
T
i
161 122 120 152 555
Bước 1: Tính SSF:
SSF = (161
2
+122
2
+120
2
+152
2
)/5 – 555
2
/20=260,55
Bước 2: Tính SST:
SST = (25
2
+29
2
+30
2
+42
2
+35
a) Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis.
b) Chọn chương trình Anova: Single Factor trong hộp thoại Data
Analysis rồi nhấp nút OK.
c) Trong hộp thoại Anova: Single Factor lần lượt ấn định:
- Phạm vi đầu vào (Input Range).
- Cách sắp xếp theo hàng hay cột (Grouped By).
- Nhãn dữ liệu (Labels in First Row).
- Mức ý nghĩa (Alpha).
SVTH: BÙI DUY KHANH Trang 16
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
3.Kết luận
F=2.33 < Fcrit= 3.23 Chấp nhận H
0
Thời gian trung bình mà các báo cáo viên cần cho
các bài báo cáo của mình là bằng nhau
Bài 3:
Một cửa hàng lớn có bán ba loại giày A, B, C. Theo dõi số khách
SVTH: BÙI DUY KHANH Trang 17
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
hàng mua các loại giày này trong 5 ngày, người quả lý thu được bảng số
liệu sau:
Loại giày
A B C
28
21
20
18
23
35
42
1k 2k n k
{x , x , x }
là một mẫu
kích thước n
k
rút ra từ tập hợp chính các giá trò của X
k
. Các số liệu thu
được trình bày thành bảng ở dạng sau đây:
Các mức nhân tố
1 2 k
x
11
x
12
x
1k
x
21
x
22
x
2k
SVTH: BÙI DUY KHANH Trang 18
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
1
1n
x
2
T
x
n
Ta đưa ra một số kí hiệu sau
Trung bình của mẫu thứ i (tức là mẫu ở cột thứ i trong bảng
trên):
=
= =
∑
i
n
ji
j 1
i
i
i i
x
T
x
n n
Trung bình chung
= =
= = =
∑∑
∑∑
j
n
k
ij
ij i 1 j 1
j
k
n n n
2 2 2
i1 i2 ik
i 1 i 1 i 1
n
n
2
ij
j 1 i 1
SST x x x x x x
x x
có thể chứng minh rằng
,
= = =
= + + + −
= −
∑ ∑ ∑
∑
L
1 2 k
n n n
2
2 2 2
i1 i2 ik
i 1 i 1 i 1
2
2
n n n n
Tổng bình phương do sai số ký hiệu là SSE (viết tắt của
chữ Sum of Squares for the Error) được tính theo công thức:
( ) ( ) ( )
1 2 k
1 2 k
n n n
2 2 2
i1 i 2 2 ik k
i 1 i 1 i 1
n n n
2 2 2
2 2 2
1 2 k
i1 i2 ik
1 2 k
i 1 i 1 i 1
2 2
2
1 k
ij
1 k
SSE x x x x x x
T T T
x x x
n n n
T T
x
n n
= = =
n k
=
−
n – k được gọi là bậc tự do của sai số.
Tỷ số F được tính bởi công thức
SVTH: BÙI DUY KHANH Trang 20
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
MSF
F
MSE
=
Các kết quả nói trên được trình bày trong bảng sau đây gọi là
ANOVA (viết tắt của chũ Analysis of Variance: phân tích phương sai)
Bảng ANOVA
Nguồn Tổng
bình
phương
Bậc tự
do
Trung
bình bình
phương
Tỷ số F
Nhân tố SSF k – 1 MSF MSF/MS
E
Sai số SSE n – k MSE
Tổng số SST n – 1
Người ta chứng minh được rằng nếu giả thiết H
o
= + + + + + − =
801.6 447.6 354SSE SST SSF
= − = − =
447.6
223,8
1 2
SSF
MSF
k
= = =
−
354
29,5
15 3
SSE
MSE
n k
= = =
− −
SVTH: BÙI DUY KHANH Trang 21
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
223.8
7,5864
29.5
MSF
F
MSE
= = =
Ta trình bày các kết quả tính toán trên trong bảng ANOVA
Nguồn
Với mức ý nghóa α=1% ta có:
F= 7.586440678 > F
0.01
= 6.92660814
Dẫn đến bác bỏ giả thiết H
0
.( Kết quả trùng khớp với kết quả tính
tay)
Do đó: Có ít nhất 2 loại giày có lượng tiêu thụ trung bình khác
nhau.
SVTH: BÙI DUY KHANH Trang 24
BÁO CÁO XÁC SUẤT THỐNG KÊ GVHD:NGUYỄN ĐÌNH HUY
Bài 4 . Lượng sữa vắt được bởi 16 con bò cái khi cho nghe các lọai nhạc
khác nhau (nhạc nhẹ, nhạc rốc, nhạc cổ điển, không có nhạc) được
thống kê trong bảng sau đây:
Nhạc nhẹ 15 18 22 17
Nhạc rốc 13 20 16 15
Nhạc cổ
điển
15 19 24 28
Không có
nhạc
14 23 17 14
Với mức ý nghóa 5%, nhận đònh xem lượng sữa trung bình của mỗi
nhóm trên như nhau hay khác nhau. Liệu âm nhạc có ảnh hưởng đến
lượng sữa của các con bò hay không?
Giải
1) Dạng tốn: phân tích phương sai một yếu tố
Cơ sở lí thuyết:(Giống bài 2 và 3)
• p dụng MS-EXCEL: