BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
BÀI 1
A. Ví dụ 3.4/161 SGK
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố: pH (A),
nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố A
Yếu tố B
B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng?
Phương pháp:
PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐ
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan
sát G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố Bảo: k = 1, 2 r: yếu tố C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình
vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
B C D A
C D A B
D A B C
A B C D
Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố
A
Yếu tố B
B1 B2 B3 B4
A1 C1 Y
111
C1 Y
421
C2 Y
432
C3 Y
443
T
4
T
.i.
T
.1.
T
.2.
T
.3.
T
.4.
BÙI MINH CHUNG_G0804070 Page 1
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bảng ANOVA:
Nguồn sai số Bậc tự do
Tổng số bình
phương
Bình phương
trung bình
Giá trị thống
kê
Yếu tố A
=
−
r
j
j
r
T
r
T
1
2
2
2
MSC=
)1( −r
SSC
F
C
=
MSE
MSC
Yếu tố C (r-1) SSF=
∑
=
−
r
k
k
T
Y
ijk
−ΣΣΣ
Trắc nghiệm
• Giả thiết:
H
0
: μ
1
= μ
2
= = μ
k
↔ Các giá trị trung bình bằng nhau
H
1
: μ
i
≠
μ
j
↔ Có ít nhất hai giá trị trung bình khác nhau
• Giá trị thống kê: F
R
, F
C
, F
• Biện luận
• Các giá trị T.j.
Chọn ô B8 và nhập biểu thức =SUM(B2:B5)
Dùng con trỏ kéo ký hiệu tự điền từ ô B8 đến ô E8
• Các giá trị T k
Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)
Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)
Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5)
Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)
• Giá trị T…
Chọn ô B10 và nhập biểu thức=SUM(B2:B5)
2. Tính các giá trị G
Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo ký hiệu tự điền từ ô G7 đến ô G9
Chọn ô G10 và nhập biểu thức =POWER(B10,2)
Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)
3. Tính các giá trị SSR, SSC, SSF, SST và SSE
• Các giá trị SSR, SSC, SSF
Chọn ô I7 và nhập biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo ký hiệu tự điền từ ô I7 đến ô I9
• Giá trị SST
Chọn ô I11 và nhập biểu thức =G11-G10/POWER(4,2)
• Giá trị SSE
Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9)
4. Tính các giá trị MSR, MSC, MSF và MSE
• Giá trị MSR, MSC, MSF
BÙI MINH CHUNG_G0804070 Page 3
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Chọn ô K7 và nhập biểu thức =I7/(4-1)
Dung con trỏ kéo ký hiệu tự điền từ ô K7 đến ô K9
• Giá trị MSE
X
1
X
2
Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
BÙI MINH CHUNG_G0804070 Page 4
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
30 135 6.45
Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan tuyến tính với
hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115°C trong vòng 50 phút thì
hiệu suất phản ứng sẽ là bao nhiêu?
Phương pháp:
HỒI QUY TUYẾN TÍNH ĐA THAM SỐ
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k
biến số độc lập X
i
(i=1,2, ,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản.
Phương trình tổng quát
Ŷx
0
,x
1
, ,x
Giá trị R-bình phương:
kFkN
kF
SST
SSR
R
+−−
==
)1(
2
(
81.0
2
≥R
là khá tốt)
Độ lệch chuẩn:
)1( −−
=
kN
SSE
S
(
30.0
≤
S
là khá tốt)
Trắc nghiệm
• Giá trị thống kê: F
• Trắc nghiệm t:
H
≠
0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số B
i
.
F < F
α
(1,N-k-1) → Chấp nhận H
0
Bài làm:
Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải được nhập theo cột.
Áp dụng Regression
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis
Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK
BÙI MINH CHUNG_G0804070 Page 6
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
− Phạm vi của biến số Y (input Y range)
− Phạm vi của biến số X (input X range)
− Nhãn dữ liệu (Labels)
− Mức tin cậy (Confidence level)
− Tọa độ đầu ra (Output range)
− Đường hồi quy (Line Fit Plots),…
Các giá trị đầu ra cho bảng sau:
Phương trình hồi quy: Ŷx
1
=f(X
1
)
BÙI MINH CHUNG_G0804070 Page 7
0
Vậy cả hai hệ số 2.73 (B
0
) và 0.04 (B
1
) của phương trình hồi quy Ŷx
1
= 2.73 + 0.04X
1
đều
không có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này không thích hợp.
Phương trình hồi quy: Ŷx
2
= f(X
2
)
Ŷx
2
= -11.141 + 0.129X
2
(R
2
=0.76,S=0.99)
BÙI MINH CHUNG_G0804070 Page 8
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
t
0
= 3.418 > t
0.05
= 2.365 (hay P
2
=f(X
1
,X
2
)
Ŷx
1
,x
2
= -12.70 + 0.04X
1
+ 0.13X
2
(R
2
=0.97; S=0.33)
t
0
=11.528 > t
0.05
=2.365 (hay P
v
2
=2.260.10
-5
<α=0.05)=>Bác bỏ giả thiết H
0
BÙI MINH CHUNG_G0804070 Page 9
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
1
,x
2
= -12.70 + 0.04X
1
+ 0.13X
2
. Có thể được trình bày
trong biểu đồ phân tán (scatter plots):
Nếu muốn dự đoán hiệu suất bằng phương trình hồi quy
Y= -12.70 + 0.04X
1
+ 0.13X
2
chỉ cần chọn một ô, ví dụ như:
E20, sau đó nhập hàm=E17+E18*50+E19*115 và được kết quả như sau:
BÙI MINH CHUNG_G0804070 Page 10
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Ghi chú: E17 tọa độ của B
0
,E18 tọa độ của B
1
,E19 tọa độ của B
2
, 50 là giá trị của X
1
(thời
gian) và 115 là giá trị của X
2
(nhiệt độ)
(i=0,1,2,…,k).
Mô hình:
Yếu tố thí nghiệm
1 2 … K
Y
11
Y
21
… Y
k1
Y
12
Y
22
… Y
k2
… … … …
Y
1N
Y
2N
… Y
kN
Tổng cộng
trung bình
T
1
1
___
Y
1
2
−
∑
=
MSF=
1−k
SSF
F=
MSE
MSF
BÙI MINH CHUNG_G0804070 Page 12
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
SSE=SST-SSF
MSE=
kN
SSE
−
Tổng cộng N-1
SST=
N
T
Y
k
i
n
j
n
2
1 1
Đây là bài toán phân tích phương sai một yếu tố, số quả cà chua mọc trung bình chịu ảnh
hưởng bởi loại phân bón.
Giả thiết H
0
: µ
1
= µ
2
= µ
3
; tức số quả cà chua mọc trung bình là bằng nhau
Nhập dữ liệu vào bảng:
Áp dụng Anova: Single Factor
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis.
Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
Trong hộp thoại Anova: Single Factor lần lượt ấn định
− Phạm vi đầu vào (Input range)
− Cách xắp xếp theo hàng hay cột (Group by)
− Nhấn dử liệu (Labels in fisrt row/column)
− Phạm vi đầu ra (Output range)
BÙI MINH CHUNG_G0804070 Page 13
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bảng Anova:
Kết luận:
Từ giá trị trong bảng Anova:
F= 3.8557 > F
α
= 2.3597 => Bác bỏ H
0
=> Lượng quả cà chua mọc trung bình khi sử dụng các loại phân khác nhau là khác nhau.
Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
Trong hộp thoại Anova: single factor lần lượt ấn định
− Phạm vi đầu vào(input range)
− Cách xắp xếp theo hang hay cột(group by)
− Nhấn dữ liệu(labels in fisrt row/column)
− Phạm vi đầu ra(output range)
BÙI MINH CHUNG_G0804070 Page 15
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Sau khi nhấn OK xuất hiện bảng Anova:
Kết luận:
Từ giá trị trong bảng Anova:
F = 7.5864 > F
α
= 6.9266 => Bác bỏ H
0
=> Lượng tiêu thụ của 3 loại giày trên là khác nhau
Lượng tiêu thụ trung bình của loại giày A là 22
Lượng tiêu thụ trung bình của loại giày B là 32.2
Lượng tiêu thụ trung bình của loại giày C là 34.6
=> Lượng tiêu thụ trung bình: Loại C > Loại B > loại A
BÙI MINH CHUNG_G0804070 Page 16
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
BÀI 4:
Bảng sau đây cho ta số liệu về màu tóc của 422 người:
Màu tóc Nam Nữ
Đen
Hung
Nâu
Vàng
56
j
1
k
i ij
j
n n
=
=
∑
1
k
i ij
i
m n
=
=
∑
1 1
k k
i ij
i j
n n
= =
=
∑∑
Kiểm định giả thiết: H
0
: X và Y độc lập, với mức ý nghĩa α.
Tìm
2 2
n m
n
γ
=
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST(n
ij
,γ
ij
), với lưu ý số lượng các giá trị
của n
ij
và γ
ij
phải bằng nhau.
Kết luận
Nếu
22
0
α
χχ
<
→ Chấp nhận giả thiết H
0
.
Hoặc kết quả hàm CHITEST > α = 0.01 → Chấp nhận giả thiết H
0
.
Bài làm
Giả thiết: H
0
i j
ij
n m
n
γ
=
Sau khi sử dụng với Excel ta có bảng số liệu γij như sau:
BÙI MINH CHUNG_G0804070 Page 18
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
2 2 2
2
0
(56 40.872) (32 47.128) (38 30,5261)
40.872 47.128 30,5261
χ
− − −
= + + +
− Hoặc sử dụng hàm CHITEST trong Excel:
– Kết luận:
Vì
22
0
α
χχ
>
→ Bác bỏ giả thiết H
0
.
Hoặc γ
0,31
0,21
0,22
0,25
0,26
0,28
0,25
0,22
0,28
0,31
0,31
0,33
0,30
0,29
0,25
0,22
0,28
0,28
0,25
0,30
So sánh mức độ nhiễm chì đối với công nhân ở các phân xưởng của nhà máy nói trên.
Bài làm
Đây là bài toán phân tích phương sai một yếu tố.
Giả thiết: H
0
: µ
1
= µ
2
= µ