TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG TP.HCM
KHOA KỸ THUẬT XÂY DỰNG
MÔN XÁC SUẤT THỐNG KÊ
---------------o0o---------------
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
NHÓM 10
GVHD: PGS.TS Nguyễn Đình Huy
Họ tên SV: Nguyễn Văn Tuấn
MSSV: 1414418
Nhóm_Lớp: L11_C (Sáng thứ 2)
TP. HCM tháng 11, năm 2015.
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Lời nói đầu
Thân chào Thầy cô và các bạn sinh viên!
Đây là quyển báo cáo Bài tập lớn do Nhóm 10 thực hiện.
Nội dung gồm 5 bài dưới sự hướng dẫn của thầy PGS.TS Nguyễn Đình Huy.
Báo cáo gồm 5 dạng:
+ Bài 1: Câu a) Kiểm định giá trị trung bình .......................................... Trang 2
Câu b) Phân tích tương quan và hồi quy tuyến tính ................. Trang 6
+ Bài 2: Phân tích tương quan và hồi quy tuyến tính ........................... Trang 14
+ Bài 3: Kiểm định so sánh 2 tỷ lệ. ....................................................... Trang 19
+ Bài 4: Kiểm định tính độc lập. ........................................................... Trang 23
+ Bài 5: Kiểm định giá trị trung bình. ................................................... Trang 29
Nhóm chúng em đã cố gắng trình bày nổi bật ý chính và cụ thể để bạn đọc có
thể dễ dàng hiểu rõ và đánh giá.
B4
A1
C1
9
C2
14
C3
16
C4
12
A2
C2
12
C3
15
10
C1
11
C2
13
C3
13
2 Yêu cầu Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng?
3 Dạng bài: Kiểm định giá trị trung bình;
Cơ sở lý thuyết.
Phương pháp giải: Phân tích phương sai 3 yếu tố (A, B, C)
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị
quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô
hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
B
C
D
A
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Yếu tố B
Yếu tố
A
B1
A1
C1
Y111
C2
Y122
C3
Y133
C4
Y144
T1..
C1
Y331
C2
Y342
T3..
A4
C4
Y414
C1
Y421
C2
Y432
C3
Y443
T4..
2
(r-1)
Ti..2 T...
SSR= 2
r
i 1 r
(r-1)
SSC=
SSR
(r 1)
FR=
MSR
MSE
MSC=
SSC
(r 1)
FC=
MSC
MSE
r
Sai số
(r-1)(r-2)
Tổng
cộng
(r2-1)
Giá trị
thống kê
MSR=
r
(r-1)
Bình phương
trung bình
2
(SSF+SSR+SSC)
SST= Yijk2
MSF
Bài làm.
Các bước thực hiện trên MS Excel:
Nhập số liệu bảng tính:
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
3
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Tính toán các giá trị
+ Tính các giá trị Ti..
Chọn ô B7 nhập vào biểu thức=SUM(B2:E2)
Chọn ô C7 nhập vào biểu thức=SUM(B3:E3)
Chọn ô D7 nhập vào biểu thức=SUM(B4:E4)
Chọn ô E7 nhập vào biểu thức=SUM(B5:E5)
+Tính các giá trị T.j..
Chọn ô B8 nhập vào biểu thức=SUM(B2:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 đến ô E8
+Tính các giá trị T..k
Chọn ô B9 nhập vào biểu thức=SUM(B2,C5,D4,E3)
Chọn ô C9 nhập vào biểu thức=SUM(B3,C2,D5,E4)
Chọn ô D9 nhập vào biểu thức=SUM(B4,C3,D2,E5)
Chọn ô E9 nhập vào biểu thức=SUM(B5,C4,D3,E2)
+Tính giá trị T…
Chọn ô B10 nhập vào biểu thức =SUM(B2:E5)
+ Tính các giá trị SUMSQTi.., SUMSQT.j., SUMSQT...k, SQT… SUMSOYijk
Chọn ô G7 nhập vào biểu thức=SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 đến ô G9
FC=11.95 > F0.05(3,6) = 4.76
=> bác bỏ H0
(nhiệt độ)
F=30.05 > F0.05(3,6) = 4.76
=> bác bỏ H0
(chất xúc tác)
Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất phản ứng.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
5
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài 1b
1 Đề bài:
Trình bày ví dụ 4.2 tr 216 BT XSTK
Người ta dùng ba mức nhiệt độ gồm 105, 120 và 135°C kết hợp với ba khoảng thời
gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của phản
ứng (%) được trình bày trong bảng sau:
Nhiệt độ (°C)
120
3.05
30
120
4.07
60
120
5.54
15
135
5.03
30
135
6.45
2 Yêu cầu Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan
tuyến tính với hiệu suất của phản ứng tổng hợp?
SSR
MSR=
SSR
k
MSE =
SSE
( N k 1)
Sai số
N-k-1
SSE
Tổng
cộng
N-1
SST = SSR + SSE
Giá trị thống
kê
F=
t < t (N-k-1) → Chấp nhận H0
Trắc nghiệm F
H0: βi = 0 ↔ Phương trình hồi quy không thích hợp.
H1: βi 0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.
F
9
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Phương trình hồi quy: Ŷx2=f(X2)
Ŷx2= -11.141 +0.129X2 (R2=0.76, S=0.99)
t0=3.418> t0.05=2.365(hay Pv2=0.011>α=0.05)
=>Bác bỏ giả thiết H0
t1= 4.757>t0.05=2.365(hay Pv =0.00206<α=0.05) =>Bác bỏ giả thiết H0
F=22.631>F=5.590(hay Fs=0.00206Bác bỏ giả thiết H0
Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2=-11.141 +0.129X2
đều có ý nghĩa thống kê.Nói cách khác phương trình hồi quy này thích hợp.
Kết luận 2: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
10
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Phương trình hồi quy: Ŷx1, x2=f(X1, X2)
Ŷx1, x2 =-12.70+0.04X1+0.13X2 (R2=0.97; S=0.33)
6
5
4
3
2
1
0
0
2
4
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
6
8
10
12
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Dự đoán hiệu suất bằng phương trình hồi quy
Y=-12.70+0.04X1+0.13X2
Ta chọn một ô,ví dụ như:
C21,sau đó nhập hàm =B17+B18*50+B19*115và được kết quả như sau:
0,37
0,77
-0,28
0,95
-0,70
1,3
-0,25
1,45
0,55
1,2
0,02
1,3
0,35
1,2
0,32
2 Yêu cầu
Tìm đường hồi quy của Y đối với X.
Tính sai số tiêu chuẩn của đường hồi quy
Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y theo
X.
3 Dạng bài
Phân tích tương quan và hồi quy tuyến tính.
Cơ sở lý thuyết
Phương pháp giải :Phân tích hồi quy tuyến tính
Phương trình hồi quy tuyến tính:
Làm bằng Excel, ta có các bước thực hiện:
Bước 1: Nhâp bảng số liệu
Bước 2: Chọn Data/Data Analysis/ Regression như trong hình:
N
h
ậ
p
d
ữ
l
i
Nhập số liệu vào như trong hình:
Input Y Range : khoảng dữ liệu của Y
Input X Range : khoảng dữ liệu của X
Confidence Level : mức ý nghĩa
Labels : Nhãn dữ liệu
Output Range : Khoảng dữ liệu xuất ra
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
15
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
:Sau khi nhập đủ các thông số, ta có được bảng sau:
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
18
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài 3
1. Đề bài
Bảng sau đây cho ta phân bố thu nhập của 2 nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ 50
– 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930.
Nhóm tuổi
0–1
71
54
40 – 50
50 – 60
1–2
430
324
Thu nhập
2–3
3–4
1072
1609
Oi - các tần số thực nghiệm (observed frequency)
Ei - các tần số lý thuyết (expected frequency).
Biện luận
Nếu 2 2 => bác bỏ giả thiết H0 (DF=k-1)
Trong chương trình MS-EXCEL có hàm số CHITESST có thể tính:
- Giá trị 2 thep biểu thức:
Oi Ei 2
Ei
i 1
h
2
Oi - các tần số thực nghiệm của ô thuộc hàng i và cột j
Ei - các tần số lý thuyết của ô thuộc hàng I với cột j; r – số hàng; c – số cột.
-
Xác suất P X 2 với bậc tự do DF=(r-1)(c-1); trong đó: r là số hàng và c là số cột
trong bảng ngẫu nhiên (contingency table).
Nếu P X 2 => chấp nhận giả thiết H0 và ngược lại.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
19
Ta có bảng tần số lý thuyết
Bước 4: Dùng hàm CHITEST để tính.
Nhấn vào Tab Fomulas chọn Insert Function chọn CHITEST rồi nhấn OK
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
21
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Lúc đó sẽ xuất hiện hộp thoại Function Arguments
Nhập các giá trị tần số quan sát vào mục Actual_range
Rồi nhập các giá trị tần số quan sát vào mục Expected_range. Nhấn OK
Kết quả Ta được
P = 0.511582
Vì giá trị P > α = 2% => Chấp nhận giả thuyết H0
Kết luận: Phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề là
như nhau.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
22
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Bài 4
Dưới 40
Từ 40 đến
54
Trên 54
2 Yêu cầu: Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập có
quan hệ với nhau hay không?
3 Dạng bài: Kiểm định tính độc lập;
Cơ sở lí thuyết
Phương pháp giải :kiểm tra tính độc lập
Ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu. Trước hết, chúng ta xét bài toán
kiểm định tính độc lập của dấu hiệu định tính A và B.
Ta chia dấu hiệu A ra làm r mức độ A1, A2,..., Ar, và chia đặc tính B làm k mức độ
B1, B2,..., Bk. Xét một mẫu ngẫu nhiên gồm n cá thể. Mỗi cá thể sẽ mang dấu hiệu A ở mức
Ai nào đó và mang dấu hiệu B ở mức Bj nào đó. Giả sử nij là số cá thể có các dấu hiệu Ai
và Bj. Các số liệu nij được ghi trong bảng sau đây gọi là bảng liên hợp các dấu hiệu
(Contingency Table).
A
B1
B2
...
Bk
Tổng
nr1
n01
nr2
n02
…
...
nrk
n0k
nr0
N
B
A1
A2
Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu Ai và Bj ; pjo
và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj.
Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
pij = pio.poj
Các xác suất pio và poj được ước lượng bởi
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
23
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
ˆ
n ij
j1 i 1
k
r
Người ta đã chứng minh được rằng nếu n lớn và các TSLT không nhỏ hơn 5 thì T sẽ
có phân bố xấp xỉ phân bố 2 với bậc tự do là (k–1).(r–1). Thành thử Ho sẽ bị bác bỏ ở
mức ý nghĩa nếu T > c, trong đó c là phân vị mức của phân bố 2 với (k–1).(r–1) bậc
tự do.
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST (nij,γij), với lưu ý số lượng các giá
trị của nij và γij phải bằng nhau.
Kết luận
Nếu 02 2 → Chấp nhận giả thiết H0.
Hoặc kết quả hàm CHITEST > α =0.01 → Chấp nhận giả thiết H0.
GVHD: PGS-TS: NGUYỄN ĐÌNH HUY
24