CHƯƠNG 5 ƯỚC LƯNG CÁC THAM SỐ THỐNG KÊ
(Estimation) Khái niệm chung:
- Xét một tập họp chính gôøm N biến ngẫu nhiên X tuân theo luật phân phối có hàm mật độ
xác suất là f (x,θ); trong đó θ là các tham số thống kê của tập họp chính.
Thí dụ:
• Trong phân phối nhò thức:
fx C
n
xx nx
(, ) ( )
θρρ
=−
−
1 => θ = ρ , θ ∈ [0 , 1]
• Trong phân phối poisson
fx
e
x
x
(, )
!
θ
λ
λ
= => θ = λ θ > 0
• Trong phân phối chuẩn
fx e
θ của tập họp chính xem như chưa biết.
Vấn đề đặt ra ở chương trình này là dựa vào các mẫu quan sát {x
1
,x
2
, ,x
n
} ta ước lượng
xem giá trò cụ thể của θ bằng bao nhiêu (bài toán đó gọi là ước lượng điểm ) hoặc ước lượng xem θ
nằm trong khoảng nào (bài toán ước lượng khoảng).
1. ƯỚC LƯNG ĐIỂM (Point Estimation)
1.1 Ước lượng và giá trò ước lượng (estimator and estimate)
1.1.1 Ước lượng (Estimatir) ô hàm ước lượng
• Là biến ngẫu nhiên hay các tham số thống kê của mẫu được dùng để ước lượng các tham số
thống kê chưa biết của tập hợp chính.
• Ước lượng của tham số thống kê θ của tập họp chính được ký hiệu là
θ
∧
.
• Dựa vào mẫu {x
1
,x
2
,x
n
} người ta lập ra làm
θ
∧
và được xem như giá trò ước lượng của tham số thống kê θ của
tập họp chính.
Tham số thống kê và tập họp
chính (population patameter)
Ước lượng
(Estimation)
Giá trò ước lượng Estimate
(Point estimate)
Số trung bình µ
x
Phương sai σ
x
2
Độ lệch chuẩn σ
x
Trò số p
f
x
n
=
p
X
S
• Ước lượng θ được gọi là ước lượng không chệch của tham số thống kê θ nếu kỳ vọng của
θ
∧
là
θ.
E (
θ
∧
) = θ
Thí dụ
E(X) = µ
x
=> X là ước lượng không chệch của µ
x
E(S
x
2
) = σ
x
2
=> S
x
2
là ước lượng không chệch cuả σ
x
2
E ( f
*
θ
∧
1
được gọi là hiệu quả hơn
θ
∧
2
nếu
Var (
θ
∧
1
) < Var (
θ
∧
2
)
* Hiệu quả tương đối giữa hai ước lượng là tỉ số giữa 2 phương sai của chúng.
Hiệu quả tương đối =
Var
Var
()
()
θ
θ
2
1
∧
∧
- θ)
2
]
Người ta chứng minh được rằng:
MSE (
θ
∧
) = Var(
θ
∧
) + [θ - E (
θ
∧
)]
2
MSE (
θ
∧
) = Var (
θ
∧
) + [ Bias(
θ
∧
)]
2
• Nếu
θ
θ
∧
n
- θ | ≤ ε ) = 1]
n - ∞
tức là dãy
θ
∧
n
hội tụ theo xác suất tới θ khi n -> ∞
2. ƯỚC LƯNG KHOẢNG (Interal estimation)
2.1 Khoảng tin cậy (Confidence interval)
2.1.1. Ước lượng khoảng và giá trò ước lượng khoảng (interval estimator and interval
estimate).
* Ước lượng khoảng:
Ước lượng khoảng đối với tham số thống kê của tập họp chính θ là một quy tắc dựa trên
thông tin của mẫu để xác đònh miền (range) hay khoảng (interval) mà tham số θ hầu như nằm
trong đó.
* Gía trò ước lượng khoảng:
là giá trò cụ thể của miền hay khoảng mà tham số θ nằm trong
đó.
2.1.2 Khoảng tin cậy và độ tin cậy
(Confidence interval and level of confidence)
Gọi θ là tham số thống kê chưa biết. Giả sử dựa trên thông tin của mẫu ta có thể xác đònh
được 2 biến ngẫu nhiên A và B sao cho
P (A < θ < B) = 1 - α với 0 < α < 1
• Nếu giá trò cụ thể của biến ngẫu nhiên A và B là a và b thì khoảng (a,b) từ a đến b được gọi là
khoảng tin cậy của θ với xác suất la (1 - α)
• Xác suất (1 - α) được gọi là độ tin cậy của khoảng.
) = 1 - α
Hình 2 (p5)
• P (-Z
α/2
< Z < Z
α/2
) = 1 - α
Chứng minh:
P(Z > Z
α/2
) =
α
2
Do tính đối xứng => P (-Z
α/2
< Z < Z
α/2
) = 1 -
α
2
-
α
2
= 1 - α
n
x
Z
n
xx
−−
−<<+
αα
σ
µ
σ
//22
Trong đó Z
α/2
là số có P (Z > z
α/2
) = α/2 với Z là biến ngẫu nhiên chuẩn chuẩn hóa.
Chứng minh:
Ta có:
P ( - Z
α/2
< Z < Z
α/2
) = 1 - α
P (-Z
α/2
<
X
Z
Z
n
xX
−<<+
αα
σ
µ
σ
//
)
22
= 1 - α
Thí dụ
:
Giả sử trọng lượng của các học sinh lớp 2 tuân theo phân phối chuẩn với độ lệch chuẩn
1,2kg. Mẫu ngẫu nhiên gồm 25 học sinh có trung bình là 19,8kg. Tìm khoảng tin cậy 95% đối với
trọng lượng trung bình của tất cả học sinh lớp 2 trong 1 trường.
Giải
:
Ta có 100 (1 - α) = 95
=> α = 0.05
=> Z
α/2
= Z 0.025
=> P(Z > Z
0.025
) = 0.025
P(Z < Z
0.025
) = F
Ghi chú:
a)
ε
σ
α
=
Z
n
x/2
gọi là độ chính xác của ước lượng hay dung sai
b) x là trung tâm của khoảng tin cậy với bề rộng của khoảng tin cậy của µ là x
Z
n
x
−=
α
σ
/
,
W
Z
n
x
==
2
2
2
α
σ
ε
/
c) + W càng nhỏ thì ước lượng càng chính xác (≡ ε càng nhỏ)
+ Với xác suất α và cỡ mẫu nhỏ trước, σ
x
càng lớn thì W càng lớn.
+ Với α và σ
x
cho trước, n càng lớn thì W càng nhỏ.
+ Với σ
x
và n cho trước, ( 1 - α) càng lớn thì W càng nhỏ 2.2.3 Khoảng tin cậy đối với số trung bình của tập hợp chính µ trong trường hợp cỡ mẫu lớn.
Giả sử ta có mẫu với cỡ mẫu là n được lấy từ tập họp chính có số trung bình là µ.
Gọi x là số trung bình của mẫu và S
x
là phương sai của mẫu.
2
hoặc tìm
khoảng tin cậy của µ khi có mẫu lớn.
Trong trường hợp không biết phương sai σ
x
2
và cỡ mẫu không lớn, để tìm khoảng tin cậy
của µ ta cần phải có một phân phối thích họp hơn, đó là phân phối Student t.
23.1 Phân phối Student t
Cho mẫu ngẫu nhiên với cỡ n với số trung bình của mẫu X và độ lệch chuẩn mẫu S
x
; mẫu
được lấy ra từ tập họp chính với số trung bình là µ.
Biến ngẫu nhiên
t
x
Sn
x
=
−
µ
/
t tuân theo phân phối Student t với độ tự do là n - 1
Hình
n = 25 , σ
x
()
()
(, )
()
=
+
−
+
1
1
22
2
1
2
ϑ
ϑ
ϑ
ϑ
,∀x
2.3.2 Điểm phần trăm giới hạn trên t
υ
,α:
Biến ngẫu nhiên tuân theo phân phối Student t với độ tự do υ được ký hiệu là tυ
tυ
, α là điểm phần trăm giới hạn trên nếu:
P(tυ > t
υ
, α) = α
2
) khi chưa biết σ
x
2
)
Giả sử ta có mẫu ngẫu nhiên với cỡ mẫu n từ phân phối chuẩn với số trung bình là µ và
phương sai σ
x
2
chưa biết. Nếu số trung bình mẫu là x và độ lệch chuẩn mẫu là S
x
thì khoảng tin cậy
của số trung bình tập hợp chính µ sẽ được tính bởi .
x
t
S
n
x
t
S
n
nX nx
−<<+
−−12 12,/ ,/
αα
µ
Trong đó t
n-1, α/2
là số có P(t
tS
n
X
tS
n
n
x
n
nx nx
nx nx
−<
−
<
=−
−
<−<
Thí dụ:
Mẫu ngẫu nhiên của trọng lượng 6 học sinh lớp 2 có giá trò như sau:
18,6kg 18,4kg 19,2kg 20,8kg 19,4kg 20,5kg
Tìm khoảng tin cậy 90% đối với số trung bình của tất cả học sinh lớp 2. Gỉa sử rằng phân
phối trọng lượng của tất cả học sinh lớp 2 là phân phối chuẩn.
Giải:
Trước hết ta phải tìm số trung bình mẫu x và phương sai mẫûu S
x
I x
i
x
2
i
1
2
3
4
5
6
Tổng
18.6
18.4
19.2
20.8
19.4
20.5
116.9
5
2 282 41 6 19 4833 0 96
2
(. , , ) ,−× =
Độ lệch chuẩn:
S
x
==096 098,.
Khoảng tin cậy 90% đối với trọng lượng trung bình của tất cả học sinh lớp 2 là:
x
l
S
n
x
t
S
n
nx nx
−<<+
−−12 12
,,
//
αα
µ
x = 19.4833 , S
x
= 0.98 , n = 6
2.5
Khoảng tin cậy đối với phương sai của phân phối chuẩn
σ
x
2
Nhắc lại,
Giả sử ta có mẫu ngẫu nhiên với cỡ mẫu n được lấy ra từ tập họp chính có phân phối chuẩn
N(µ
x
,σ
x
2
) và gọi S
x
2
là phương sai của mẫu.
Biến ngẫu nhiên
X
nS
n
x
x
−
=
−
1
2
2
2
Thí dụ
:
Tìm X
2
6 , 0.05
P (X
2
6
> X
2
6, 0.05
) = 0.05
X
2
6, 0.05
= 12.59
Tương tự ta có
P (X
2
γ,
> X
2
γ , α/2
) =
α
2
=>
PX X X()
,
,/
γ
αγγα
α
1
2
22
2
2
1
−
<< =− Hình Khoảng tin cậy 80%
18.89 19.48 20.07
Khoảng tin cậy 90%
18.67 19.48 20.29
Khoảng tin cậy 95%
18.45 19.48 20.51
Khoảng tin cậy 99%
2
1
2
2
2
2
11
2
2
αα
σ
Trong đó X
2
n-1, α/2
là số xó P(X
2
γ > X
2
n-1 , α/2
) = α/2
X
2
n-1 , 1 - α/2
là số P(X
2
γ > X
2
n-1 , 1 - α/2
) = α/2
(,/)
(
()
)
(
() ()
)
,
,/
,
,
,/
,/ , /
γ
αγγα
α
αα
αα
α
αα
σ
α
σα
1
2
22
2
2
11
2
−−−
<< =−
<< =−
<
−
<=−
−
<<
−
=−
Thí dụ
:
Một mẫu ngẫu nhiên gồm 15 viên thuốc nhức đầu cho thấy độ lệch chuẩn trong thành phần,
cấu tạo thuốc. Sự tập trung của họp phần cấu tạo thuốc là 0.8
Tìm khoảng tin cậy 90% của phương sai của lô thuốc nói trên.
(lô thuốc tuân theo phân phối chuẩn)
Giải:
n = 15 S
x
2
= 0.8
2
= 0.64
100(1-α) = 90 => α = 0.10 => α/2 = 0.05
Tra bảng
X
2
n-1 , 1-α/2
nS
X
x
n
x
x
n
x
x
−
<<
−
×
<<
×
<<
−−−
11
14 064
2368
14 064
657
0378 1364
2
12
2
2
2
11 2
2
f
f
P
p
n
pp
n
2
1
1
=
−
=
−
()
()
- Do E(f) = p nên f là ước lượng không chệch của p.
- Khi cỡ mẫu nhiều lớn, thì biến ngẫu nhiên chuẩn hóa
Z
f
p
ppm
=
−
−()/1
sẽ gần đúng có
phân phối chuẩn chuẩn hóa.
σ
f
p
ffn
=
−
−()/1
sẽ có phân phối chuẩn chuẩn hóa.
- Khi Z tuân theo phân phối chuẩn chuẩn hóa, ta có:
P(-Z
α/2
< Z < Z
α/2
) = 1 - α
PZ
f
p
ffn
Z
PZ ffnfPZ ffn
pfZ f fnpfZ f fn
(
()/
)
(()/ ()/)
(()/ ()/)
//
//
//
−<
−
−
<<+
−
αα
//
() ()
22
11
Trong đó Z
α/2
là số có P(Z > Z
α/2
) = α/2 với Z là biến ngẫu nhiên chuẩn chuẩn hóa.
Thí dụ:
Một công ty đi nhận một lô hàng gồm vài ngàn sản phẩm. Người giám đònh lô hàng lấy
ngẫu nhiên 81 sản phẩm và nhận thấy có 8 sản phẩm không đạt yêu cầu. Tìm khoảng tin cậy 90%
của tỉ lệ số sản phẩm không đạt yêu cầu trong toàn bộ lô hàng.
Giải:
n = 81 , X = 8 (số sản phẩm không đạt yêu cầu)
f
X
n
== =
8
81
0099.
2
, p ) của tập hợp chính dựa trên các mẫu được cho trước (nghóa là đã biết cỡ mẫu n). Với
cách làm đó, ta có thể gặp những kết quả không mong muốn là bề rộng của khoảng tin cậy w quá
lớn có nghóa là độ chính xác của ước lượng sẽ nhỏ (vì độ chính xác hay dung sai ε = w/2 có giá trò
lớn).
w = 2ε
θ
∧
- ε
θ
∧
θ
∧
+ ε
- ε nói lên độ chính xác của ước lượng, nếu ε càng nhỏ thì
θ
∧
càng gần θ
- Trong thực tế thướng sai số cho phép ta ấn đònh độ chính xác ε (có nghóa là ấn đònh trước
bề rộng khoảng tin cậy w) từ đó tính toán chọn cỡ mẫu n đủ lớn để đảm bào độ chính xác ε.
- Để xác đònh cỡ mẫu ta cần các thông tin sau:
•
Đònh rõ độ tin cậy (1 - α) thường là 90; 95 hay 98%
Thí dụ:
x
Z
n
x
Z
n
−<<+
αα
σ
µ
σ
//22
hay
µε
=±x với
ε
σ
α
=
Z
n
/2
Với độ chính xác ε cho trước, cỡ mẫu n đối với việc ước lượng µ trong N(µ,σ
x
2
), σ
x
2
n =
×
=
196 10
25
615
22
2
.
(.)
.
Chọn n = 62 ống thép
2.7.2 Cỡ mẫu đối với khoảng tin cậy của µ trong N(µ,σ
x
2
) khi chưa biết σ
x
2
Nhắc lại, khoảng tin cậy với xác suất (1 - α) x 100 của µ trong N(µ,σ
x
2
) khi chưa biết σ
x
2
sẽ
là:
x
σ
x
2
được bởi công thức.
n
tS
nx
=
−
()
,/12
22
2
α
ε
Thí dụ:
Một nhà quản lý công ty may muốn ước lượng khoảng thời gian trung bình để một công
nhân hoàn thành 1 sản phẩm. Cô ta muốn ước lượng µ với sai số ± 5 phút và với độ tin cậy 90%.
Bởi vì cô ta chưa có khái niện gì về giá trò của độ lệch chuẩn σ
x
của tập họp chính, cô ta lấy mẫu
đầu tiên với cỡ mẫu n = 15 công nhân và nhận thấy S
x
= 20 phút. Hỏi cỡ mẫu phải bằng bao nhiêu
để cô ta có thể đạt được khoảng tin cậy mong muốn.
Giải
ε = ± 5 phút
49,0.05
Tính lặp nhiều lần ta sẽ được sự hội tụ mong muốn.
2.7.3 cỡ mẫu đối với khoảng tin cậy của p trong phân phối nhò thức:
Nhắc lại, khoảng tin cậy với xác suất 100(1-α) của p sẽ là:
fZ
ff
n
PfZ
ff
n
Z
ff
n
−
−
<<+
−
=> =
−
αα
α
ε
//
/
() ()
()
22
2
= 1.96
f ==
4
25
016.
cỡ mẫu n
n =
×−
=
196 016 1 016
005
206 5
2
2
(.)
.
.
Chọn n = 207 sản phẩm
Ghi chú:
•
Sau khi có n = 207 ta phải tính lặp lại lần thứ 2 với cỡ mẫu n = 207 nghóa là phải xác
đònh f của mẫu n = 207, (***)
•
Nếu ban đầu ta chưa có biết lấy mẫu cỡ bao nhiêu. Ta có thể giả sử f ≈ 0.5 => n => tính
lặp như trên.
2
2
1
1645 051 05
01
6765
Chọn cỡ mẩu n = 68
Nhà quản lý phải thăm dò trên mẫu có cỡ mẫu n ≤ 68 khách hàng
Nếu tỉ lệ f gần bằng 0.5 thì dùng.
Nếu tỉ lệ f khác 0.5 thì ta tính lại n với f mơí thăm dò và tiếp tục tính lặp.