Chương 2NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XỬ LÝ SỐ LIỆU QUAN TRẮCGiả - Pdf 21

25 26
OPEN (1, FILE = ‘bang1_1.tke’)
READ (1, *)
READ (1, *) z1, v1
2 READ (1, *) z2, v2
IF (z.GE.z1.AND.z.LE.z2) THEN
v = v1+(v2-v1)/(z2-z1)*(z-z1)
CLOSE (1)
GOTO 1
ELSE
z1 = z2
v1 = v2
GOTO 2
ENDIF
ENDIF
1 TraB1_1 = v
RETURN
END

xXPxF <=
∗∗
. (2.1)
Để tìm giá trị của hàm phân bố thống kê ứng với
x
cho trước chỉ
cần đếm số quan trắc mà trong đó đại lượng
X
nhận giá trị nhỏ hơn
x

và chia cho tổng số quan trắc đã thực hiện n .
Hàm phân bố thống kê của đại lượng ngẫu nhiên bất kỳ - rời rạc hay
liên tục - sẽ là một hàm bậc thang gián đoạn (hình 2.1). Khi tăng số quan
27 28
trắc n , theo định lý Becnuli, với
x
bất kỳ tần suất sự kiện xX
<
tiến
dần tới xác suất (hội tụ về xác suất) của sự kiện đó. Do đó, khi tăng
n
hàm phân bố thống kê
)(xF
∗
sẽ tiến tới hàm phân bố thực thụ )(xF của
đại lượng ngẫu nhiên
X
.

i
p
∗
1
p
∗
2
p
∗
3
p
. . .
∗
i
p
. . .
∗
k
p
và dựa vào bảng này mà xây dựng tổ chức đồ (histogram) (hình 2.2). Khi
tăng số quan trắc tổ chức đồ sẽ là đồ thị của hàm mật độ phân bố đại
lượng ngẫu nhiên
X
.
Từ chuỗi thống kê hay tổ chức đồ, có thể nhận được đồ thị gần đúng
của hàm phân bố thống kê (hình 2.3).

x
p

(
)
n
mx
XD
n
i
xi
x
∑
=
∗
∗∗
−
==
1
2
D . (2.3)
Khi đã xác định được phân bố thống kê, có thể giải quyết bài toán là
trơn, tức chọn đường cong phân bố lý thuyết đều đặn về phương diện nào
đó mô tả tốt nhất phân bố thống kê đó. Biểu thức giải tích của đường
cong phân bố được chọn phụ thuộc vào một số tham số, do đó, nhiệm vụ
là trơn là chọn hợp lý các tham số
đó. Một trong những phương pháp
chọn hợp lý là phương pháp mômen, theo phương pháp này một số đặc
trưng bằng số quan trọng nhất (các mômen) của phân bố lý thuyết được
cho bằng các đặc trưng thống kê tương ứng. Thí dụ, nếu muốn mô tả
phân bố của đại lượng ngẫu nhiên
X
bằng phân bố chuẩn

câu hỏi: những sai khác này là ngẫu nhiên liên quan tới số lượng quan
trắc hạn chế hay những sai khác này là đáng kể và liên quan tới việc chọn
sai đường cong lý thuyết. Để trả lời câu hỏi này cần “những tiêu chuẩn
phù hợp”. Tư tưởng của việc sử dụng các tiêu chuẩ
n phù hợp như sau:
Trên cơ sở dữ liệu thống kê đã có, cần kiểm tra một giả thuyết
H

rằng đại lượng ngẫu nhiên
X
có hàm phân bố )(xF . Để chấp nhận hoặc
bác bỏ giả thuyết
H
, người ta xét đại lượng U đặc trưng cho mức độ
bất phù hợp của phân bố lý thuyết và phân bố thống kê. Đại lượng
U có
thể được chọn theo những cách khác nhau, thí dụ, đó có thể là tổng các
bình phương của độ lệch giữa xác suất lý thuyết
i
p và tần suất tương
ứng
∗
i
p hay tổng của những bình phương độ lệch đó nhưng với những hệ
số tỷ trọng nào đó, hay độ lệch cực đại của hàm phân bố thống kê
)(xF
∗

và hàm lý thuyết
)(xF

2
χ

Trong một số phương pháp chọn U , quy luật phân bố của U có
31 32
những tính chất rất đơn giản và khi
n đủ lớn thực tế nó không phụ thuộc
vào hàm
)(xF . Tiêu chuẩn
2
χ
của Pierson là một trong những tiêu
chuẩn phù hợp được ứng dụng nhiều nhất.
Giả sử thực hiện n quan trắc độc lập. Kết quả quan trắc được dẫn
tới
k khoảng giá trị và cho dưới dạng chuỗi thống kê (bảng phân bố tần
suất). Đòi hỏi kiểm tra xem những dữ liệu quan trắc này có phù hợp với
giả thiết rằng đại lượng ngẫu nhiên
X
có quy luật phân bố )(xF đã cho
không.
Biết quy luật phân bố lý thuyết
)(xF
, có thể tính những xác suất lý
thuyết của sự kiện
X
rơi vào từng khoảng giá trị:
k
ppp , , ,
21

i
i
p
n
C =
,
thì với
n lớn, luật phân bố của
U
có những tính chất rất đơn giản: nó
thực tế không phụ thuộc vào hàm
)(xF và số quan trắc
n
, mà chỉ phụ
thuộc vào số những khoảng giá trị
k , cụ thể khi n tăng quy luật này sẽ
dần tới phân bố
2
χ

1
. Vậy
(
)
∑
=
∗
−
==
k

==
k
i
i
ii
np
npm
U
1
2
2
χ
. (2.5)
Phân bố
2
χ
phụ thuộc vào tham số
r
, gọi là số bậc tự do.
Số bậc tự do
r
bằng số các khoảng giá trị k trừ đi số các điều kiện
liên hệ mà
∗
i
p phải tuân theo (số các điều kiện ràng buộc). Thí dụ về các
điều kiện ấy có thể là:
1)
∑
=

⎝
⎛
<
>
Γ
=
−−
00
0
2
2
1
2
1
2
2
u
uu
r
uk
ur
r
r
e
khi
khi

)(
(
)
∑
=
∗∗
=−
k
i
xixi
Dpmx
1
2
~
nếu ngoài ra phương sai lý thuyết và
phương sai thống kê cũng phải trùng nhau.
Người ta đã lập sẵn các bảng phân bố
2
χ
(bảng 2.1 là một trong số
các bảng đó). Dùng các bảng này có thể đối với từng giá trị
2
χ
và số bậc
tự do
r
tìm được xác suất
p
của sự kiện: đại lượng phân bố theo quy
luật
2

có thể xem là hiện thực hoặc ít ra là
không mâu thuẫn với dữ liệu quan trắc.
Bảng 2.1. Những giá trị
2
χ
phụ thuộc vào
r
và p
p
r

0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001
1 0,000 0,001 0,004 0,016 0,064 0,148 0,455 1,074 1,642 2,71 3,84 5,41 6,64 10,83
2 0,020 0,040 0,103 0,211 0,446 0,713 1,386 2,41 3,22 4,60 5,99 7,82 9,21 13,82
3 0,115 0,185 0,352 0,584 1,005 1,424 2,37 3,66 4,64 6,25 7,82 9,84 11,34 16,27
4 0,297 0,429 0,711 1,064 1,649 2,20 3,36 4,88 5,99 7,78 9,49 11,67 13,28 18,46
5 0,554 0,752 1,145 1,610 2,34 3,00 4,35 6,06 7,29 9,24 11,07 13,39 15,09 20,5
6 0,872 1,134 1,635 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 15,03 16,81 22,5
7 1,239 1,564 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 16,62 18,48 24,3
8 1,646 2,03 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 18,17 20,1 26,1
9 2,09 2,53 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 19,68 21,7 27,9
10 2,56 3,06 3,94 4,86 6,18 7,27 9,34 11,78 13,44 15,99 18,31 21,2 23,2 29,6
11 3,05 3,61 4,58 5,58 6,99 8,15 10,34 12,90 14,63 17,28 19,68 22,6 24,7 31,3
12 3,57 4,18 5,23 6,30 7,81 9,03 11,34 14,01 15,81 18,55 21,0 24,1 26,2 32,9
13 4,11 4,76 5,89 7,04 8,63 9,93 12,34 15,12 16,98 19,81 22,4 25,5 27,7 34,6
14 4,66 5,37 6,57 7,79 9,47 10,82 13,34 16,22 18,15 21,1 23,7 26,9 29,1 36,1
15 5,23 5,98 7,26 8,35 10,31 11,72 14,34 17,32 19,31 22,3 25,0 28,3 30,6 37,7

: skr
−
= .
3) Theo
r
và
2
χ
nhờ bảng 2.1 tìm xác suất
p
của sự kiện: đại
lượng có phân bố
2
χ
với
r
bậc tự do vượt quá giá trị
2
χ
đã tính được.
Nếu
p
rất nhỏ, giả thuyết bị bác bỏ (trong thực tế nếu
p
nhỏ hơn 0,1 thì
nên kiểm tra lại thí nghiệm); nếu
p
khá lớn, có thể xem giả thuyết không
mâu thuẫn với thực đo.
Khi sử dụng tiêu chuẩn

120 88 46 10
∗
i
p
0,240 0,176 0,092 0,020
2) Là trơn phân bố này bằng quy luật chuẩn
2
2
2
)(
2
1
)(
σ
πσ
mx
exf
−
−
= .
Tính: trung bình thống kê theo công thức (2.2) được
1680,=
∗
x
m ,
phương sai thống kê theo công thức (2.3) được 0982,=
∗
x
D . Chọn các
tham số

x
exf
π
.
Dùng bảng phân bố chuẩn (bảng 1.1) để tính các trị số của hàm
)(xf
tại các đầu mút của các khoảng giá trị:
x
−4 −3 −2 −1
0123 4
)( xf
0,004 0,025 0,090 0,199 0,274 0,234 0,124 0,041 0,008
Theo số liệu bảng này dựng tổ chức đồ và đường cong là trơn của
nó lên cùng một đồ thị.
3) Kiểm tra sự phù hợp giữa phân bố lý thuyết với phân bố thống
kê: Dùng quy luật chuẩn lý thuyết
)(xf trên đây, tìm các xác suất rơi vào
những khoảng giá trị theo công thức:
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
−
⎟
⎟

i
m
6 25 72 133 120 88 46 10
i
np
6,2 26,2 71,2 122,2 131,8 90,5 38,2 10,5
37 38
Theo công thức (2.5), tính
(
)
943
8
1
2
2
,=
−
=
∑
=i
i
ii
np
npm
χ
.
Tính số bậc tự do
8=k ,
s
(số liên hệ) = 3 (ở đây dùng quy luật

làm mức độ bất phù hợp giữa chúng. Chọn như vậy có lợi là rất dễ tính
D
và
D
có quy luật phân bố khá đơn giản. Kolmogorov đã chứng minh
được rằng dù đại lượng ngẫu nhiên
X
có hàm phân bố như thế nào thì
khi tăng không ngừng số quan trắc độc lập
n , xác suất của bất đẳng thức
λ
≥nD
sẽ tiến tới giới hạn
∑
∞
−∞=
−
−−=
k
kk
eP
22
2
11
λ
λ
)()(
. (2.6)
Những giá trị của xác suất

)(xF
∗
và hàm phân bố lý thuyết )( xF , xác định D cực đại. Sau đó xác
định đại lượng
nD=
λ
và theo bảng 2.2 tìm xác suất )(
λ
P . Nếu xác
suất
)(
λ
P rất nhỏ thì phải bác bỏ giả thuyết, nếu xác suất )(
λ
P khá lớn
thì có thể xem giả thuyết phù hợp với số liệu quan trắc.
Tiêu chuẩn Kolmogorov đơn giản hơn so với tiêu chuẩn
2
χ
nên
người ta ưa dùng. Nhược điểm: chỉ dùng trong trường hợp hàm
)( xF
hoàn toàn biết trước từ những lập luận lý thuyết, tức biết trước cả dạng và
những tham số trong nó. Trường hợp này ít gặp trong thực tế. Thường từ
suy luận lý thuyết ta chỉ biết trước dạng tổng quát của hàm
)( xF , còn
những tham số bằng số của nó được xác định theo tài liệu thống kê.
Trong khi dùng tiêu chuẩn Pierson, điểm này đã được tính đến bằng cách
giảm số bậc tự do của phân bố
2

đảm bảo cho ước lượng, với một ý nghĩa nào
đó, có chất lượng. Thí dụ, nếu ta đòi hỏi sao cho ước lượng
a
~
khi tăng
số quan trắc phải tiến dần tới tham số
a thì ước lượng a
~
đó có tính chất
vững chắc; nếu ước lượng a
~
không có xu hướng vượt quá
a hay nhỏ
hơn
a một cách hệ thống, thì ước lượng a
~
có tính chất không chệch;
nếu ước lượng không chệch
a
~
có phương sai so với các ước lượng khác
là nhỏ nhất thì ước lượng
a
~
có tính chất hữu hiệu.
2.4. Ước lượng của kỳ vọng toán học và phương sai
Người ta chứng minh được rằng ước lượng của kỳ vọng toán học mà
chúng ta dùng là trung bình số học các giá trị quan trắc
*
m tính theo

∑
=
∗
−
=
1
2
~

là vững chắc nhưng không có tính chất không chệch. Vậy nếu dùng
*
D
thay cho
D ta sẽ phạm một sai số hệ thống nào đó về phía nhỏ hơn D .
Người ta loại trừ độ chệch này bằng cách nhân
*
D với
1
−
n
n
, tức có
công thức của ước lượng của D như sau
1
1
2
−
−
=
∑

−=
∑
=
n
n
m
n
x
D
n
i
i
~
~
. (2.9)
2.5. Khoảng tin cậy và xác suất tin cậy
Kiểu ước lượng như trong mục 2.4 gọi là ước lượng điểm. Nhiều khi
41 42
đòi hỏi không chỉ tìm giá trị bằng số phù hợp của tham số
a , mà phải
đánh giá độ chính xác và độ tin cậy của nó, phải biết nếu thay tham số a
bằng ước lượng điểm
a
~
thì có thể dẫn tới những sai số nào và có thể hy
vọng rằng những sai số ấy không vượt quá một giới hạn cho trước với
mức độ chắc chắn nào.
Những bài toán kiểu như vậy đặc biệt cần thiết khi số lượng quan
trắc nhỏ, ước lượng điểm
a

=<−
~
aaP
. (2.10)
Khi đó phạm vi của các giá trị sai số khả dĩ xuất hiện khi thay
a bằng a
~

sẽ chỉ là
ε
± ; những sai số lớn hơn về giá trị tuyệt đối sẽ chỉ xuất hiện
với xác suất nhỏ
β
α
−
=
1. Viết lại (2.10) thành
()
β
ε
ε
=
+
<<− aaaP
~
~
, (2.11)
đẳng thức (2.11) có nghĩa là: với xác suất
β
, giá trị chưa biết của tham

điểm a trên trục số (hình 2.4).
0
1
a
a
a
~
2
a
β
I

Hình 2.4. Biểu diễn khoảng tin cậy
Xác suất
β
gọi là xác suất tin cậy, còn khoảng
β
I gọi là khoảng tin
cậy. Những ranh giới của khoảng
β
I :
ε
−
=
aa
~
1
và
ε
+

phụ thuộc vào luật
phân bố của đại lượng
X
và do đó, phụ thuộc vào những tham số chưa
biết của nó (cụ thể vào chính tham số
a ).
Để khắc phục khó khăn này, có thể sử dụng một phương pháp gần
đúng thô thiển như sau: thay những tham số chưa biết trong biểu thức của
ε
bằng những ước lượng điểm. Khi số lượng quan trắc khá lớn (khoảng
3020 ÷ ), thì phương pháp này thường cho những kết quả tạm thoả mãn.

43 44
2.5.1. Khoảng tin cậy đối với kỳ vọng toán học
Giả sử thực hiện
n
thí nghiệm độc lập với đại lượng ngẫu nhiên
X
, các đặc trưng của nó - kỳ vọng toán học m và phương sai D chưa
biết. Đối với những tham số này đã nhận được những ước lượng:
1
1
2
1
−
−
==
∑∑
==
n

lượng ngẫu nhiên
i
X độc lập và phân bố như nhau, và do đó, theo định
lý tới hạn trung tâm, khi
n đủ lớn luật phân bố của nó gần trùng với luật
phân bố chuẩn. Trong thực tế, thậm chí với số lượng các số hạng không
lớn lắm (khoảng
2010
÷
), luật phân bố của tổng có thể xem gần đúng là
chuẩn. Vậy ta sẽ xuất phát từ chỗ đại lượng
m
~
phân bố theo luật chuẩn.
Các đặc trưng của luật này - kỳ vọng toán học và phương sai tuần tự bằng
m
và
nD /
. Giả sử đại lượng D đã biết, và ta tìm đại lượng
β
ε
sao cho
(
)
βε
β
=<−
~
mmP .
Biến đổi vế trái của đẳng thức trên đây bằng cách dùng các công

Φ+−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ=
=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−Φ−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ=
⎟

σ
ε
σ
ε
σ
ε
σ
ε
σ
ε
εεε
βββ
ββββ
βββ

Vậy
β
σ
ε
β
=−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ

Φ=
∗
2
1
arg
~
β
σε
β
m
, (2.13)
trong đó
(
)
−Φ
∗
xarg hàm ngược của hàm
(
)
x
∗
Φ , tức giá trị của đối số
mà ứng với nó hàm phân bố chuẩn bằng
x
.
Bảng 2.3. Những trị số
β
t tương ứng với xác suất tin cậy
β

D
~
thay cho nó, vậy ta có
nD
m
/
~
~
=
σ
. (2.14)
Như vậy, bài toán dựng khoảng tin cậy đã được giải một cách gần
đúng
)
~
;
~
(
βββ
ε
ε
+
−= mmI . (2.15)
Để tránh nội suy ngược trong bảng hàm
)(x
∗
Φ khi tính
β
ε
, người

βββ
+
−= . (2.17)
Như vậy đại lượng
β
t
chính là số lần độ lệch bình phương trung
bình cần phải đặt về phía bên trái và bên phải kể từ tâm tản mạn để cho
xác suất rơi vào khoảng đó bằng
β
.
Thí dụ 2.1: Có 20 quan trắc về đại lượng
X
viết thành bảng như
sau:
i
i
x
i
i
x
i
i
x
i
i
x
1 10,5 6 10,6 11 10,6 16 10,9
2 10,8 7 10,9 12 11,3 17 10,8
3 11,2 8 11,0 13 10,5 18 10,7

tìm được 2821,
=
β
t ,
072,0.
~
=
=
m
t
σ
ε
ββ
.
Các ranh giới tin cậy sẽ là:
.,,
~
;,,
~
85100720
71100720
2
1
=+=
=
−
=
mm
mm

i
)
~
(
~
, (2.18)
trong đó
n
X
m
n
i
i
∑
=
=
1
~
.
47 48
Yêu cầu dựng gần đúng khoảng tin cậy cho phương sai.
Từ công thức (2.18) thấy rằng đại lượng
D
~
là tổng n đại lượng
ngẫu nhiên dạng
1
2
−
−

~
[ DD rất phức tạp nên ở đây chỉ dẫn ra biểu thức cuối cùng:
2
4
1
31
D
nn
n
n
DD
)(
]
~
[
−
−
−=
μ
, (2.19)
trong đó
−
4
μ
mô men tâm bậc bốn của đại lượng
X
.
Để dùng biểu thức này, cần phải đưa vào đó những trị số của
4
μ

Tuy nhiên, trong thực tế thường là dạng của luật phân bố của đại lượng
X
được biết trước, chỉ không biết trước các tham số của phân bố đó mà
thôi. Khi đó có thể biểu diễn
4
μ
qua D .
Thí dụ, trường hợp thường gặp nhất - đại lượng
X
phân bố theo
luật chuẩn; khi đó mô men tâm bậc bốn được biểu diễn qua phương sai
như sau
2
4
3D=
μ

và công thức (2.19) sẽ cho kết quả
22
1
33
D
nn
n
D
n
DD
)(
]
~

n
D
~

~
1
2
−
=
σ
. (2.22)
Trong một số trường hợp luật phân bố khác, người ta cũng có công
thức biểu thị
4
μ
qua D . Nhưng khi dạng của luật phân bố của đại lượng
X
chưa biết, nếu không có cơ sở đặc biệt nào để khẳng định là nó khác
rõ rệt so với luật chuẩn (có độ nhọn dương hoặc âm đáng kể), thì vẫn cứ
nên sử dụng công thức (2.22) để nhận định về
D
~
σ
.
Tóm lại, nếu giá trị định hướng
D
~
σ
đã tìm được bằng cách nào đó,
thì có thể dựng khoảng tin cậy cho phương sai tương tự như cho kỳ vọng

⎝
⎛
+
Φ=⇒=−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
Φ⇒
=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−−
Φ−
⎟
⎟
⎠
⎞
⎜
⎜

mDmD
DDDP

Vậy khoảng tin cậy của phương sai là
)
~
;
~
(
~~
DD
tDtDI
σσ
βββ
+−= , (2.23)
ở đây đại lượng
⎟
⎠
⎞
⎜
⎝
⎛
+
Φ=
∗
2
1
β
β
t tuỳ thuộc vào xác suất tin cậy

=
D
σ
.
Theo công thức (2.23) khoảng tin cậy của phương sai bằng
)091,0;037,0(=
β
I .
Khoảng tin cậy tương ứng của độ lệch bình phương trung bình là
)30,0;19,0( .
2.5.3. Những phương pháp chính xác dựng khoảng tin cậy cho
các tham số của đại lượng ngẫu nhiên phân bố chuẩn
Để tìm chính xác những khoảng tin cậy nhất thiết phải biết trước
dạng của luật phân bố đại lượng ngẫu nhiên
X
, trong khi đó nếu dùng
các phương pháp gần đúng thì điều đó không cần thiết.
Ý tưởng của các phương pháp chính xác như sau: Một khoảng tin
cậy bất kỳ của ước lượng
a
~
được tìm từ điều kiện biểu thị xác suất thực
hiện những bất đẳng thức nào đó mà ước lượng
a
~
có mặt trong đó. Luật
phân bố của ước lượng
a
~
trong trường hợp tổng quát phụ thuộc vào

~

−
= , (2.24)
trong đó
1
1
2
1
−
−
==
∑∑
==
n
mX
D
n
X
m
n
i
i
n
i
i
)
~
(
~

−
−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
+
Γ−
Γ
=
π
, (2.25)
ở đây
−
Γ )( x
hàm Gamma:
∫
∞
−−
=Γ
0
1
)( udeux
ux
.

1
⎪
⎩
⎪
⎨
⎧
<
>
Γ
=
−
−
−
−
−
v
vev
vk
n
n
n
n
(2.27)
Bây giờ ta xét cách sử dụng các luật phân bố trên đây để xây dựng
khoảng tin cậy cho các tham số
m
~
và D
~
.

i
.
Đòi hỏi dựng khoảng tin cậy cho hai tham số ứng với xác suất tin cậy
β
.
Trước hết dựng khoảng tin cậy cho kỳ vọng toán học. Đương nhiên
ta lấy khoảng này đối xứng qua
m
~
, ký hiệu
β
ε
là nửa độ dài của
khoảng. Đại lượng
β
ε
cần lấy sao cho thoả mãn điều kiện
(
)
βε
β
=<−
~
mmP . (2.28)
Ta sẽ chuyển từ đại lượng ngẫu nhiên
m
~
ở vế trái đẳng thức này thành
đại lượng ngẫu nhiên
T

⎠
⎞
⎜
⎜
⎜
⎜
⎜
⎝
⎛
<
−
n
DD
mmn
P

hay
β
n
D
TP

~
=

β
)( ) (
1
==<
∫
−
−
t
t
n
dttStTP
. (2.31)
Từ công thức (2.25) thấy rằng
)(tS
n 1−
là hàm chẵn, vì vậy (2.31) sẽ
53 54
cho
∫
=
−
β
β
t
n
tdtS
0
1
)( 2 . (2.32)
Đẳng thức (2.32) xác định đại lượng

t theo bảng 2.4 và cho
~n
D
t
ββ
ε
= , (2.33)
ta tìm được nửa độ dài của khoảng tin cậy
β
I và bản thân khoảng đó:
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+−= ~
cho kỳ vọng và dựng khoảng tin cậy 90 % cho nó
(tức khoảng tin cậy ứng với xác suất tin cậy
90,
=
β
).
Giải: Ta có
6640 ,
~
;,
~
==
Dm .
Theo bảng 2.4 với 41
=
−
n và 90,
=
β
tìm được
132,
=
β
t ,
từ đó
452,
~
≈=
n
D

=
β
, được
3281,
=
β
t ,
từ đó
075,0
~
≈=
n
D
t
ββ
ε

So sánh với kết quả của thí dụ 2.1, thấy rằng sự sai khác rất không
đáng kể:
(
)
85107110 , ;,
=
β
I .
55 56
Bảng 2.4. Những giá trị
β
t thoả mãn đẳng thức
β

12 128 259 395 539 695 873 1,083 1,356 1,782 2,18 2,68 3,06 4,32
13 128 259 394 538 694 870 1,079 1,350 1,771 2,16 2,65 3,01 4,22
14 128 258 393 537 692 868 1,076 1,345 1,761 2,14 2,62 2,98 4,14
15 128 258 393 536 691 866 1,074 1,341 1,753 2,13 2,60 2,95 4,07
16 128 258 392 535 690 865 1,071 1,337 1,746 2,12 2,58 2,92 4,02
17 128 257 392 534 689 863 1,069 1,333 1,740 2,11 2,57 2,90 3,96
18 127 257 392 534 688 862 1,067 1,330 1,734 2,10 2,55 2,88 3,92
19 127 257 391 533 688 861 1,066 1,328 1,729 2,09 2,54 2,86 3,88
20 127 257 391 533 687 860 1,064 1,325 1,725 2,09 2,53 2,84 3,85
21 127 257 391 532 686 859 1,063 1,323 1,721 2,08 2,52 2,83 3,82
22 127 256 390 532 686 858 1,061 1,321 1,717 2,07 2,51 2,82 3,79
23 127 256 390 532 685 858 1,060 1,319 1,714 2,07 2,50 2,81 3,77
24 127 256 390 531 685 857 1,059 1,318 1,711 2,06 2,49 2,80 3,74
25 127 256 390 531 684 856 1,058 1,316 1,708 2,06 2,48 2,79 3,72
26 127 256 390 531 684 856 1,058 1,315 1,706 2,06 2,48 2,78 3,71
27 127 256 389 531 684 855 1,057 1,314 1,703 2,05 2,47 2,77 3,69
28 127 256 389 530 683 855 1,056 1,313 1,701 2,05 2,47 2,76 3,67
29 127 256 389 530 683 854 1,055 1,311 1,699 2,04 2,46 2,76 3,66
30 127 256 389 530 683 854 1,055 1,310 1,697 2,04 2,46 2,75 3,65
40 126 255 388 529 681 851 1,050 1,303 1,684 2,02 2,42 2,70 3,55
60 126 254 387 527 679 848 1,046 1,296 1,671 2,00 2,39 2,66 3,46
120 126 254 386 526 677 845 1,041 1,289 1,658 1,980 2,36 2,62 3,37
∞
0,126 0,253 0,385 0,524 0,674 0,842 1,036 1,282 1,645 1,960 2,33 2,58 3,29
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,95 0,98 0,99 0,999
1−n
β

Dựng khoảng tin cậy cho phương sai:
Ta xét ước lượng không chệch của phương sai

−
=
n
D
VD
~
. (2.35)
Biết quy luật phân bố của đại lượng
V , có thể tìm khoảng
β
i mà nó
rơi vào với xác suất cho trước
β
.
Quy luật phân bố
)(vk
n 1−
của đại lượng V có dạng như trên hình
2.5.
Xuất hiện câu hỏi: chọn khoảng
β
i như thế nào? Nếu như quy luật
phân bố của
V
đối xứng (như quy luật chuẩn hay quy luật Student) thì
đương nhiên lấy khoảng
β
i đối xứng qua kỳ vọng toán học. Trong
trường hợp đang xét, quy luật
)(vk

χ
với r bậc tự do. Trong trường hợp
đang xét
1
−
= nr . Ấn định 1−= nr và tìm trong dòng tương ứng của
bảng 2.1 hai giá trị
2
χ
: một giá trị ứng với xác suất
2
1
α
=p ; giá trị khác
ứng với xác suất
2
1
2
α
−=p . Ký hiệu những giá trị ấy là
2
1
χ
và
2
2
χ
.
Khoảng
β

2
1
χ
>V ; với xác suất
2
1
α
− ,
2
2
χ
>V . Suy ra với
xác suất
2
11
α
+− thì
2
2
χ
<V . Vậy muốn cho V nằm ở bên ngoài
β
i ,
tức
2
1
χ
>V hay
2
2

<
<
)(
21
DDDP
.
Ta dựng khoảng ) ;(
21
DDI
=
β
phủ lên điểm D khi và chỉ khi đại
lượng
V rơi vào khoảng
β
i .
Khoảng
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−−
=
2
2
2

1
χ
)(
~

tương đương với các bất đẳng thức
2
1
χ
<V ;
2
2
χ
>V ,
mà những bất đẳng thức này lại được thỏa mãn với xác suất
β
. Như vậy
khoảng tin cậy cho phương sai được biểu diễn bằng công thức (2.36).
Thí dụ 2.5: Tìm khoảng tin cậy cho phương sai trong điều kiện thí
dụ 2.2 nếu biết rằng đại lượng
X
có phân bố chuẩn.
Giải: Ta có 80,
=
β
; 20,
=
α
; 10
2

2
2
,=
χ
.
Theo công thức (2.36) tìm khoảng tin cậy cho phương sai
59 60
), ;,( 10400450=
β
I .
Khoảng tin cậy tương ứng cho độ lệch bình phương trung bình:
(0,21; 0,32). Khoảng này chỉ khác một chút so với kết quả đã nhận được
ở thí dụ 2.2.
2.6. Ước lượng xác suất theo tần suất
Trong thực tế thường người ta phải ước lượng xác suất chưa biết
p

của sự kiện
A
theo tần suất *p của nó qua n thí nghiệm độc lập.
Bây giờ ta xem tần suất của sự kiện
A
qua n thí nghiệm độc lập là
tung bình số học của các giá trị quan trắc của đại lượng
X
mà đại lượng
này trong mỗi thí nghiệm riêng nhận giá trị 1 nếu sự kiện
A
xảy ra và
nhận giá trị 0 nếu sự kiện

. (2.38)
Có thể chứng minh được rằng phương sai này là nhỏ nhất có thể có,
tức ước lượng
*p là ước lượng hữu hiệu.
Tóm lại, có thể nhận tần suất
*p làm ước lượng điểm cho xác suất
chưa biết
p
.
Bây giờ ta xét vấn đề về độ chính xác và độ tin cậy của ước lượng
trên, tức về việc dựng khoảng tin cậy.
Bài toán này là một trường hợp bộ phận của bài toán về khoảng tin
cậy của kỳ vọng toán học đã xét ở mục trước, song nó được xem xét một
cách riêng biệt vì ở đây có nét đặc thù: đại lượng
X
là đại lượng ngẫu
nhiên rời rạc chỉ với hai giá trị có thể có là 0 và 1. Ngoài ra, kỳ vọng toán
học của nó p và phương sai
)( pppq
−
=
1 liên quan với nhau bằng mối
liên hệ hàm. Điều này làm đơn giản bài toán dựng khoảng tin cậy.
1)
Xét trường hợp đơn giản nhất, khi số thí nghiệm n khá lớn, còn
xác suất p không quá lớn mà cũng không quá bé
. Khi đó có thể cho rằng
tần suất
*p là đại lượng ngẫu nhiên có phân bố gần chuẩn (theo định lý
giới hạn trung tâm đối với các số hạng phân bố như nhau). Các tính toán

+
−
pp sao cho đại lượng *p rơi vào khoảng này
với xác suất
β
:
(
)
βε
β
=<− * ppP . (2.40)
Vì
*p
phân bố chuẩn nên vế trái của (2.40) có thể biểu diễn qua
các giá trị của hàm phân bố chuẩn:
61 62
()
β
σ
ε
ε
β
β
=−
⎟
⎟
⎠
⎞
⎜
⎜

arg hàm ngược của hàm phân bố chuẩn
∗
Φ
.
Ta cũng dùng kí hiệu
⎟
⎠
⎞
⎜
⎝
⎛
+
Φ=
∗
2
1
β
β
argt .
Khi đó
*

p
t
σ
ε
ββ
= , (2.41)
ở đây
β

2
β
. (2.43)
Các ranh giới tin cậy
1
p và
2
p có thể tìm từ (2.43) bằng cách thay
dấu bất đẳng thức bằng dấu đẳng thức. Giải phương trình bình phương
nhận được đối với
p
ta được hai nghiệm:
⎪
⎪
⎪
⎪
⎪
⎭
⎪
⎪
⎪
⎪
⎪
⎬
⎫
+
+
−
++
=

n
t
n
p*p*
t
n
t
p
p
β
β
β
β
β
β
β
β
2
22
2
2
22
1
4
1
2
1
4
1
2

⎭
⎪
⎪
⎬
⎫
−
+=
−
−=
.
*)(*
*
,
*)(*
*
n
pp
tpp
n
pp
tpp
β
β
1
1
2
1
(2.45)
Những công thức này cũng có thể nhận được ngay nếu dùng cách
gần đúng như khi dựng khoảng tin cậy cho kỳ vọng toán học ở mục

Hai kết quả không khác nhau một cách đáng kể.
2)
Khi số thí nghiệm ít (cũng như nếu xác suất p rất lớn hay rất
nhỏ)
thì không thể xem tần số phân bố chuẩn được nữa. Trong trường
hợp này người ta dựng khoảng tin cậy xuất phát từ quy luật phân bố
chính xác của tần số. Có thể dễ dàng khẳng định rằng đây là phân bố nhị
thức. Thật vậy, số lần xuất hiện sự kiện
A
trong n thí nghiệm phân bố
theo quy luật nhị thức: xác suất của việc sự kiện A xuất hiện đúng
m
lần bằng
mnmm
nnm
qpCP
−
=
,
, (2.46)
(
! )( !
!
mnm
n
C
m
n
−
=

suất rơi về phía trái và phía phải nó sẽ lớn hơn
2
α
.
Biên dưới
1
p của “khoảng tin cậy” sẽ được xác định bằng cách giải
phương trình sau đây theo
p
:
2
1
α
=−
∑
=
−
n
npm
mnmm
n
ppC
*
)( . (2.47)
Biên trên
2
p xác định bằng cách giải phương trình sau đây theo p :
2
1
0

. Hình 2.6 là thí dụ biểu thị bằng đồ thị nghiệm của
(2.47) và (2.48) cho trường hợp 90,
=
β
(lấy từ cuốn sách Теория
вероятностией
của Е. С. Вентцель).
Để tìm khoảng tin cậy
β
I theo đồ thị ta đặt trên trục hoành giá trị
tần số *p tìm được theo quan trắc, vẽ qua điểm này một đường thẳng
song song với trục tung, cắt các đường cong ứng với n đã cho ở hai
điểm. Tung độ của hai điểm ấy sẽ là giới hạn tin cậy
1
p và
2
p .

65 66

Hình 2.6. Đồ thị của nghiệm phương trình 2.47

Thí dụ 2.7: Tìm khoảng tin cậy
) ,(
21
ppI
β
đối với xác suất của
một sự kiện nếu trong 50 lần quan trắc tần suất của nó bằng
40,*

A xảy ra 12 lần. Tìm gần đúng số lần quan trắc n cần thiết để sao cho
với xác suất 90,
=
β
sai số do thay thế xác suất bằng tần suất không vượt
quá 20 %.
Giải: Ta xác định sai số tới hạn cho phép:
10096048020 ,,,,
≈
=
⋅
=
Δ
.
Dùng các đường cong trên hình 2.6 dựng đồ thị mới: trên trục hoành
đặt những số lượng quan trắc
n khác nhau, trên trục tung − các ranh giới
tin cậy của xác suất (hình 2.7).

Hình 2.7. Đồ thị để xác định số lần quan trắc n
theo xác suất và ranh giới tin cậy
Đường thẳng trung bình song song với trục hoành ứng với tần suất
quan trắc
480
25
12
,* ==p
. Phía trên và phía dưới của đường này vẽ các
đường
)(np

A
với xác suất nhỏ p không gặp thấy qua n quan trắc. Số
lượng thí nghiệm
n
phải bằng bao nhiêu để cho ranh giới trên của xác
suất của sự kiện bằng giá trị
2
p cho trước:
)( lg
)( lg
2
1
1
p
n
−
−
=
β
.
Thí dụ, với 950,
=
β
và 050
2
,=p , 59458
≈
≈
,n .
Cũng có thể sử dụng các công thức gần đúng sau đây:

0
=
ic : từ số bậc tự do )(n và xác suất )(xs tra ra
C giá trị
2
χ
. Tham số 1
=
ic : từ n và
2
χ
tra
C ra xác suất
x
s
. Nếu 30>n có thể ngoại suy.
SUBROUTINE TraB21 (ic, n, xs, chi)
REAL p(14), d1(14),d2(14), chi
PRINT ‘(” Số bậc tự do: “,\)’
READ *, n
IF (ic.EQ.0) THEN
PRINT ‘(” Xác suất: “,\)’
READ *, xs
ELSE
PRINT ‘(1X,”Giá trị ChiSQ: “,\)’
READ *, chi
ENDIF
OPEN(9, FILE = ’Bang2_1.tke’)
READ(9,*)
READ(9,*) (p(i), i=1, 14)

j=j+1
GOTO 4
ENDIF
ELSE
IF (xs.LT.p(1)) THEN
j=1
ELSE IF (xs.GT.p(14)) THEN
j=13
ELSE
j=1
6 IF (xs.GE.p(j).AND.xs.LE.p(j+1)) GOTO 5
j=j+1
GOTO 6
ENDIF
ENDIF
5 chi=d1(j)+(d1(j+1)-d1(j))*(xs-p(j))/(p(j+1)-p(j))
IF (chi.LT.0.0) chi = 0.0
PRINT *
IF (ic.EQ.0) THEN
PRINT ‘(” ChiSQ = “, F6.2)’, chi
ELSE
PRINT ‘(” Xác suất = “, F6.3)’, chi
ENDIF
RETURN
END B. Mã Fortran của hàm tra bảng phân bố Kolmogorov (bảng 2.2)
C Đối số của hàm là lamda )0,20,0(
÷

β

C Giá trị hàm là
β
t theo bảng 2.3
C Hàm cho phép ngoại suy ra ngoài khoảng trên.

FUNCTION Tbeta (beta)
REAL b1, tb1, b2, tb2
OPEN (9, FILE = ’Bang2_3.tke’)
READ (9,*)
READ (9,*) b1, tb1
2 READ (9,*) b2, tb2
IF (b2.GE.beta.OR.b2.EQ.0.999) GOTO 1
b1 = b2
tb1 = tb2
GOTO 2
1 Tbeta = tb1+(tb2-tb1)/(b2-b1)*(beta-b1)
RETURN
END

D. Mã Fortran của hàm tra bảng 2.4
C Theo 1
−
n (biến n ) và
β
(biến beta) hàm này tra ra giá trị
β
t
C thỏa

2 CLOSE(9)
73 74
DO j=1, 13
t(j)= t(j)+(d(j)-t(j))/(n2-n1)*(n-n1)
ENDDO
ENDIF
IF (beta.LT.b(1)) THEN
j=1
ELSE IF (beta.GT.b(13)) THEN
j=12
ELSE
j=1
3 IF (beta.GE.b(j).AND.beta.LE.b(j+1)) GOTO 4
j=j+1
GOTO 3
ENDIF
4 TraB24 = t(j)+(t(j+1)-t(j))*(beta-b(j))
* /(b(j+1)-b(j))
RETURN
END
Chương 3

),( yxF
Xác suất cùng thực hiện hai bất đẳng thức
x
X
<
và
y
Y
< được
gọi là
hàm phân bố hệ hai đại lượng ngẫu nhiên ) ,( YX :

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Chương 2NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XỬ LÝ SỐ LIỆU QUAN TRẮCGiả - Pdf 21

Tài liệu, ebook tham khảo khác

Học thêm