PHƯƠNG PHÁP THỐNG KÊ TRONG KHÍ HẬU ( Phan Văn Tân - NXB Đại học Quốc gia Hà Nội ) - CHƯƠNG 3 - Pdf 21

79
CHƯƠNG 3. MỘT SỐ PHÂN BỐ LÝ THUYẾT
3.1 KHÁI NIỆM MỞ ĐẦU
Trong chương 2 ta đã nghiên cứu một số phương pháp phân tích, khảo sát
số liệu dựa trên các đặc trưng thống kê thông thường. Về bản chất, các phương
pháp đó cho phép chỉ ra những thuộc tính của các đặc trưng yếu tố khí tượng,
khí hậu căn cứ vào những tập số liệu cụ thể thu thập được từ quan trắc thực tế.
Tuy nhiên, do hạn chế của dung lượng mẫu, trong nhi
ều trường hợp những kết
quả nhận được có thể sẽ phản ánh không chính xác bản chất của quá trình được
xét. Chẳng hạn, khi nghiên cứu nhiệt độ tối cao ở một khu vực nào đó, trong
chuỗi số liệu hiện có phạm vi biến đổi của nó là 25
o
C-39
o
C. Khi tiến hành xây
dựng hàm phân bố thực nghiệm theo phương pháp chia khoảng, tần suất xuất
hiện nhiệt độ tối cao trong khoảng từ 27-28
o
C bằng 0. Xét về mặt vật lý, điều đó
là vô lý, vì với khoảng biến thiên của nhiệt độ là 25
o
C-39
o
C thì sự kiện nhiệt độ
rơi vào khoảng 27-28
o
C không thể không xảy ra. Rõ ràng ở đây không phải do

- Phân bố lý thuyết cho phép làm trơn và nội suy các đặc trưng xác suất. Rõ
ràng số liệu thực nghiệm phụ thuộc vào dung lượng mẫu. Như đã nêu ở trên, sự
hạn chế của dung lượng mẫu có thể dẫn đến sự gián đoạn hoặc đứt quảng trong
phân bố thực nghiệm. Việc xấp xỉ phân bố thực nghiệm b
ởi một phân bố lý
thuyết cho tập mẫu tạo khả năng liên tục hóa những khoảng không có số liệu, từ
đó cho phép ước lượng xác suất trong những khoảng này.
- Phân bố lý thuyết cho phép tính toán ngoại suy các đặc trưng xác suất. Do
sự hạn chế của dung lượng mẫu, phân bố thực nghiệm chỉ có thể phản ánh được
sự biến đổi của đặc trưng yếu tố trong phạ
m vi biến đổi của tập mẫu. Việc ước
lượng xác suất cho những sự kiện nằm ngoài phạm vi của tập mẫu đòi hỏi phải
chấp nhận những giả thiết về cách xử lý như là chưa có số liệu quan trắc. Hãy
trở lại ví dụ trên đây, với khoảng biến thiên của nhiệt độ tối cao là 25
o
C-39
o
C, ta
sẽ không có cơ sở nào để phán đoán về các sự kiện nhiệt độ tối cao lớn hơn 39
o
C
hoặc nhỏ hơn 25
o
C (mặc dù trên thực tế chúng có thể xảy ra) nếu chúng ta
không xấp xỉ phân bố thực nghiệm bởi một phân bố lý thuyết.
Cũng cần nhấn mạnh rằng, việc xấp xỉ phân bố thực nghiệm bởi một phân
bố lý thuyết là một quá trình xử lý tinh tế. Sau khi xây dựng hàm phân bố thực
nghiệm, ta cần phải xem xét, khảo sát tỷ mỷ và lựa chọn một trong các lớp hàm
lý thuyết sao cho nó phù hợ
p nhất với phân bố thực nghiệm. Mặt khác, để tránh

phân bố xác suất được cho bởi:
X
i
0 1
p q = 1-p p
Do đó biến ngẫu nhiên X =
X
i
i
n
=

1
chỉ số lần xuất hiện sự kiện A trong loạt
n phép thử và sẽ có phân bố dạng:
X 0 1 n-1 n
p p
0
p
1
p
n-1
p
n

trong đó p
k
=
C
n

k
p

Hình 3.1 Hàm mật độ phân bố nhị thức với n=20, p=0.4
Ví dụ 3.2 Xét sự kiện A là lượng mưa tháng 7 ở một trạm vượt quá 400
mm. Số liệu thống kê trong bảng 3.1 dẫn ra những năm có A xuất hiện trong 105
năm quan trắc. Hãy tính xác suất để trong 10 năm quan trắc: a) Có 1 năm mà
lượng mưa tháng 7 vượt quá 400 mm; b) Có ít nhất 1 năm mà lượng mưa tháng
7 vượt quá 400 mm.
Bảng 3.1 Những năm có lượng mưa tháng 7 trên 400 mm
trong thời gian quan trắc 105 năm
1892 1904 1928 1935 1960
1894 1914 1929 1939 1965
1899 1926 1933 1942 1967
1902 1927 1934 1943
Từ bảng 3.1, trong 105 năm quan trắc có tất cả 19 năm xuất hiện sự kiện A.
Vậy ước lượng xác suất của A là P(A)=p=19/105=0.181. Theo yêu cầu của bài
toán, ta có n=10, p=0.181. Do đó, áp dụng (3.2.1) ta được:
a) Xác suất để trong 10 năm quan trắc có 1 năm mà lượng mưa tháng 7
vượt quá 400 mm sẽ là: P(X=1) = P
10
(1) = C
10
1
(0.181)
1
(1-0.181)
9
= 0.3001.
b) Xác suất để trong 10 năm quan trắc có ít nhất 1 năm mà lượng mưa

n sao cho khi n→∞ mà P(A)=p→0 và np→λ=const,
thì phân bố nhị thức sẽ tiệm cận đến phân bố Poisson:
P(X=k) =
e
k
k
−λ
λ
!
, k=0,1,2, (3.3.1)
Rõ ràng phân bố Poisson chỉ phụ thuộc vào một tham số λ, nó có thứ
nguyên là số lần xuất hiện trên một đơn vị thời gian. Đồ thị hàm mật độ xác suất
của phân bố Poisson được dẫn ra trên hình 3.2.
84
0
0.1
0.2
0.3
0 2 4 6 8 10 12 14 16 18 20
k
p

Hình 3.2 Hàm mật độ phân bố Poisson với λ=4
Ví dụ 3.3 Bảng 3.2 dẫn ra số liệu về số lần xuất hiện lốc hàng năm ở một
địa phương trong vòng 30 năm quan trắc, từ 1959 đến 1988. Gọi X là biến ngẫu
nhiên chỉ số lần xuất hiện lốc hàng năm ở đây và giả thiết rằng X có phân bố
Poisson. Ta thấy, tổng số có 138 lần xuất hiện lốc trong 30 năm, vậy trung bình

2

Hình 3.3 Biểu đồ biểu diễn mật độ xác suất xuất hiện lốc
1. Lý thuyết; 2. Thực nghiệm
Từ hình 3.3 có thể nhận thấy rằng mật độ xác suất lý thuyết đạt giá trị lớn
nhất khi k=4 (hàng năm có 4 lần xuất hiện lốc). Trong khi đó, theo kết quả thực
nghiệm, xác suất để hàng năm có 3 lần xuất hiện lốc đạt giá trị lớn nhất. Hơn
nữa, cũng theo phân bố thực nghiệm, xác suất khi k=4 nhỏ hơn rất nhiều so với
khi k=3 và k=5. Xét về ý nghĩ
a vật lý, điều đó hoàn toàn khó lý giải. Tình huống
xảy ra tương tự khi so sánh k=2 với k=1 và k=3. Rõ ràng, trong trường hợp này
việc xấp xỉ phân bố thực nghiệm bởi phân bố lý thuyết đã tạo cho ta khả năng
phán đoán và nhận định tốt hơn mà không lệ thuộc vào kết quả thực nghiệm.
3.4 PHÂN BỐ CHUẨN VÀ PHÂN BỐ CHUẨN CHUẨN HOÁ
Phân bố chuẩn, hay còn gọi là phân bố Gauss, đóng vai trò hết sức quan
trọng trong thống kê cổ điển, nó được ứng dụng rộng rãi và hiệu quả trong khí
tượng, khí hậu.
Biến ngẫu nhiên X được gọi là có phân bố chuẩn nếu hàm mật độ xác suất
của nó có dạng:
f(x) =
1
2
1
2
2
σπ
μ
σ
e
x

Để sử dụng phân bố chuẩn biểu diễn một tập số liệu ta cần ước lượng chính
xác hai tham số μ và σ. Như đã được biết trong chương 2, các ước lượng này là
mômen gốc mẫu bậc nh
ất x và độ lệch chuẩn
s
*
. Ta hãy xét thêm một vài đặc
trưng khác của phân bố chuẩn.
0
0.1
0.2
0.3
0.4
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9
X
f(x)
σ=1
σ=2
σ=3

(a)
0
0.1
0.2
0.3
0.4
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
u


3
=0.
Mômen trung tâm bậc chẵn:

μ
2r
=
()()xfxdx
r

−∞
+∞

μ
2
=
1
2
1
2
2
π
σ
rr
rΓ()+
(3.4.5)
Hay
μ
2r

Tương ứng với hàm mật độ (3.4.1) ta có hàm phân bố xác suất:
F(x) =
1
2
1
2
2
σπ
μ
σ
edt
t
x





()
(3.4.6)
Xác suất để đại lượng ngẫu nhiên X nhận giá trị trong khoảng (
α;β) được
xác định bởi:
PX e dx
x
()αβ
σπ
μ
σ
α



ΦΦ
βμ
σ
αμ
σ

Hay P(
α<X<β) =















ΦΦ
βμ
σ
αμ
σ

+







Φ
x μ
σ
(3.4.9)
Từ (3.4.7) suy ra xác suất để đại lượng ngẫu nhiên X nhận giá trị trong
khoảng đối xứng đối với kỳ vọng toán học (
μ-ε; μ+ε) là:
P(
X −<= − − =με
ε
σ
ε
σ
ε
σ
)()() ()ΦΦ Φ2 (3.4.10)
Hay P(
X −>=−με
ε
σ
)()12Φ
(3.4.10’)

2
π
edt
t
u

−∞

(3.4.12)
Các hệ thức (3.4.11) và (3.4.12) được gọi là hàm mật độ và hàm phân bố
chuẩn chuẩn hóa. Hàm (3.4.11) là một hàm chẵn, đồ thị của nó có dạng đối xứng
với trục đối xứng là trục tung (hình 3.4b).
89
Trong thực tế để áp dụng phân phối chuẩn người ta thường thực hiện phép
biến đổi chuỗi số liệu ban đầu về dạng chuẩn hóa:
u =
xx−
σ

Khi đó chuỗi mới nhận được sẽ có trung bình bằng 0 và phương sai bằng 1.
Phép biến đổi này trong nhiều trường hợp có thể làm cho một biến nào đó từ chỗ
không tuân theo luật phân bố chuẩn trở thành có phân bố chuẩn hoặc gần chuẩn.
Phân bố chuẩn là một trong những phân bố được ứng dụng hết sức phổ
biến. Trong khí tượng, khí hậu phân bố chuẩn và phân bố chuẩn chuẩ
n hoá
thường được dùng trong xử lý số liệu, trong kiểm nghiệm sự bằng của các tham
số và làm công cụ trung gian để kiểm nghiệm sự phù hợp giữa phân bố thực

chuẩn làm xấp xỉ phân bố lý thuyết ta dễ dàng tính được xác suất sự kiện lượng
mưa tháng 1 nhỏ hơn 0:
P(X<0) = F(0) =
1
28 3 2
1
2
49 8
0
2
.
(
.
)
π
σ
edt
t


−∞

= 0.04
Mặc dù xác suất này rất nhỏ nhưng vẫn khác không, điều đó có nghĩa là sự
kiện đang xét vẫn có thể xảy ra! Sự vô lý này đương nhiên là không chấp nhận
được, tức là không thể sử dụng phân bố chuẩn trong trường hợp này.
Để giải quyết những vấn đề tương tự trên đây, người ta thường chọn phân
bố Gamma, đặc biệt trong nghiên cứu các chuỗi số liệu lượ
ng mưa. Hàm mật độ
xác suất của phân bố Gamma có dạng:


91
0
1
2
012345
α
=0.5
α=1
α=2
α=4
β=0.3
f(x)
x

0
1
2
012345
α
=0.5
α=1
α=2
α=4
β=0.6
f(x)
x

Hình 3.5 Hàm mật độ phân bố Gamma
Từ hình 3.5 ta nhận thấy rằng, khi α<1 phân bố Gamma lệch rất mạnh và

α=
++1143
4
D
D

~
~
β
α
=
x
(3.5.3)
Với D = ln(
x
n
x
i
i
n

=

1
1
ln( )

3.6 PHÂN BỐ WEIBULL
Một dạng phân bố khác cũng thường được sử dụng trong khí tượng, khí
hậu là phân bố Weibull. Phân bố Weibull được ứng dụng nhiều nhất trong









xx
1
exp
, với x, α, β>0 (3.6.1)
Hoặc: f(x) =
α
β
β
α
α
α












α=1
α=2
α=4
β
=0.8
f(x)
x

Hình 3.6 Hàm mật độ phân bố Weibull với các tham số khác nhau
3.7. PHÂN BỐ χ
2
(KHI BÌNH PHƯƠNG).
Trong lớp các bài toán kiểm nghiệm giả thiết thống kê phân bố χ
2
đóng một
vai trò hết sức quan trọng, nó được dùng để kiểm nghiệm sự phù hợp hay không
phù hợp giữa phân bố thực nghiệm và phân bố lý thuyết.
Phân bố χ
2
được xây dựng trên cơ sở nghiên cứu tổng các biến ngẫu nhiên
độc lập X
1
,X
2
, ,X
n
có cùng phân bố chuẩn, X
i
∈N(μ;σ):


khi x
n
n
nx
()
()
=
>








−−
1
2
2
0
00
2
2
1
2
Γ
(3.7.2)
Hàm mật độ xác suất của biến ngẫu nhiên χ
2

Γ
(3.7.3)
Như vậy phân bố χ
2
phụ thuộc vào chỉ một tham số n và được gọi là bậc tự
do của phân bố. Khi
n≤2 hàm mật độ xác suất f
n
(x) luôn luôn giảm với mọi x>0,
khi
n>2 hàm f
n
(x) có cực đại duy nhất tại x=n-2. Trên hình 3.7 dẫn ra đồ thị của
hàm f
n
(x) với 3 trường hợp n=1, n=2 và n=6.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
02468101214
n=1
n=2
n=6
f(x)
x

với n
1

n
2
bậc tự do thì tổng của chúng cũng là một biến ngẫu nhiên có phân bố χ
2
với
(n
1
+n
2
) bậc tự do:
χ
2
(n
1
) + χ
2
(n
2
) = χ
2
(n
1
+n
2
) (3.7.5)
Xác suất χ
2

χ
p
2
ứng với các mức xác suất p và số bậc tự do n khác nhau.
3.8 PHÂN BỐ STUDENT (T)
Phân bố Student thường được gọi là một cách đơn giản và quen thuộc là
phân bố
t, được xác định trên cơ sở xét biến ngẫu nhiên là tỷ số giữa hai biến
ngẫu nhiên độc lập X
1
∈N(0,1) và X
2

χ
()n
n
: t=X
1
/X
2
. Biến ngẫu nhiên t trong
trường hợp này được gọi là có phân bố Student với
n bậc tự do và ký hiệu
t∈St(n) hay gọn hơn t(n).
Mật độ xác suất của phân bố Student có dạng:
f
n
(x) =
Γ
Γ

1
2
1
2
1
2
B
n
n
x
n
n
,






+









+

n
n
t
[( )]==

2
(3.8.3)
Dĩ nhiên kỳ vọng của phân bố Student bằng 0. Người ta cũng đã chứng
minh rằng khi n→∞ thì phân bố Student tiện cận phân bố chuẩn chuẩn hoá.
0
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
n=3
n=6
n=50
f(x)
x

Hình 3.8 Hàm mật độ phân bố Student với các bậc tự do khác nhau
96
Xác suất để biến ngẫu nhiên có phân bố Student với n bậc tự do nhận giá trị
nằm ngoài khoảng đối xứng (-t
0
; t
0
) được tính theo công thức:


12
12
2
22
Γ
ΓΓ
()
()()
+
x
nx n
n
nn
1
12
2
1
12
2

+
+()
(3.9.1)
0
0.5
1
012345
n1=2, n2=2
n1=4, n2=2
f(x)

3.10 MỘT SỐ PHÂN BỐ KHÁC
Những luật phân bố trên đây, trong ứng dụng thực hành, người ta còn sử
dụng một số phân bố khác cho những nghiên cứu cấu trúc thống kê các chuỗi số
liệu. Nói chung những yếu tố khí tượng, khí hậu mà khoảng biến thiên giá trị
của chúng không thực sự rõ ràng, như nhiệt độ không khí, nhiệt độ đất, các đặc
trưng độ ẩm tuyệt đối, thì tính bất đối xứng của phân bố th
ường không lớn.
Chúng thường được mô tả một cách gần đúng bởi phân bố chuẩn hoặc phân bố
Sarle sau đây:
fx fx
Ax
ft t t
Ex
ft t t
s
s
() ()
()
()( )
()
()( )=+ −+ −+






0
342
1

1
σ
ft()và khi đó phân bố
Sarle sẽ có dạng:

ft
k
ft
Ax
tt
Ex
tt
s
s
() ()
()
()
()
(=+ −+−−






σ
1
6
3
24









1
2
2
2
2
σπ
μ
σ
(3.10.3)
trong đó hai tham số μ và σ tương ứng là kỳ vọng và độ lệch bình phương trung
bình của biến đã được biến đổi Y (tức μ ≡ μ
y
và σ ≡ σ
y
).
Giữa các tham số trong (3.10.3) và kỳ vọng và độ lệch bình phương trung
bình của biến ban đầu μ
x
và σ
x
tồn tại mối liên hệ sau:


xác suất của phân bố Beta có dạng:
99
f(x) =
()
Γ
ΓΓ
()
().()

pq
pq
xx
p
q
+



1
1
1, với 0≤ x ≤1 và p, q>0 (3.10.6)
Như vậy, phân bố Beta cũng phụ thuộc vào hai tham số p và q. Kỳ vọng và
phương sai của phân bố được xác định bởi:

μ=
+
p

()
q
px
x
=
−1
(3.10.9)


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status