Từ khóa: Đại lượng ngẫu nhiên, luật phân bố, phân bố thống kê, tiêu chuẩn phù hợp, ước lượng tham số, xác suất tin cậy, khoảng tin
cây, quá trình ngẫu nhiên, tương quan, phương pháp bình phương nhỏ nhất, khai triển phổ, phân tích điều hòa, là trơn, chu trình tuần
hoàn, trung bình trượt.
Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu
cá nhân. Nghiêm cấm mọi hình thức sao chép, in ấn phục vụ các mục đích khác nếu không được sự chấp thuận của nhà xuất
bản và tác giả. PHƯƠNG PHÁP THỐNG KÊ TRONG
HẢI DƯƠNG HỌC
Phạm Văn Huấn
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Phạm Văn Huấn
PHƯƠNG PHÁP THỐNG KÊ
TRONG HẢI DƯƠNG HỌC
những kết quả nghiên cứu biển và đại dương theo hướng thống kê trong
hải dương học trên thế giới và ở Việt Nam. Sinh viên ngành hải dương
học sẽ thấy những khía cạnh này trong các môn học cơ sở khác của
ngành như hải dương học khu vực, thông tin và dự báo khí tượ
ng thủy
văn biển, thủy triều, sóng và các bài báo khoa học, sách chuyên khảo
về biển.
Tác giả
3 4
MỤC LỤC Chương 1. Khái niệm về đại lượng ngẫu nhiên 3
1.1. Những đại lượng ngẫu nhiên và luật phân bố 3
1.2. Quy luật phân bố chuẩn 7
Phụ lục chương 1 10
Chương 2. Những khái niệm cơ bản của lý thuyết xử lý số liệu quan
trắc
13
2.1. Hàm phân bố thống kê 13
2.2. Sự phù hợp của phân bố lý thuyết và phân bố thống kê 15
2.2.1. Tiêu chuẩn
2
χ
15
2.2.2. Sơ đồ ứng dụng tiêu chuẩn
2
một hiện
53
4.5. Khai triển phổ hàm ngẫu nhiên dừng trên khoảng thời gian hữu
hạn
54
Phụ lục chương 4 61
Chương 5. Ứng dụng lý thuyết hàm ngẫu nhiên vào phân tích số liệu
hải dương học
63
5.1. Phân tích chuỗi thời gian trong hải dương học 63
5.1.1. Phân tích các chu trình tuần hoàn 64
5.1.2. Xác định các chu trình tuần hoàn bằng phương pháp phân
tích điều hòa
65
5.2. Phổ phương sai của chuỗi thời gian 68
5.3. Loại bỏ chu trình tuần hoàn khỏi chuỗi thời gian 69
5.3.1. Loại bỏ chu trình tuần hoàn bằng phân tích điều hòa 69
5.3.2. Loại bỏ biến trình năm từ chuỗi quan trắc năm 71
5.3.3. Loại bỏ chu trình tuần hoàn và phân tích các chu trình
không tuần hoàn trong thực tế xử lý số liệu
71
5.4. Hàm tương quan và hàm phổ đối với chuỗi thời gian các yếu tố
hải dương học
73
Phụ lục chương 5 75
Tài liệu tham khảo 77
5 6
Chương 1
KHÁI NIỆM VỀ ĐẠI LƯỢNG NGẪU NHIÊN
=
∑
=
n
i
i
nn
p
pxXPpxXPpxXP
1
2211
1
; ; ; ;
thì ta nói rằng đại lượng ngẫu nhiên ấy hoàn toàn đã được xác định về
phương diện xác suất. Mối liên hệ giữa các giá trị có thể có của đại lượng
ngẫu nhiên và những xác suất tương ứng của chúng được gọi là luật phân
bố của đại lượng ngẫu nhiên. Luật phân bố có thể được cho bởi bảng
phân bố hoặc đa giác phân bố.
Đối với đại l
ượng ngẫu nhiên liên tục, chúng ta không thể kể ra hết
tất cả các giá trị có thể có, hơn nữa từng giá trị riêng biệt của đại lượng
ngẫu nhiên liên tục thường có xác suất bằng không, nên người ta cho
phân bố bằng hàm phân bố
)(xF :
(
)
xXPxF
<
=
Khi giải những bài toán thực tế nhiều khi đòi hỏi tính xác suất của
sự kiện đại lượng ngẫu nhiên rơi vào khoảng giá trị từ
x
đến xx Δ+ :
)( )( )( xFxxFxxXxP
−
Δ
+
=
Δ
+
<
<
hoặc xác suất trung bình đối với một đơn vị độ dài trong khoảng giá trị
đó
x
xFxxF
Δ
−
Δ
+
)( )(
.
Nếu
0→Δx thì
)()(
)( )(
lim
0
β
sẽ bằng
∫
=<<
β
α
βα
dxxfXP )()( (1.3)
Có thể biểu thị hàm mật độ phân bố qua hàm phân bố bằng công
thức (1.2). Ngược lại, có thể biểu thị hàm phân bố qua hàm mật độ
∫
∞−
=
x
dxxfxF )()(
. (1.4)
Mật độ phân bố là hàm không âm
)0)(( ≥xf , tích phân của hàm
mật độ với các giới hạn vô cùng bằng một (
∫
∞
∞−
= 1)( dxxf ). Như vậy,
đường cong phân bố luôn luôn nằm trên trục hoành, diện tích đầy đủ giới
hạn bởi đường cong phân bố và trục hoành bằng một.
Thứ nguyên của hàm phân bố
)( xF giống như xác suất không có
thứ nguyên, thứ nguyên của mật độ phân bố
)(xf nghịch đảo với thứ
nguyên của đại lượng ngẫu nhiên.
==
n
i
ii
n
i
i
n
i
ii
n
nn
x
px
p
px
ppp
pxpxpx
Xm
1
1
1
21
2211M . (1.5)
Như vậy, kỳ vọng toán học của đại lượng ngẫu nhiên là tổng của các
tích của tất cả các giá trị có thể có của đại lượng ngẫu nhiên với những
xác suất của các giá trị ấy.
+
+
=
+++
+
+
+
=
∗
][
2211
21
221111
*
2
2
1
1
∑∑
==
==+++=
n
i
n
ngẫu nhiên bằng tổng của các tích của tất cả các giá trị có thể có của đại
lượng ngẫu nhiên với tần suất của những giá trị đó.
Đối với đại lượng ngẫu nhiên liên tục
X
kỳ vọng toán học tính theo
công thức
9 10
[]
∫
∞
∞−
== dxxfxXm
x
)(M . (1.7)
2) Mốt của đại lượng ngẫu nhiên là giá trị hay xảy ra nhất của nó.
Cụm từ “hay xảy ra nhất” chỉ hoàn toàn chính xác đối với các đại lượng
ngẫu nhiên rời rạc, đối với đại lượng ngẫu nhiên liên tục thì mốt là giá trị
mà tại đó mật độ xác suất cực đại. Người ta ký hiệu mốt bằng chữ M.
Trên hình 1.1 biểu diễn mốt của các đạ
i lượng ngẫu nhiên rời rạc và liên
tục.
x
p
i
M
0
0
M
x
α
. (1.8)
Đối với đại lượng ngẫu nhiên liên tục
X
, mô men gốc bậc
s
là tích
phân
[]
∫
∞
∞−
= dxxfxX
s
s
)(
α
. (1.9)
Từ các công thức (1.8) và (1.9) thấy rằng kỳ vọng toán học chính là
mô men gốc bậc một.
Các công thức (1.8) và (1.9) có thể thống nhất thành một công thức
chung cho cả các đại lượng ngẫu nhiên rời rạc lẫn liên tục là
[
]
[
]
s
s
XMX =
α
]
s
x
o
s
s
mXMXMX −=
⎥
⎦
⎤
⎢
⎣
⎡
=
μ
. (1.12)
Đối với đại lượng ngẫu nhiên rời rạc:
()
∑
=
−=
n
i
i
s
xis
pmx
1
μ
, (1.13)
233
2
22
1
xx
x
mm
m
ααμ
αμ
μ
(1.15)
6) Mô men tâm bậc hai là đặc trưng đặc biệt quan trọng trong số các
mô men khác, được ký hiệu là
][ D X
(hoặc
x
D ) và thường gọi là
phương sai:
⎥
⎦
⎤
⎢
⎣
⎡
=
o
XMX
2
2
mạn của những giá trị đại lượng ngẫu nhiên xung quanh kỳ vọng toán
học của nó.
7) Phương sai có thứ nguyên bình phương của đại lượng ngẫu nhiên.
Để đặc trưng rõ hơn độ tản mạn người ta dùng một đại lượng có thứ
nguyên trùng với thứ nguyên của đại lượng ngẫu nhiên gọi là độ lệch
bình ph
ương trung bình
[
]
X
σ
(hay ký hiệu bằng
x
σ
):
][][ XDX =
σ
. (1.19)
Phương sai và độ lệch bình phương trung bình có thể tính theo mô
men gốc bậc hai
2
α
và kỳ vọng toán học bằng các công thức:
⎪
⎭
⎪
⎬
⎫
−==
−=
=
k
S (1.21)
không có thứ nguyên để đặc trưng cho tính bất đối xứng của phân bố gọi
là hệ số bất đối xứng. Khi
0>
k
S ta có phân bố bất đối xứng dương
(đường cong 1), khi
−< 0
k
S bất đối xứng âm (đường cong 2) trên hình
1.2.
Hình 1.2. Các đường cong phân bố bất đối xứng
9) Mô men tâm bậc bốn dùng để đặc trưng “độ dốc”, tức mức độ
đỉnh nhọn hay đỉnh dẹt của phân bố. Người ta dùng đại lượng gọi là độ
nhọn
x
E của đại lượng ngẫu nhiên liên quan với mô men bậc bốn như
sau:
3
4
4
−=
σ
μ
x
E . (1.22)
Đối với luật phân bố chuẩn rất quan trọng và thường gặp trong tự
> 0
Hình 1.3. Các đường cong phân bố có độ nhọn khác nhau
10) Nhiều khi người ta sử dụng những mô men tuyệt đối (gốc và
tâm) mà trong số đó thường dùng nhất là mô men tâm tuyệt đối bậc một:
[]
M M
1 x
o
mXX −=
⎥
⎦
⎤
⎢
⎣
⎡
=
γ
. (1.23)
gọi là độ lệch trung bình số học, cũng đặc trưng cho độ tản mạn.
1.2. Quy luật phân bố chuẩn
Trong lý thuyết xác suất người ta đặc biệt quan tâm tới một kiểu luật
phân bố gọi là luật phân bố chuẩn (hay phân bố Gauss). Đây là kiểu phân
bố thường gặp nhất trong thực tế. Người ta đã chứng minh được rằng
tổng của một s
ố lượng đủ lớn các đại lượng ngẫu nhiên độc lập (hoặc phụ
thuộc ít) tuân theo những quy luật phân bố bất kỳ nào đó sẽ xấp xỉ tuân
theo quy luật chuẩn và điều này được thể hiện càng chính xác nếu lấy
tổng của càng nhiều các đại lượng ngẫu nhiên. Điều hạn chế chủ yếu là
các đại lượng ngẫu nhiên được cộng lại phả
πσ
2
1
ứng với
hoành độ
m
x
=
. Xa dần m mật độ phân bố giảm đi và khi
∞
±
→
x
đường cong tiệm cận dần tới trục hoành. Điểm
m
là tâm đối xứng của
phân bố, gọi là tâm tản mạn; tham số
σ
là đặc trưng tản mạn. Khi
σ
tăng thì tung độ cực đại giảm và đường cong phân bố trở nên phẳng hơn,
duỗi dài theo trục hoành, ngược lại, khi
σ
giảm đường cong phân bố nhô
cao lên trên, đồng thời co hẹp hai bên lại.
Tính toán các đặc trưng bằng số của phân bố chuẩn cho các kết quả
sau:
0 ;1
ES .
Để tính được xác suất mà đại lượng ngẫu nhiên
X
tuân theo quy
luật chuẩn với các tham số
m và
σ
rơi vào khoảng giá trị từ
α
tới
β
phải dùng công thức tổng quát
)()()(
α
β
β
α
FFXP
−
=
<
<
, (1.25)
trong đó
−
)(xF hàm phân bố của đại lượng ngẫu nhiên
X
tính theo
công thức (1.4):
σ
π
mx
dtexF
t
2
2
2
1
)(
. (1.26)
Tích phân (1.26) không biểu thị được bằng các hàm cơ bản, nhưng
có thể tính nó qua hàm đặc biệt biểu thị tích phân xác định của biểu thức
2
t
e
−
hay
2
2
t
e
−
(tích phân xác suất) đã lập thành bảng.
Thí dụ, nếu ta dùng hàm
∫
∞−
−
∗
=
⎞
⎜
⎝
⎛
−
−
⎟
⎠
⎞
⎜
⎝
⎛
−
=<<
∗∗
σ
α
σ
β
βα
φφ
mm
XP )(
. (1.29)
Như vậy, chúng ta đã biểu thị xác suất của đại lượng ngẫu nhiên
X
phân bố theo luật chuẩn với các tham số bất kỳ rơi vào khoảng giá trị cho
trước từ
α
5,0 =<− EmXP
hay
5,0)(
=
+
<<− EmXEmP .
Dùng công thức (1.29) ta có:
⎟
⎠
⎞
⎜
⎝
⎛
−−
⎟
⎠
⎞
⎜
⎝
⎛
=+<<−
∗∗
σσ
φφ
EE
EmXEmP )(
.
Theo tính chất của hàm
*
φ
E
.
x
0
m
m
−
E
m+E
f
(
x
)
Hình 1.5. Biểu diễn độ lệch xác suất
Theo bảng giá trị của hàm
∗
φ
ta tìm ngược lại được
σ
σ
674,0 674,0 =→= E
E
. (1.30)
Ý nghĩa của
E
là với số lượng lớn thí nghiệm về trung bình sẽ có
một nửa số giá trị của đại lượng ngẫu nhiên
X
*
φ
x
*
φ
x
*
φ
x
*
φ
0,0 0,500000
-3,9 0,000048 -1,9 0,028717 0,1 0,539828 2,1 0,982136
-3.8 0,000072 -1,8 0,035930 0,2 0,579260 2,2 0,986097
-3,7 0,000108 -1,7 0,044565 0,3 0,617911 2,3 0,989276
-3,6 0,000159 -1,6 0,054799 0,4 0,655422 2,4 0,991802
-3,5 0,000233 -1,5 0,066807 0,5 0,691462 2,5 0,993790
-3,4 0,000337 -1,4 0,080757 0,6 0,725747 2,6 0,995339
-3,3 0,000483 -1,3 0,096801 0,7 0,758036 2,7 0,996533
-3,2 0,000687 -1,2 0,115070 0,8 0,788145 2,8 0,997445
-3,1 0,000968 -1,1 0,135666 0,9 0,815940 2,9 0,998134
-3,0 0,001350 -1,0 0,158655 1,0 0,841345 3,0 0,998650
][D][D
2
XccX = ,
][][ XccX
σσ
= .
5. KVTH của tổng các ĐLNN:
][M][M][M YXYX
+
=
+
(đúng đối với tổng của nhiều số hạng).
6. KVTH của hàm tuyến tính của một số đối số ngẫu nhiên:
n
XXX ,,,
21
:
[]
[] []
.MM
MMM
11
n
1i
n
1i
bXabXa
bXabXa
i
+
+
=
+
,
21 22
∑∑∑
===
=
⎥
⎦
⎤
⎢
⎣
⎡
n
j
ij
n
i
i
KX
11
n
1i
D .
Nếu các ĐLNN không tương quan lẫn nhau:
[]
∑∑
==
⎢
⎣
⎡
+ .
9. KVTH của tích các ĐLNN:
xy
KYXXY
+
×= ][M][M][M ,
Nếu
X
và
Y
không tương quan:
][M][M][M YXXY
×
=
,
∏∏
==
=
⎥
⎦
⎤
⎢
⎣
⎡
n
i
i
:
naXXXXXX
nn
=
+
+
+
=
+
+
+
][M ][M][M] [M
2121
.
ana
n
XXX
nn
XXX
n
n
==+++=
⎥
⎦
⎤
⎢
⎣
⎡
+++
1
nn
n
XXX
n
n
XXX
n
n
/
1
] [D
1
D
22
2
21
2
21
σσ
==+++=
⎥
⎦
⎤
⎢
⎣
⎡
+++
.
Định lý 3: KVTH của ĐLNN phân bố theo quy luật nhị thức, tức
X ,
2
X , ,
n
X phân bố như nhau và độc lập,
quyluật phân bố của từng ĐLNN trong chúng có dạng sau:
giá trị 0 1
xác suất
q
p
Ta tìm KVTH của từng
i
X theo công thức tính KVTH (công thức
(1.5)):
ppqXXX
n
=
⋅
+
⋅
=
=
=
=
10][M ][M][M
21
.
23 24
pqqppqpqqp
A trong n thí nghiệm
độc lập, mà trong từng thí nghiệm sự kiện
A có thể xảy ra với xác suất
không đổi
p
, bằng chính xác suất
p
, còn phương sai bằng npq / .
Chứng minh: Tần suất của sự kiện
A
trong n thí nghiệm có thể
được xem như trung bình số học của các ĐLNN
1
X ,
2
X , ,
n
X phân bố
như nhau, độc lập:
n
XXX
p
n
+
++
=
21
*
,
⎥
⎦
⎤
⎢
⎣
⎡
+++
=
[]
[]
n
pq
npq
n
XXX
n
n
XXX
p
n
n
==+++=
⎥
⎦
⎤
⎢
⎣
⎡
+++
RETURN
END
D. Mã Fortran của chương trình con tra giá trị hàm tích phân xác
suất theo đối số
xx
mx
σ
/)(
−
theo bảng 1.1 (công thức (1.28))
C Từ
x
, m ,
σ
(s) tra xác suất phân bố )/)(()(
*
σφ
mxxF −= , −
*
φ
tích phân
C xác suất (bảng 1.1), được lưu trong file BANG1_1.TKE với quy cách ghi như
C sau: một dòng tiêu đề trên cùng, nối tiếp sau từng cặp đối số và hàm
*
φ
, giá
C trị nhỏ nhất của đối số: -3,99, lớn nhất: 3,99.
FUNCTION TraB1_1 (x, m, s)
Chương 2
NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT
XỬ LÝ SỐ LIỆU QUAN TRẮC
Giả sử cần nghiên cứu đại lượng ngẫu nhiên
X
nào đó mà luật
phân bố của nó chưa biết trước đích xác, phải xác định quy luật đó từ thí
nghiệm hay kiểm tra bằng thực nghiệm giả thuyết về một quy luật nào
đó. Khi đó, người ta làm một loạt thí nghiệm với đại lượng ngẫu nhiên
X
và trong mỗi thí nghiệm (quan trắc), đại lượng
X
nhận một giá trị
nhất định. Tập hợp các số liệu quan trắc của đại lượng được gọi là tập
hợp thống kê đơn giản hay chuỗi thống kê đơn giản. Thông thường, tập
hợp thống kê đơn giản được trình bày dưới dạng bảng.
2.1. Hàm phân bố thống kê
Hàm phân bố thống kê của đại lượng ngẫu nhiên
X
là tần suất của