Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ ĐA - Pdf 21

56
khoảng cách Magalonobis và mức thoả mãn các giả thiết phù hợp luật
phân bố chuẩn.
Hiện nay
, kỹ thuật của phương pháp phân tích phân biệt phi tham số
đang phát triển. Hệ phương pháp phân tích phân biệt dựa trên việc giải
bài toán các giá trị riêng và các vectơ riêng của ma trận hiệp biến khối đã
có ứng dụng trong giải quyết nhiều vấn đề hải dương học trong các công
trình của Iu. V. Nhikolaev [130]. Phương pháp tiếp cận này, có tên gọi là
phân tích phân biệt chuẩn hoá, cũng vẫn đang là đối tượng nghiên cứu lý
thuyết [94, 95].

triển trực giao ma trận các biến quan trắc, cấu trúc
của các quá trình hải dương được khái quát trong hai tập hợp các tham số 57
thống kê − đó là tập các vectơ riêng, hay các hệ số tỷ trọng nhân tố và tập
những giá trị các thành phần chính, hay những nhân tố chung. Những tỷ
trọng của các thành phần và các nhân tố mô tả những mối liên hệ qua lại
khá tin cậy giữa các biến quan trắc và chúng thường ổn định trong thời
gian. Mỗi nhân tố chung đặc trưng cho sự tiến triển của quá trình trong
thời gian. Vì vậy, thực chất của dự báo
cấu trúc quá trình hải dương là bài
toán ngoại suy các nhân tố chung (hay các thành phần chính).
Tuân thủ những q
uy ước đã chấp nhận ở chương 2, ta viết phương
trình cơ bản của mô hình phân tích nhân tố có tính tới các bài toán dự
báo:
EAFX +⋅=
T
.
Ở đây
−X ma trận các quan trắc xuất phát, số dòng của nó Ni ,,1=
tương ứng với số quan trắc; số cột
Mj ,,1= bằng số chiều của quá
trình. Ý nghĩa ứng dụng của mô hình phương pháp phân tích nhân tố là ở
chỗ dự báo một vectơ
M
chiều }
ˆ
,,

τ
+i
x . Những ưu điểm cơ bản của cách tiếp cận
này như sau:
Không cần p
hải dự báo thành phần nhiễu trong các quan trắc xuất
phát. Sự chú ý chính tập trung cho dự báo sự biến động hệ thống trong các
tham số quan trắc, được mô tả bởi ma trận
T
X AF ⋅=
ˆ
ˆ
.
Những qu
y luật thống kê chủ yếu trong sự tiến triển của quá trình
được tích tụ trong các hàm F . Điều này làm tăng tính khả báo thống kê
của các hàm đó so với tính khả báo của những tham số quan trắc riêng
biệt, đồng thời giảm số lượng những biến phải ngoại suy: một quá trình
M
chiều được dự báo trong một không gian
K
chiều rút gọn,
M
K
<< .
Trong phương pháp phân tích nhân tố, luôn luôn phải thoả mãn điều kiện
2/MK ≤ , ngoài ra số biến dự báo
j
f được quy định không chỉ bởi
những chỉ tiêu thống kê chung của mô hình, mà còn do khả năng hàm

τ
; −f giá trị của nhân tố tính theo mô hình
chẩn đoán;
−b
hệ số thứ
l
của mô hình dự báo bậc
p
đối với nhân tố
chung
j với khoảng báo trước τ. Tính độc lập của các nhân tố chung
cho phép chọn kiểu và bậc mô hình dự báo tối ưu cho từng nhân tố nhằm
đạt cực tiểu phương sai sai số tổng cộng của phép ngoại suy.
Kết quả tính t
oán sẽ hình thành một vectơ các ước lượng dự báo của
K
nhân tố chung:
)},( ,),,(),,({)( Kifififif τ+τ+τ+=τ+ 2 1 ,
vectơ này
được chiếu vào không gian quan trắc
M
chiều nhờ ma trận các
hệ số chuyển tiếp chẩn đoán (
A ):
T
2 1 Ax ⋅τ+=τ+τ+τ+=τ+ )(
ˆ
)},(
ˆ
,),,(

sẽ chứa tổng các sai số dự báo của từng nhân tố trong số
K
nhân
tố
)(
ˆ
f
e

TT
AeAfx ⋅τ++⋅τ+=τ+ )()(
ˆ
)( iii
f
, (4.2)
ngoài ra phần đóng góp các sai số sẽ tỷ lệ với phần đóng góp
của các số
hạng khai triển, được cho bởi những hệ số tương ứng trong ma trận
A .
Chỉ có thể kỳ vọng sự cực tiểu các sai số dự báo trong điều kiện ngoại
suy thật chính xác những số hạng khai triển quan trọng nhất (những số
hạng với phần đóng góp cực đại)
− những nhân tố hay những thành phần.
Những phương pháp ngoại suy các nhân tố chung
Một trong những thành tựu quan trọng nhất của việc chẩn đoán trên
cơ sở ứng dụng khai triển trực giao là tập trung được sự biến động quan
hệ của các biến xuất phát vào các thành phần khai triển đầu tiên. Vì vậy,
những nhân tố chung (thành phần chính) thời gian đầu tiên là những
chuỗi với các giá trị tuần tự phụ thuộc nhau, điều này thể hiện trong cấu
trúc các hàm tự tương quan và tự phổ. Do đó

nhiễu trắng, điều đó hạn chế khả năng ngoại suy phần biến động tổng
cộng nà
y. Trong nhiều trường hợp, dự báo những nhân tố đó được thực
hiện theo mô hình trung bình trượt bậc )(
qCCq − hoặc ứng dụng mô
hình hỗn hợp (
APCC q
p
,− ) [33, 146, 206]. Xét thấy rằng những nhân tố
này có mức ý nghĩa thấp trong động thái chung của quá trình, người ta có
thể bỏ qua không cần dự báo chi tiết về chúng, mà chỉ giới hạn ở mức
ước lượng chúng như là hiệu dư giữa những giá trị thực và những giá trị
dự báo các nhân tố chung.
Ngoại suy các nhân tố với cấu trúc bất đồng nhất
Trường hợp bất đồng nhất đơn giản nhất liên quan tới hiện tượng
biến thiên trong thời gian của những đặc trưng thống kê cơ bản của các
nhân tố chung
− những ước lượng kỳ vọng toán học và phương sai. Với
những nhân tố như vậy không thể xây dựng được một mô hình dự báo
duy nhất với những hệ số không đổi trong thời gian. Ngược lại, trong
từng bước phải nắm bắt thêm thông tin mới và cập nhật các hệ số dự báo.
Với những mô hình dự báo tự hồi quy mà người ta đã sử dụng, điều này 59
đã được thực hiện như sau: Trước hết tại bước i người ta tính lại:
− Ước lượng kỳ vọng toán học:
))1()((
1
)1()( −−+−= ifif

án khác rất hiệu quả để giải quyết các bài toán dự báo
những chuỗi thời gian bất đồng nhất dựa trên việc sử dụng thủ tục lọc
tối ưu Kalman [40, 210, 240, 259]. Vận dụng thuật toán này đối với
các mô hình tự hồi quy cho phép nhanh chóng cải tiến các hệ số hồi
quy căn cứ vào những thay đổi gần nhất trong các nhân tố chung và
các biến xuất phát. Chẳng hạn, với mô hình tự hồi quy
bậc một
1−
A
P biểu thức tương ứng có dạng
)1(),1()(
ˆ
−= ifibif (4.3)
)]1,1()1(
ˆ
)1()[1(
ˆ
)()1,1(),1( −−−−−+−= ibifififisibib ,
)1(
ˆ
)1(1
))1(
ˆ
)1((
)1()(
2
2
−−+
−−
−−=

y thế của các trạng thái
trong thời gian.
Giống như tr
ong trường hợp dự báo cấu trúc quá trình, ở đây một số
chỉ tiêu khái quát nào đó của quá trình sẽ được ngoại suy. Những chỉ tiêu
đó là những lớp trạng thái; theo kết quả chẩn đoán những lớp này được
đặc trưng bởi các vectơ trọng tâm của lớp và các vectơ biến thiên của các
tham số quan trắc bên trong lớp. Trọng tâm của lớp i thường là vectơ
M

chiều những giá trị trung bình của các quan trắc trong lớp đã cho
},,{
1 i Miii
x,xx
2
=x
. Sự đồng nhất của lớp thường được đặc trưng
thông qua vectơ độ lệch bình phương trung bình
=
i
σ },,{
Miii 2 1
, σσσ .
Vì vậy, dự báo lớp kết cục quy về dự báo những tham số này −
i
x và
i
σ .
Sơ đồ dự báo
Giả sử ma trận X phản ánh

87, 96, 155, 202].
Dự báo lớp trạng thái của quá
trình được xây dựng trên cơ sở những
thủ tục xác suất ước lượng sự thay thế các lớp. Sự thay thế được đánh giá
theo danh mục các lớp được lập trong khi chẩn đoán. Danh mục là một
xấp xỉ về sự phát triển của quá trình
X trong thời gian dưới dạng chuỗi
W gồm N giá trị, trong đó mỗi lớp trong số k lớp tương ứng với mỗi
một vectơ các quan trắc xuất phát
},,{
1 i Miii
x,xx
2
=x . Như vậy, quá
trình
M
chiều được thể hiện dưới dạng chuỗi sắp xếp, chứa những giá trị
nguyên số hiệu các lớp từ 1 đến
k , chính chuỗi này sẽ được ngoại suy
bằng những phương pháp thống kê xác suất. Dưới dạng sơ đồ, những
thao tác đã liệt kê có thể viết thành:
iii
K
KN
M
K
M
N
σω
1

tính đồng nhất của chuỗi lớp
W được kiểm tra bằng tiêu chuẩn
2
χ của
Pierson [44, 65, 259]. Khi thoả mãn giả thiết này, ma trận
P được xấp xỉ
qua các xác suất có điều kiện thông thường của sự xuất hiện các lớp:
Nnp
jiji
/

= ,
trong đó −
ji
n

số trường hợp quan trắc lớp
i
ω
. Khi đó việc thực hiện
chiến lược dự báo chính là làm sao xác định được lớp
i
ω với xác suất
chyển tiếp cực đại có thể trong pha phát triển hiện hành ( j ) của quá
trình. Theo kiểu sơ đồ có thể viết chuỗi lôgic này dưới dạng sau:
iji
Ki
j
pp ωω
=

K
l
jll
jii
ji
xa
pp
pp
p

ˆ
1

=
=
σ
(4.4) 61
và chứa các ước lượng xác suất chuyển tiếp có điều kiện
ij
p và các xác
suất khí hậu tiên định
i
p xuất hiện lớp
i

ji
p

vào chỗ
ji
p

. Khi đó ước lượng xác suất dự báo có
thể tách ra trên hình vẽ bằng đường cong gạch chấm. Hình chiếu của
đường cong này lên mặt phẳng ),( tp cho phép theo dõi trong thời gian
về mức độ ngẫu nhiên hoá của quá trình trong từng pha phát triển của nó.
Giá trị xác suất kinh nghiệm càng cao (
1
max
→
ji
p

) thì tính xác định trong
sự phát triển quá trình càng thể hiện mạnh, khi đó sự thay thế cặp lớp
j
ω

và
i
ω
trong thời gian có tính xác định đơn trị. Ngược lại, khi giảm xác
suất kinh nghiệm
0

K
f
N
M
K
M
N
pp ωωΩ
σ
=
max
,
)(max

1
PWX

K
M
t
Ω
(N+
Δ
N)
N
1
X
t

Ở đây

dự báo n
hững chuỗi thời gian để sau đó chuyển sang thảo luận khả năng
kết hợp dự báo các quá trình đa chiều.
Nội dun
g cơ bản của phương pháp luận kết hợp hiện đang giới hạn
trong khuôn khổ những mô hình kết hợp tuyến tính dạng

=
=
l
p
pipki
xax
1
ˆˆ

(4.5)
trong đó
−
k
x
ˆ
chuỗi các dự báo kết hợp,
Ni ,,2,1=
; −
pi
x

ˆ
ước lượng

. Việc tính toán tiến hành theo sơ đồ tính
của hồi quy tuyến tính đa biến (xem chương 1), điều đó cho phép trên tập
xuất phát đang xét cực tiểu hoá được sai số bình phương trung bình của
dự báo kết hợp
ε
tính theo công thức
11
DD /
x
σ=ε .
Ở đây
− D định thức, còn −
11
D ma trận con tương ứng của ma trận
tương quan đầy đủ của các dự báo,
−σ
x
độ lệch bình phương trung bình
của chuỗi quan trắc
x
.
Độ chính
xác các dự báo kết hợp trong cách tiếp cận này sẽ được mô
tả thông qua những hệ số tương quan giữa các quan trắc
x
và những giá
trị dự báo
p
x
ˆ

X
ˆ
thành ma trận hai chiều gồm )( MN
× dòng và l
cột. Để tính các dự báo kết hợp trong điều kiện biểu diễn các dữ liệu xuất phát
như vậy chỉ cần đánh giá vectơ từ l hệ số hồi quy
A và thiết lập phương
trình:
εAXX
11
+⋅=
×× l
l
MNMN
ˆ
)()(
.
Những tính t
oán tương ứng có thể thực hiện theo thuật toán hồi quy tuyến
tính đa chiều (xem chương 1), còn sai số bình phương trung bình của sự
kết hợp
− ước lượng theo các công thức đã dẫn ở trên. 63
Sự thành công của phép kết hợp hồi quy và cực tiểu hoá sai số sẽ
được quyết định bởi hai điều kiện:
− Tính đồng nhất thống kê của vectơ các quan trắc X ;
− Tính ổn định của các mối liên hệ )
ˆ








⋅⋅
⋅⋅
=

=
l
i
jii
k
j
pa
P
P
P
P
1

2
1

dương được quan niệm như là một hệ đa thành phần phức tạp, sự tương
tác giữa c
ác hợp phần của nó mang tính chất ngẫu nhiên. Phù hợp với
định nghĩa này, hoàn toàn có quyền hướng tới những mô hình thống kê,
những mô hình này cho ta khái niệm về sự tiến triển các hiện tượng khí
tượng thủy văn trong thời gian như về một quá trình ngẫu nhiên )(tX và
cho phép đặt bài toán nghiên cứu những khả năng ngoại suy thống kê quá
trính này. Các mô hình thống kê ngày càng được ứng dụng hữu hiệu cho
các mục đích
chẩn đoán và dự báo những quá trình khí tượng thủy văn.
Nhờ chúng có thể mô tả cấu trúc thống kê, và hệ quả là xác lập được
những giới hạn khả báo thống kê của các quá trình nghiên cứu [151].
Việc giải quyết đúng đắn bài toán này phụ thuộc nhiều vào dạng thông tin
xuất phát (số chiều của vectơ các dấu hiệu, khoảng gián đoạn quan trắc)
và dạng của mô hình thống
kê được chọn.
Tính khả báo của mô hình quá trình một chiều
Hiện nay khi nghiên cứu những quá trình hải dương phần lớn các tác
giả coi trọng những mô hình tự hồi quy bậc 1 (
1−AP
). Chính những
tham số của các mô hình là cơ sở cho các kết luận về cấu trúc thống kê
của các chuỗi thời gian và những giới hạn khả báo thống kê. Điều này
được giải thích là do: những quá trình khí quyển được mô tả bởi mô hình
phổ loại "nhiễu trắng", còn những quá trình hải dương
− bởi mô hình
"nhiễu đỏ". Từ đó suy ra kết luận về tính quán tính yếu của các quá trình
khí tượng thủy văn, giới hạn dự báo được về mặt thống kê là khoảng báo
trước bằng một bước thời gian.

phương sai sai số dự báo,
−σ
Φ
2
phương sai của chuỗi được
dự báo.
Rõ ràng, các đại lượng
d
và Q càng nhỏ thì mô hình dự báo càng
dự báo tốt. Trong trường hợp 0
== Qd quá trình được dự báo là quá
trình luật nghiệm và do đó, nó được mô tả đơn trị bằng mô hình luật
nghiệm. Khi 1
== Qd quá trình là nhiễu trắng và dự báo tốt nhất là dự
báo khí hậu, tức dự báo giá trị trung bình.
Một ước lượng khác về hiệu quả dự báo
là ước lượng gián tiếp d
theo hệ số tương quan
r
giữa những giá trị thực và giá trị dự báo tuỳ
thuộc vào thời gian báo trước của dự báo [151]:
τ
−=
2
1 rd , (4.8)
trong đó
−
τ
giới hạn khả báo thống kê. Từ [234] suy ra rằng: việc xác
định giới hạn khả báo thống kê trực tiếp phụ thuộc vào các tham số của

1
1
2
1
ln
;
−σ
z
sai số tính toán bình
phương trung bình lý thuyết (
)/( 31 −=σ N
z
).
Nhiều tác giả [
35, 65, 69, 135, 146] đã tiến hành phân tích những
chuỗi khí tượng thủy văn bằng các mô hình thống kê tuyến tính. Kết quả
đã nhận được những biểu thức quan hệ quan trọng giữa các tham số mô
hình và các sai số dự báo có thể có. Chẳng hạn, người ta đã xác định
được rằng việc dự báo sẽ có nghĩa khi 9,0
≤d . Tuy nhiên, với tư cách là
những chỉ tiêu dự báo thực tiễn, người ta đưa ra những điều kiện cụ thể
hơn và khá khắc nghiệt:
Φ
σ6740, và −σ
Φ
80, những trị số tương ứng với
d45,0 và d74,0 . Vì vậy, điều quan trọng là phải xác lập được những
biểu thức liên hệ giữa độ xác thực của dự báo với những chỉ tiêu về độ
chính xác đang xét và các tham số của mô hình xác suất thống kê.
Thí dụ, mức

trình. Sau đó, cho thay đổi các tham số mô hình để xác định giới hạn biến
thiên của đại lượng được dự báo. Ta thấy rằng để xác định giới hạn dự
báo được về thống
kê loại 1 cũng cần xây dựng mô hình về quá trình
được dự báo, dù ở mức xấp xỉ. Như vậy rõ ràng có mối liên hệ giữa tính
khả báo loại 1 và loại 2, được quy định bởi kiểu của mô hình. Hình 4.2. Phụ th
uộc lý thuyết giữa độ
xác thực dự báo
Q
và phương sai
tương đối của sai số dự báo
dd /
0

Trong [44] cho biết rằng không thể mô tả các quá trình hải dương
khác nhau chỉ bằng một mô hình nào đó. Điều này cũng đúng khi ta mô tả
hành vi của từng quá trình riêng biệt trong thời gian: tại những thời đoạn
khác nhau thì có những mô hình xác suất thống kê khác nhau vận hành.
Vì vậy, kết luận về tính phù hợp của các mô hình
1−
A
P với các quá
trình khí tượng thủy văn và giới hạn dự báo được tương đối không lớn
của chúng chỉ nên xem là kết luận gần đúng bước đầu.
Ý tưởng kết hợp những mô hình dự báo đơn và đưa ra
dự báo tối ưu
có những ưu việt ngay cả dưới góc độ phân tích tính khả báo thống kê.

X . Ngay từ các công
trình [71, 91, 96, 115, 154] đã cho thấy rằng những thành phần khai triển
đầu tiên (
f ), với phương sai lớn gấp ít nhất hai lần phương sai sai số
quan trắc, sẽ mô tả những biến thiên dài hạn của cấu trúc các quá trình.
Dưới góc độ tự tương quan, tính chất này tương đương với sự tăng bán
kính tương quan và tăng độ ổn định của các hàm tự tương quan đối với
các thành phần khai triển đầu tiên so với các đặc trưng trung bình của
các hàm tự tương quan của các biến xuất phát.
Mức độ tăng
tính khả báo hiện nay chưa chứng minh được bằng lý
thuyết, mặc dù sự phụ thuộc này vào số chiều của quá trình xuất phát và
mức độ nén thông tin trong các thành phần khai triển đầu tiên là hiển
nhiên.
Do sự độc lập của các thà
nh phần khai triển, tính khả báo của mỗi 66
thành phần trong số chúng có thể đánh giá độc lập theo những công thức
của
τ ,, Qd đã dẫn ở trên. Mỗi thành phần chính đặc trưng một đặc thù
trong cấu trúc quá trình. Vì vậy, khi đánh giá tính khả báo của từng thành
phần, người nghiên cứu có cơ hội phân tích chi tiết bản chất tính khả báo
của quá trình đa chiều trong khuôn khổ mô hình đang xét. Tính khả báo
tổng cộng của quá trình đa chiều được ước lượng bằng tổng những ước
lượng đơn đối với các thành phần khai triển:

=
α=

1
22
1 1 611
N
i
NNiir )(/))()(()( ,
trong đó
−)(1r hệ số tự tương quan hạng với bước dịch 1=τ ; −
ω
)(i số
hiệu lớp trạng thái tại thời điểm i ;
−N độ dài tập mẫu. Sự hiện diện của
ước lượng này về nguyên tắc cho phép đưa ra đặc trưng khả báo loại 1 và
loại 2 trên cơ sở tính toán các chỉ tiêu
τ và d .
Tuy nhiên, khi quá trình thể hiện tính đa mốt rõ rệt
thì cách tiếp cận
kinh điển tỏ ra kém hiệu quả và buộc ta phải hướng tới khái niệm tính
khả báo lượng tử [65, 153] mà nội dung của nó quy về phân tích xác suất
về sự ổn định duy trì những trạng thái riêng lẻ và sự chuyển tiếp qua lại
giữa chúng. Những ước lượng mẫu về sự ổn định đối với các pha trạng
thái có thể rất khác nhau làm
cho ước lượng khả báo trung bình của quá
trình không mang thông tin và mất ý nghĩa trong trường hợp số trạng thái
có thể có của quá trình nhiều hơn hai.
Ước lượng tính khả báo khi cập nhật thông tin
Việc đánh giá tính khả báo trở thành vấn đề rất cấp thiết khi xây
dựng những mô hình thích ứng tính tới mối liên hệ ngược: mô hình
−
thông tin. Chúng ta sẽ xét hai phương án mô hình như trong mục 4.1 và

loại 2 khi đó sẽ được ước lượng theo biến lượng của
các thành phần chính mà mức ý nghĩa các dao động tự tương quan mẫu
của chúng sẽ là thước đo về sự nhạy cảm của mô hình dự báo đối với
những biến thiên của các tiên lượng.
Sự cập nhật t
hông tin mới trong các mô hình "lớp trạng thái" trong
trường hợp đơn giản nhất sẽ dẫn tới làm biến thiên độ ổn định của sự xuất
hiện và chuyển tiếp qua lại giữa các lớp đã phân chia. Những dao động 67
tương ứng về xác suất chuyển tiếp sẽ được theo dõi trong điều kiện sử
dụng các thủ tục ước lượng Bayes (xem mục 4.2), cho chúng ta khái niệm
về sự biến thiên tính khả báo cục bộ của những cấu trúc riêng biệt của
quá trình. Còn về sự biến thiên tính khả báo chung, thì những dao động
tính khả báo loại 1 có thể ước lượng qua hệ số tương quan hạng của
Spirmen.

sẽ cho phép: trong khuôn khổ giải quyết các bài toán, còn có thể nhấn
mạnh một số vấn đề phương pháp luận, trong số đó có vấn đề: chọn và
đánh giá những biến mang thông tin, sự liên hệ qua lại giữa những mô
hình chẩn đoán tổng quát và đặc thù (cục bộ về không gian và thời gian),
xác định về mặt thống kê các vùng tích cực về năng lượng và các front.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ ĐA - Pdf 21

Tài liệu, ebook tham khảo khác

Học thêm