191
CH!"NG 5. PH!"NG PHÁP TH#NG KÊ D$ BÁO H%N MÙA
CÁC Y!U T" VÀ HI!N T"#NG KHÍ H$U C%C &OAN '
VI!T NAM
5.1 M! "#u
T!"ng t# nh! các v$n %& khoa h'c khác, có hai ph!"ng pháp ti(p c)n v*i bài
toán d# báo mùa: ph!"ng pháp th#c nghi+m d#a trên các quan tr,c quá kh- và ph!"ng
pháp l. thuy(t xác l)p các mô hình ho/t % 0ng c1a h+ th2ng khí h)u. Theo ph!"ng pháp
th#c nghi+m, d# báo s3 %!4c xây d#ng d#a trên các quan tr,c có %!4c trong quá kh
Các quan tr,c này khi kh5o sát s3 cho th$y m0 t s2 m2i quan h+ nh$t %6nh gi7a các y(u
t2 khí h)u t8 %ó có th9 %!a ra d# báo t!"ng lai trên c" s: s2 li+u quan tr,c trong quá
kh Theo ph!"ng pháp l. thuy(t, h+ th2ng khí h)u s3 %!4c mô ph;ng b<ng m0t mô
hình thích h4p theo m0t s2 quy lu)t v)t l. nào %ó. Mô hình này n(u %!4 c ki9m ch-ng
s3 cho phép %!a ra các d# báo trong t!"ng lai. Cách gi5i quy(t t2i !u trong tr!=ng h4p
này là k(t h4p c5 hai ph!"ng pháp, t)n d>ng %i9m m/nh c1a m?i ph!"ng pháp.
Di@n gi5i m0t cách c> th9, ph!"ng pháp th#c nghi+m trong d# báo mùa %!4c
th#c hi+n thông qua các công c> th2ng kê truy&n th2ng v*i nhân t2 d# báo là các quan
tr,c trong quá kh- %!4c tA h4p d!*i d/ng các chB s2. Hi+n t/i, ph!"ng pháp l. thuy(t
%ang có vai trò th,ng th( và s3 là h!*ng nghiên c-u chính trong t!"ng lai v*i các mô
hình khí h)u toàn cCu GCM và các mô hình khí h)u khu v#c RCM. K(t h4p c1a hai
ph!"ng pháp này th!=ng %!4c bi(t %(n d!*i tên g'i downscaling th2ng kê (SD) khi
quan h+ th2ng kê sD d>ng tr#c ti(p d# báo t8 các mô hình GCM hay RCM làm nhân t2
d# báo bên c/ch các nhân t2 d# báo truy&n th2ng c1a ph!"ng pháp th#c nghi+m.
Y(u t2 d# báo %Cu tiên mà các mô hình th2ng kê kinh nghi+m h!*ng %(n là hi+n
t!4ng El Nino. Barnston và Ropelewski (1992) [31] là các tác gi5 %Cu tiên %ã áp d>ng
kE thu)t phân tích t!"ng quan canon CCA vào d# báo hi+n t!4ng El Nino. Y(u t2 d#
báo bao gF m giá tr6 nhi+t %0 mGt n!*c bi9n SST t/i 8 khu v#c. Nhân t2 d# báo cHng
bao gFm các giá tr6 SST nh!ng cho mùa hi+n t/i và sD d>ng thêm y(u t2 áp su$t m#c
bi9n pmsl. Tr!*c khi %!a vào CCA, c5 y(u t2 và nhân t2 d# báo %&u %!4c th#c hi+n
phân tích thành phCn chính PCA. CCA là m0t kE thu)t th2ng kê tuy(n tính c#c %/i hóa
mùa theo h!*ng downscaling th2ng kê.
Khác v*i th2ng kê truy&n th2ng d#a trên t)p các nhân t2 d# báo t8 quan tr,c quá
kh-, các mô hình th2ng kê này d#a trên t)p các nhân t2 d# báo là các tr!=ng d# báo t8
GCM hay RCM. Ngoài ph!"ng pháp SD, trong d# báo khí h)u %6a ph!"ng ng!=i ta
còn th# c hi+n downscaling theo ph!"ng pháp downscaling %0ng l#c (DD) ch/y lFng
m0t mô hình khu v#c phân gi5i cao trong l!*i d# báo phân gi5i th$p c1a GCM.
Ph!"ng pháp này s3 %!4c trình bày trong ch!"ng 6 c1a %& tài.
Cùng v*i s# xu$t hi+n c1 a 2 ph!"ng pháp SD và DD, d# báo các hi+n t!4ng khí
h)u c#c %oan trên quy mô %6a ph!"ng b,t %Cu nh)n %!4c s# quan tâm c1a c0ng %Fng
khoa h'c bên c/ch các y(u t2 thông th!=ng nh! l!4ng m!a hay nhi+t %0. D# a trên các
d# báo c1a GCM, Gordon và CS (1992) [133] %ã chB ra r<ng nFng % 0 CO
2
khi tKng lên
s3 dIn %(n nh7ng bi(n %Ai %áng k9 c1a hi+n t!4ng m!a l*n c5 v& tCn xu$t và c!=ng %0.
Tuy nhiên, nghiên c-u này m*i chB th#c hi+n trên quy mô l*n. L9 xác %6nh bi(n %Ai
c1a các hi+n t!4ng c#c %oan trên quy mô %6a ph!"ng, nKm 2001 Liên minh châu Âu
%ã kh:i %0ng d# án STARDEX (Statistical and Regional dynamical Downscaling of
Extremes for European regions). D# án k(t thúc vào nKm 2005 v*i 3 k(t lu)n quan
tr'ng sau (STARDEX, 2005 [296]):
• Bi(n %Ai c1a các y(u t2 c#c tr6 m!a và nhi+t %0 di@n ra m0t cách h+ th2ng và tác
%0ng t*i châu Âu trong 40 nKm qua. Nh7ng bi(n %Ai c" b5n s3 ti(p t>c trong t!"ng
lai.
• TFn t/i %0 b$t %6nh trong các k6ch b5 n bi(n %Ai c1a các y(u t2 c#c tr6 trên quy mô
%6a ph!"ng khi downscale t8 quy mô toàn cCu v& quy mô %6a ph!"ng.
• Nên ti(p c)n bài toán bi(n %Ai c1a các y(u t2 c#c tr6 quy mô %6a ph!"ng theo
h!*ng %a mô hình dù sD d>ng ph!"ng pháp SD hay DD.
Bên ngoài Liên minh châu Âu, Lim và CS (2009) [214] %ã sD d>ng kE thu)t SD
d#a trên mô hình CFS, xác %6nh bi(n % A i c1a các c#c tr6 l!4ng m!a và tác %0ng c1a
các bi(n %Ai này t*i v> mùa t/i %ông nam Hoa KJ., Zhu và CS (2008) [360] ti(p c)n
bài toán d# báo l!4ng m!a theo h!*ng %a mô hình d#a trên kE thu)t SD cho khu v#c
c1a GCM. Tr!*c khi áp d>ng quan h+ th2ng kê vào d# báo, bias cCn %!4c lo/i b; kh;i
các tr!=ng d# báo quy mô l*n c1a GCM. Nh! th(, GCM cCn th#c hi+n tái d# báo
(reforecast) %9 có th9 xác %6nh giá tr6 khí h)u c1a mô hình so v*i giá tr6 khí h)u quan
tr,c th#c t8 %ó th#c hi+n khD bias. Riêng v*i sai s2 ngIu nhiên không th9 khD b; , ta
cCn chú . %(n tác %0ng c1a sai s2 này trong các k(t qu5 d# báo cu2i cùng. Sai s2 này
có th9 lo/i b; m0t phCn khi sD d>ng d# báo tA h4p v*i nhân t2 d# báo xác % 6 nh t8
nhi&u GCM khác nhau do quan h+ th2ng kê %!4c xây d#ng hoàn toàn t8 quan tr,c.
Kh5 nKng lo/i b; %!4 c sai s2 h+ th2 ng và ngIu nhiên là m0t !u %i9m c1a SD so v*i
DD.
M>c ti(p theo s3 mô t5 c" s: l. thuy( t c1a các ph!"ng pháp th2ng kê %!4c sD
d>ng. Chi ti(t h"n v& mGt th#c hành c1a ph!"ng pháp nh! s2 li+u sD d>ng, cách l#a
ch'n t)p các nhân t2 d# báo, y(u t2 d# báo, phân mùa d# báo %!4c trình bày trong
m>c sau %ó. Cu2i cùng s3 trình bày nh7ng k(t qu5 thu %!4c.
5.2 C$ s! l% thuy&t
Các kE thu)t SD r$t %a d/ng nh!ng có th9 phân chia thành 3 lo/i chính nh! sau:
các s" %F phân l*p th=i ti(t (weather classification schemes), các mô hình hFi quy
(regression models) và các b0 sinh th=i ti( t (weather generators) theo Giorgi và CS
(2001) [110]. Các s" %F phân l*p th=i ti(t và các b0 sinh th=i ti(t h!* ng %(n d# báo
cho t8ng ngày dù h/n d# báo vIn trên quy mô tháng và mùa. Quan tâm ch1 y(u %(n d#
báo tháng và mùa, %& tài s3 sD d>ng l*p các ph!"ng pháp theo mô hình hFi quy. Các
mô hình hFi quy %6nh l!4ng quan h+ gi7a nhân t2 d# báo và y(u t2 d# báo d!*i d/ng
194
tuy(n tính hoGc phi tuy(n. Các ph!"ng pháp thông d>ng trong l*p các mô hình hFi quy
gFm có hFi quy tuy(n tính %a bi(n REG hay MLR (multi-linear regression), phân tích
t!"ng quan canon CCA, phân tích riêng bi+t Fisher FDA, m/ng t( bào thCn kinh nhân
t/o ANN, Ba kE thu)t s3 %!4c -ng d>ng trong %& tài gFm REG, ANN và FDA.
D!*i %ây là mô t5 v& l. thuy(t các kE thu)t này.
5.2.1 H!i quy tuy"n tính #a bi"n REG
Bài toán hFi quy tuy(n tính %a bi(n có d/ ng nh! sau: xác %6nh t)p p+1 các h+ s2
X
T
y (5.2.2)
trong %ó y là vector y(u t2 d# báo kích th!*c n, X là ma tr)n nhân t2 d# báo kích
th!*c (p+1)!n v*i m?i vector c0t t!"ng -ng m0t vector nhân t2 d# báo kích th!*c n.
Ch$t l!4ng c1a %!=ng hFi quy %!4c xác %6nh thông qua h+ s2 R
2
hay còn g'i là
RV (Reduction of Variance) cho bi(t tO l+ bi(n %0ng c1a y(u t2 d# báo %!4c gi5i thích
b:i %!=ng hFi quy. H+ s2 này %!4c k. hi+u là R
2
b:i cKn b)c hai c1a nó chính là h+ s2
t!"ng quan Pearson gi7a t)p các giá tr6 Y xác %6 nh t8 ph!"ng trình hFi quy và t)p các
giá tr6 Y trên th#c t( t8 t)p s2 li+u training. V& mGt toán h' c, R
2
%!4c xác %6nh b:i
SST
SSE
SST
SSR
R !== 1
2
(5.2.3)
trong %ó SSR, SST và SSE %!4c tính theo công th-c sau:
!
=
"=
n
i
i
1
2
)
ˆ
(
(5.2.6)
v*i s2 h/ng y mH là giá tr6 c1a y xác %6nh theo ph!"ng trình hFi quy, s2 h/ng y có
d$u g/ch ngang là trung bình c1a y trên t)p training, s2 h/ng y không có k. hi+u %Gc
bi+t nào là giá tr6 quan tr,c th#c c1a y và e chính là sai s2 hFi quy.
Khi có m0t t)p l*n các s2 h/ng có t!"ng quan lIn nhau có th9 tr: thành nhân t2
d# báo REG th!=ng sD d> ng kE thu)t hFi quy t8ng b!*c. Các s2 h/ng s3 %!4c %!a dCn
vào ph!"ng trình hFi quy v*i p tKng dCn t8 1 cho % ( n m0t giá tr6 nào % ó th;a mãn tiêu
chuPn d8ng.T/i m?i b!*c m0t s2 h/ ng s3 %!4c l#a ch'n n(u so v*i t$t c5 các s2 h/ng
khác s2 h/ ng %!a vào cho sai s2 c1a ph!"ng trình hFi quy th$p nh$ t. Tiêu chuPn d8ng
%!4c xác %6 nh v*i m0t s2 phCn trKm cho tr!*c khi các s2 h/ng %!a thêm vào ph!"ng
trình hFi quy không làm gi5m thêm sai s2 c1a ph!"ng trình hFi quy v!4t quá s2 phCn
trKm này.
195
Khi -ng d>ng REG vào d# báo xác su$t REG %!4c bi(t %(n v*i tên g'i REEP
(Regression Estimation of Event Probabilities) (Glahn, 1985 [119]). Khái ni+m d# báo
xác su$t : %ây ng> . y(u t2 d# báo là m0t bi(n xác su$t, không ph5i m0t bi(n có giá tr6
c> th9 (ví d> y( u t2 d# báo là xác su$t xu$t hi+n m!a ch- không ph5i là giá tr6 l!4ng
m!a). Do %ó, y(u t2 d# báo trong t)p s2 li+u ph> thu0c tr!*c h(t cCn %!4c chuy9n %Ai
v& d/ng nh6 phân 0 hoGc 1. Giá tr6 0 c1a y(u t2 d# báo cho bi(t hi+n t!4ng không x5y
ra và giá tr6 1 cho bi(t hi+n t!4ng có x5y ra. MGc dù t)p y(u t2 d# báo ph> thu0c chB
bao gFm giá tr6 0, 1, khi áp d>ng d# báo trong th#c t(, y(u t2 d# báo s3 có giá tr6 bi(n
thiên trong kho5ng [0,1] cho ta xác su$t d# báo hi+n t!4ng. Tuy nhiên, các giá tr6 !*c
l!4ng c1a y(u t2 d# báo vIn có th9 nh)n các giá tr6 nh; h"n 0 và l*n h"n 1. H/n ch(
này %!4c kh,c ph>c b<ng cách chBnh l/i các giá tr6 v!4t ng!Qng v& các giá tr6 0 và 1.
= {x
1
, ,x
n
},
các tr'ng s2 t!"ng -ng là véct"
w
!
= {w
1
, , w
n
},.
TA h4p tuy(n tính c1a các giá tr6 %Cu vào là:
Hình 5.1 S" #$ m%ng feed-forward
m&t l'p (n
u = w
1
x
1
+ + w
n
x
n
(5.2.7)
Giá tr6 %Cu ra
( ) ( )
uwxo +=
0
Hàm ng!Qng (threshold).
( )
!
"
#
<
$
=
0v khi
0v khi
0
1
v
%
(5.2.10)
Hàm tuy(n tính - tr"n t8ng %o/n (piecewise-linear)
( )
!
!
!
"
!
!
!
#
$
%
<<
&
=
hàm kích ho/t. Ta %6nh nghNa sai s2 E là tAng các sai s2 trên t$t c5 các neuron %Cu ra:
( ) ( )
! !
" "
#=
Dd outputsk
kdkd
otwE
2
2
1
!
(5.2.13)
v*i D là t)p s2 li+u luy+n, t
d
là giá tr6 %ích (giá tr6 mong mu2n), o
d
là giá tr6 %Cu ra
c1a ví d> luy+n th- d. M>c %ích c1a chúng ta là c#c ti9u hóa E trong không gian
w
!
.
Quá trình c#c ti9u hóa này (còn %!4c hi9u là quá trình h'c c1a ANN) %!4c ti(n hành
theo thu)t toán lan truy&n ng!4c. C> th9 xD l. toán h'c c1a quá trình này có th9 tìm
hi9u trong các tài li+u tham kh5o v& ANN. K(t qu5 cu2i cùng s3 là t)p các tr'ng s2 w
và áp d>ng m/ng ANN thu %!4c vào d# báo.
5.2.3 Phân tích riêng bi&t Fisher (FDA)
Ph!"ng pháp phân tích riêng bi+t (g'i t,t là FDA - Fisher Discriminant Analysis)
%!4c phát tri9n t8 nKm 1936 b:i R. A. Fisher là m0t kE thu)t th2ng kê dùng %9 phân
lo/i/d# báo các %2i t!4ng cCn nghiên c-u (nh! con ng!=i, khách hàng, %F v)t, …) vào
quan tr,c thu0c vào nhóm 2. Hay nói cách khác, ma tr)n ban %Cu x có th9 tách thành 2
ma tr)n con t!"ng -ng là X
1
có kích th!*c là (n
1
"
K) và ma tr)n X
2
có kích th!*c là
(n
2
"
K). M>c tiêu c1a FDA là tìm %!4c m0t hàm tuy(n tính c1a K nhân t2 (hay còn
g'i là hàm riêng bi+t) sao cho m0t vector quan tr,c K chi&u y nào %ó s3 %!4c phân lo/i
m0t cách chính xác vào nhóm 1 hoGc nhóm 2. L9 tìm ra hàm riêng bi+t, tr! * c h(t cCn
tính 2 vector trung bình %Gc tr!ng cho 2 nhóm theo công th-c nh! sau:
[ ]
1,2 g
=
!
!
!
!
!
!
!
!
!
"
1
1,
g
g
g
n
i
Ki
g
n
i
i
g
n
i
i
g
T
g
g
g
x
n
x
n
x
n
X
n
x
gg
X
n
XX 1
1
(5.2.15)
[ ] [ ] [ ]
1,2 g,
=
!!
"
=
g
T
g
g
g
XX
n
S
1
1
(5.2.16)
trong %ó
g
X
!
là ma tr)n trung tâm/d6 th!=ng c1a nhóm th- g có kích th! * c (n
g
x
2
, ph!"ng trình (5.2.17) s3 tr: thành d/ng trung bình c0ng %"n gi5n
gi7a S
1
và S
2
. M>c tiêu c1a FDA là tìm ra m0t h!*ng d trong không gian d7 li+u K
chi&u sao cho kho5ng cách gi7a hai vector trung bình c1a hai nhóm là c#c %/i khi toàn
b0 d7 li+ u %!4c chi(u lên h!*ng d này. Nh! v) y, vector d7 li+u x s3 %!4c bi(n %Ai
sang m0t bi(n m*i là
xd
T
=
!
(bi(n
!
còn %!4c g'i là hàm riêng bi+t tuy(n tính). Hay
nói cách khác, hai nhóm c1a d7 li+u %a bi(n trên không gian K chi&u s3 %!4c chuy9n
v& thành 2 nhóm c1a d7 li+u %"n bi(n %!4c phân b2 d'c theo tr>c d v*i hai giá tr6
trung bình khác nhau. Vector riêng bi+t d xác %6nh h!*ng trong %ó s# tách bi+t gi7a 2
nhóm là c#c %/i s3 %!4c xác %6nh theo công th-c sau:
[ ]
)(
21
1
xxSd !=
!
(5.2.18)
Vi+c xác %6nh m0t vector quan tr,c y trong t!"ng lai s3 thu0c vào nhóm 1 hay
nhóm 2 có th9 %!4c th#c hi+n d#a trên giá tr6 c1a bi(n
vector quan tr,c y s3 thu0c v& nhóm 1 n(u
0!"
##
y
vector quan tr,c y s3 thu0c v& nhóm 2 n(u
0<!
""
y
5.3 Các b'(c th)c hi*n
5.3.1 '(t bài toán
D#a trên t)p s2 li+u tái phân tích %Gc tr!ng cho các tr!=ng khí h)u quan tr,c quy
mô l*n và s2 li+u khí h)u quy mô %6a ph!"ng quan tr,c %!4c t/i các tr/m %o, %& tài s3
áp d>ng m0t s2 kE thu)t th2ng kê SD nh! %ã nêu trong m>c 5.2 xác %6nh quan h+
th2ng kê có th9 gi7 a các y(u t2 quy mô l*n v* i các y(u t2 %6a ph!"ng trên khu v#c
Vi+t Nam. Các quan h+ này n(u %!4c khMng %6nh trên t)p s2 li+u %0c l)p s3 %!4c áp
d>ng vào bài toán d# báo khí h)u trên quy mô tháng và mùa v*i t)p nhân t2 t8 d# báo
c1a mô hình toàn cCu GCM nào %ó. Tùy thu0c vào b5n ch$t t8ng y(u t2 d# báo mà %&
tài s3 l# a ch'n m0t s2 ph!"ng pháp thích h4p. V*i m?i y(u t2 d# báo, s3 có hai
ph!"ng pháp khác nhau %!4c sD d>ng v*i m>c %ích xác %6 nh m0t ph!"ng án có ch$t
l!4ng d# báo t2t nh$t. Các bài toán s3 %!4c ti(n hành bao gFm:
• D# báo nhi+t %0 c#c tr6 b<ng REG và ANN
• D# báo s2 %4t m!a l*n b<ng REG và ANN
• D# báo s2 %4t không khí l/nh b<ng REG và ANN
• D# báo kh5 nKng xu$t hi+n n,ng nóng và rét %)m b<ng REEP và FDA
199
Nh! v)y : %ây ch1 y(u sD d>ng hai kE thu)t REG và ANN cho các y(u t2 d# báo
khác nhau. Riêng v*i các y(u t2 d# báo mang tính xác su$t, REG s3 %!4c thay th( b:i
l*n, s2 %4t không khí l/nh và kh5 nKng xu$t hi+n n,ng nóng và rét %)m. M>c này s3
trình bày ph!"ng pháp %6nh l!4ng hóa các y(u t2 này %9 có th9 %!a vào mô hình th2ng
kê. V*i y(u t2 d# báo nh! nhi+t %0 c#c tr6, giá tr6 c1a y( u t2 d# báo %"n gi5n chính là
giá tr6 nhi+t %0 c#c tr6 trung bình tháng %o %!4c t/i tr/m. Các y(u t2 khác %6nh l!4 ng
s3 ph-c t/p h"n do y(u t2 %!a ra ph5i mang tính phA quát t/i m'i %i9m tr/m không
ph> thu0c %Gc tr!ng khí h)u c1a tr/m. Ví d> do xác %6nh tr!*c ng!Qng rét %)m là 15
0
C,
nh7ng tr/m t/i vùng núi cao nh! Sa Pa hay Là L/t s3 th!=ng xuyên xu$t hi+n rét %)m
dù %i&u này th9 hi+n %G c tính khí h) u c1a tr/m h"n là các y(u t2 liên quan %( n front
l/nh. N(u thay vì ng!Qng 15
0
C nh! trên, ta xác %6nh y(u t2 d# báo là nhi+t %0 nh; h"n
phân v6 10% c1a phân b2 khí h)u t/i tr/m thì cách xác %6nh nh! v)y %5m b5o tính phA
quát t/i m'i %i9m tr/m t8 các tr/m vùng khí h)u núi cao cho t*i các tr/m vùng khí h)u
bi9n %5o. Nhi+t %0 d!*i phân v6 10% %Fng nghNa v*i s# ki+n hi(m (l/nh b$t th!=ng)
x5y ra t/i tr/m.
200
M>c tiêu c1a %& tài h!*ng %(n d# báo các y(u t2 khí h) u c#c %oan do %ó cách
ti(p c)n theo h!*ng các phân v6 10% hay 90% nh! trên cCn %!4c th#c hi+n. NghNa là
y(u t2 khí h)u c#c %oan cCn %!4c so sánh t!"ng %2i v*i phân b2 khí h)u t/ i %i9m tr/m.
So sánh tuy+t % 2 i nh! v*i ng!Qng 15
0
C cHng có th9 th#c hi+n v*i %i&u ki+n ng!Qng
này không n<m quá gC n phân v6 50% (median) c1a phân b2 t/i %i9m tr/m. L& tài s3
l#a ch'n hai ng!Qng phân v6 33% và 66% nh! % i&u ki+n cCn %9 có th9 xây d#ng mô
hình th2ng kê v*i m0t y(u t2 nào %ó t/i tr/m. Tùy theo t8 ng y( u t2 mà phân v6 d! * i
33% hay phân v6 trên 66% s3 %!4c sD d>ng b:i m0t hi+n t!4ng chB %!4c coi là c#c
%oan khi ng!Qng t!"ng -ng v*i hi+n t!4ng n<m v& phía hai %Cu c1a phân b2.
0
. Các bi(n có th9 tr: thành nhân t2 d# báo chB bao gFm các bi(n c" b5n:
áp su$t m#c bi9n PMSL, %0 %6a th( v6 h, gió u,v, nhi+t % 0 T và %0 Pm RH t/i các m#c
áp su$t c" b5n 1000, 850, 700, 500mb. Tùy thu0c h/n d# báo c1a y(u t2 mà các tr!=ng
nhân t2 s3 là tr!=ng khí h)u trung bình tháng hay trung bình mùa.
T8 tr!=ng tái phân tích hay d# báo trên l!*i, các nhân t2 d# báo cCn %!4c xác
%6nh t/i %i9m tr/m b<ng m0t ph!"ng pháp thích h4p. L& tài s3 thD nghi+m hai ph!"ng
pháp khác nhau khi ch'n các nhân t2 d# báo có th9 cho m? i %i9m tr/m. Theo ph!"ng
án %"n gi5 n nh$t, giá tr6 các bi(n d# báo nêu trên t/i %i9m l!*i gCn nh$t s3 %!4c sD
d>ng khi tuy9n ch'n nhân t2 d# báo cho %i9m tr/m t!"ng -ng. Nh! v) y, v*i m?i th=i
%i9m, m?i %i9m tr/m s3 có 21 bi(n có th9 sD d>ng làm nhân t2 d# báo. Ph!"ng án hai
ph-c t/p h"n, sD d>ng kE thu)t phân tích thành phCn chính PCA trên m0t mi&n cho
tr!*c c1a m?i tr!=ng khí quy9n %9 xác %6nh các thành phCn chính PCx trên mi&n này.
Các thành phCn chính PCx này sau %ó s3 %!4c sD d> ng làm nhân t2 d# báo v*i %i&u
ki+n hàm tr#c giao t!"ng -ng EOFx gi5i thích %!4c ít nh$t 5% bi(n %0ng c1a tr!=ng
này. V*i m?i tr!=ng, t/i m?i m#c, ta s3 có ít nh$t m0t PCx có th9 tr: thành nhân t2 d#
201
báo và do %ó t/i m?i %i9m tr/m s2 bi(n có th9 sD d>ng làm nhân t2 d# báo s3 l*n h"n
21. Khác v*i ph!"ng pháp l$y %i9m gCn nh$t, theo ph!"ng pháp này m'i %i9m tr/m s3
cùng chung t)p các nhân t2 d# báo có th9. Khó khKn ch1 y(u v*i ph!"ng pháp này
n<m : khâu l#a ch'n mi&n xác %6nh các thành phCn chính.
L9 có m0t t)p nhân t2 d# báo v*i b)c %0 l*n t!"ng %!"ng, các nhân t2 d# báo
cCn %!4c chuPn hóa tr!*c khi xây d#ng ph!"ng trình th2ng kê. Li&u này khá hi9n
nhiên, n(u quan sát các bi(n d# báo : trên có th9 th$ y v*i m0t t)p l*n các bi(n d# báo
%!4c %!a vào tuy9n ch'n, b)c %0 l*n bi(n thiên khá r0ng. T$t nhiên các bi(n này khác
nhau v& th- nguyên và không th9 so sánh v*i nhau, nh!ng ph!"ng trình th2ng kê xem
các nhân t2 d# báo nh! nhau, không phân bi+t th- nguyên. B)c % 0 l*n chênh l+ch quá
l*n gi7a các nhân t2 d# báo s3 dIn %(n sai sót trong xây d#ng ph!"ng trình th2ng kê
khi các %/i l!4ng quá l*n hay quá nh; s3 b6 b; qua. L9 kh,c ph>c v$n %& này, t)p h4p
k
x
ˆ
là vô th- nguyên và có giá tr6 t)p trung trong
kho5ng t8 -3 cho %(n +3.
Quá trình tuy9n ch'n nhân t2 s3 %!4c th#c hi+n d#a theo chB s2 R
2
hay RV. Quá
trình này s3 d8 ng l/i khi RV không tKng thêm v*i m0t tO l+ phCn trKm cho tr!*c nào %ó
so v*i RV c1 a b!*c tr!*c % ó. TO l+ này %!4c g'i là tO l+ d8 ng, %óng vai trò quan tr'ng
quy(t %6nh t* i s2 l!4ng nhân t2 d# báo. N(u tO l+ d8ng quá nh;, hi+n t!4ng quá kh*p
(overfitting) có th9 x5y ra. MGc dù RV xác %6nh t8 t)p s2 li+u ph> thu0c có giá tr6 l*n
nh!ng RV xác %6nh t8 t)p s2 li+u %0c l)p s3 có giá tr6 nh; , th)m chí âm. N(u tD l+ d8ng
quá l*n, m0t s2 thông tin d# báo quan tr'ng s3 không d!4c %!a vào ph!"ng trình d#
báo và RV s3 có giá tr6 nh;. L9 xác %6nh tO l+ d8ng t2i !u, ta s3 hi9n th6 %Fng th=i giá
tr6 RV tính t8 t)p s2 li+u ph> thu0c và t)p s2 li+u %0c l) p d#a theo các tO l+ d8ng khác
nhau nh! trên hình 5.2. Có th9 th$y RV xác %6nh trên t)p s2 li+u ph> thu0c tKng dCn
khi tO l+ d8ng gi5m dCn nh!ng RV xác %6nh trên t)p s2 li+u %0c l)p b, t %Cu gi5m khi tO
l+ d8ng v!4t quá 2% v*i MLR và 7% v*i ANN. TO l+ d8ng 2% và 7% do %ó có th9
xem là tO l+ d8ng t2i !u trong nh7ng tr!=ng h4p này. Nh! v)y không có m0t tO l+
d8ng duy nh$t t2i !u cho m'i y(u t2 d# báo và m'i ph!"ng pháp.
ChB s2 RV %!4c % 6 nh nghNa trong ph!"ng pháp hFi quy tuy(n tính. Khi sD d>ng
cho mô hình ANN, cCn ph5i hi9u RV nh! là bình ph!"ng c1a h+ s2 t!"ng quan gi7a
y(u t2 d# báo b: i mô hình v*i quan tr,c th#c c1a y(u t2 d# báo. Riêng v*i các y(u t2
hi+n t!4ng, ta không sD d>ng chB s2 RV khi tuy9n ch'n mà sD d>ng chB s2 BSS. Ví d>
v& bi(n thiên c1a BSS trong quá trình tuy9n ch'n nhân t2 %!4c cho trên hình 5.3. Chi
ti(t v& d/ng toán h'c c1a các chB s2 RV và BSS %ã %!4c trình bày trong ch!"ng 2.
Khác v*i cách ti(p c)n downscaling th2ng kê, d# báo s# ho/t %0ng c1a bão %!4c
th#c hi+n theo ph!"ng pháp th2ng kê truy&n th2ng. Do %ó nhân t2 d# báo %!4c sD
d>ng 2 nhóm nhân t2 là: Nhóm các chB s2 khí h)u và Nhóm chB s2 hoàn l!u (b5ng 5.1).
203
B4ng 5.1 Nhân t+ d, báo s5 d6ng trong d, báo BVN và BBD
K! hi"u
! ngh"a
Th=i %i9m khai thác
Nhóm ch! s" khí h#u
QBO
Dao %0ng t#a hai nKm tCng bình l!u
Tháng 8 nKm tr!*c
Repac
D6 th!=ng áp su$t m#c bi9n Lông Thái Bình
D!"ng xích %/o
Hi+u gi7a tháng 11
và tháng 8 nKm tr!*c
Reqsoi
ChB s2 Dao %0ng Nam xích %/o
Tháng 6 nKm tr!*c
Rindo
D6 th!=ng áp su$t m#c bi9n khu v#c Indonesia
Tháng 12 nKm tr!*c
Soi
ChB s2 Dao %0ng Nam
Tháng 7 nKm tr!*c
AnoNino12
D6 th!=ng SST khu v#c Nino 1+2 (0-10°S;
90°W-80°W)
Hi+u gi7a tháng 3 và
o
E – 100
o
E)
Hi+u gi7a tháng 3 và
tháng 2
H500
L0 cao %6a th( v6 m#c 500 mb khu v#c (30
o
N –
35
o
N; 160
o
E – 180
o
E)
Hi+u gi7a tháng 3 và
tháng 2
U200
Gió vN h!*ng m#c 200 mb khu v#c (15
o
N –
20
o
N; 200
o
E – 220
o
E)
các tháng mùa xuân và hè (tháng 3 %(n tháng 8). Quan h+ th2ng kê cho y(u t2 rét %)m
chB %!4c xây d#ng cho ba tháng mùa %ông (tháng 12 %(n tháng 2). T!"ng t#, v*i y(u
t2 %4 t không khí l/nh, mô hình th2ng kê chB %!4c xây d#ng cho mùa %ông và khác v*i
các y(u t2 tr!* c h/n d# báo c1a các %4t không khí l/nh là d# báo mùa thay vì d# báo
tháng. Cu2i cùng mô hình th2ng kê cho s2 %4t m!a l*n cHng có h/n mùa nh!ng %!4c
th#c hi+n cho hai mùa hè và thu.
L9 ki9m nghi+m ph!"ng trình d# báo thu %!4c chu?i s2 li+u t8 1979 %(n 2007
%!4c phân chia thành hai t)p 1979-1998 và 1999-2007 trong %ó chu?i s2 li+u %Cu
%!4c sD d>ng %9 xây d#ng ph!"ng trình hFi quy, chu?i s2 li+u sau %óng vai trò t)p s2
li+u %0c l)p %9 ki9m tra ph!"ng trình hFi quy. Nh! v)y dung l!4ng mIu 20 nKm khi
xây d#ng ph!"ng trình hFi quy khá nh; n(u xây d#ng ph!"ng trình riêng cho m?i
204
tháng. L9 tKng dung l!4ng mIu các tháng s3 %!4c g0p l/i theo 4 mùa xuân (tháng
3,4,5), h/ (tháng 6,7,8), thu (tháng 9,10,11), %ông (tháng 12,1,2).
V*i hai y(u t2 hi+n t!4ng n,ng nóng và rét %)m, khác v*i REEP, FDA chB phân
l*p y(u t2 d# báo thành 2 l*p có x5y ra hi+n t!4ng hay không mà không %!a ra d# báo
xác su$t gi7 a 0 và 1. L9 thu %!4c giá tr6 xác su$t d# báo ta s3 sD d>ng kE thu)t bi(n
%Ai (transforming) c1a Murphy và Winkler (1987) [244]. Giá tr6 phân l*p 0 1 t8 FDA
s3 %!4c thay th( b<ng bi(n liên t>c là kho5ng cách t8 %i9m d# báo % (n mGt phMng phân
l*p. T)p các giá tr6 này, xác %6nh t8 FDA trên t)p s2 li+u ph> thu0c, %!4c s,p x(p theo
th- t# tKng dCn và chia %&u thành m!=i phCn. V*i m?i phCn, các quan tr,c khi d# báo
r"i vào phCn này %!4c t)p h4 p l/i và xác %6nh xác su$t l!4ng m!a th#c t( l*n h"n
ng!Qng m!a %ang xét t!"ng -ng. Giá tr6 này %!4c xem nh! xác su$t d# báo sau %ó khi
áp d>ng FDA trên t)p d7 li+u %0c l)p và kho5ng cách d# báo r"i vào phCn m!=i t!"ng
-ng. Ví d> khi kho5ng cách d# báo trong kho5ng [1,2] trên t)p s2 li+ u ph> thu0c, ta
quan sát th$y tCn xu$t m!a th#c t( là 0.9. Giá tr6 0.9 này s3 là giá tr6 xác su$t d# báo
n(u kho5ng cách d# báo trên t)p d7 li+u %0c l)p sau %ó thu0c kho5ng [1,2].
V*i hai y( u t2 s2 %4t m!a l*n và s2 %4t không khí l/nh, 2 ph!"ng pháp MLR và
ANN có th9 d# báo s2 %4t nh; h"n 0. Trong tr!=ng h4p này ta s3 dùng kE thu)t c,t
Phân tích thành phCn chính PCA s3 %!4c th#c hi+n trên 4 mi&n khác nhau khi
xác %6nh các thành phCn chính PCx %!4c sD d>ng làm nhân t2 d# báo. Mi&n 1 l*n nh$t
có t'a %0 70
0
E-240
0
E, -40
0
S-70
0
N bao ph1 toàn b0 khu v#c Thái Bình D!"ng. D/ ng
c1a hàm tr#c giao %C u tiên EOF1 và bi(n thiên c1a thành phCn chính t!"ng -ng PC1
cho bi(n PMSL trung bình tháng vào mùa hè trên mi&n này %!4c cho trên hình 5.4.
Mi&n 2 nh; h"n có t'a %0 80
0
E-145
0
E, -10
0
S-40
0
N bao ph1 khu v#c tây b,c Thái Bình
D!"ng. Hình 5.5 t!"ng t# nh! hình 5.4 cho ta hình 5nh v& mi&n này thông qua hàm
EOF1. Mi&n 3 nh; nh$t có t'a %0 95
0
E-125
0
E, 0
0
S-30
Hình 5.6 Hàm EOF1 và bi7n thiên c8a
PC1 cho bi7n PMSL trung bình tháng vào
mùa hè trên mi9n 3
Hình 5.7 Hàm EOF1 và bi7n thiên c8a
PC1 cho bi7n PMSL trung bình tháng vào
mùa #ông trên mi9n 4
Ki9m nghi+m ch$t l!4ng d# báo theo các ph!"ng pháp l#a ch'n nhân t2 d# báo
khác nhau s3 %!4c th#c hi+n nh! %ã trình bày trong ch!"ng 2 t8 t)p s2 li+u %0 c l)p
1999-2007 v*i t)p s2 li+u 1979-1998 %!4c sD d>ng xây d#ng ph!"ng trình d# báo.
Ngoài 4 ph!"ng pháp l#a ch'n nhân t2 d# báo t8 các PCx v*i 4 mi&n khác nhau
(PCAMLR1, PCAMLR2, PCAMLR3, PCAMLR4) nêu trên, ph!"ng pháp l#a ch'n
nhân t2 d# báo t8 %i9m gCn %i9m tr/m nh$t (MLR) cHng %!4c %!a vào so sánh. Có th9
hi9u ph!"ng pháp này là m0 t bi(n th9 % G c bi+t c1a PCA khi mi&n tính co l/i thành m0t
%i9m duy nh$t (hay mi&n 5 chB bao gFm m0t %i9 m). Y(u t2 d# báo %!4c l#a ch'n ki9m
nghi+m là nhi+t %0 trung bình tháng (T2m) v*i mô hình th2 ng kê REG.
Ch$t l!4ng d# báo theo các ph!"ng pháp khác nhau s3 %!4c %ánh giá thông qua
chB s2 RV, MSSS. Các hình P5.1 %(n P5.4 lCn l!4t mô t5 bi(n thiên c1a chB s2 RV
trung bình trên toàn Vi+t Nam theo 4 mùa v*i 4 ph!"ng pháp l#a ch'n nhân t2 khác
nhau. V*i cùng m0t tO l+ d8ng, chB s2 RV trên t)p d7 li+u %0c l)p s3 l*n h"n khi mi&n
tính cho PCA thu nh; l/i. Tr!=ng h4p %Gc bi+t khi sD d>ng %i9m gCn %i9m tr/m nh$t
làm nhân t2 d# báo (hay mi&n tính PCA thu nh; l/i thành 1 %i9m), ngo/i tr8 mùa %ông,
chB s2 RV thu %!4c luôn l*n h"n chB s2 RV t!"ng -ng t8 các nhân t2 theo PCA v*i
mi&n tính khác nhau.
Nh! v)y, kh5o sát theo chB s2 RV, ph!"ng án l#a ch'n nhân t2 theo %i9m gCn
nh$t cho ch$t l! 4ng d# báo t2t h"n so v*i các ph!"ng pháp có sD d>ng PCA. L 9 so
sánh c> th9 h"n t/i t8ng %i9m tr/m và sD d>ng thêm %i9m s2 khác khi %ánh giá, hình
t!"ng t# v*i d# báo s2 %4t không khí l/nh.
V*i các bi(n hi+n t!4ng, %& tài s3 kh5 o sát ch$t l!4ng d# báo kh5 nKng xu$t hi+n
rét %)m v*i cùng 5 ph!"ng pháp l#a ch'n nhân t2 nh! trên. Ph!"ng pháp th2ng kê sD
d>ng vIn là REG nh!ng th!=ng %!4c bi( t %(n v*i tên g'i REEP. Do th#c hi+n kh5o
sát bi(n hi+n t!4ng nên chB s2 RV s3 %!4c thay th( b:i chB s2 BSS và ta s3 sD d>ng
thêm bi9u %F tin c)y %9 %ánh giá d# báo. Hình P5.13 t!"ng t# nh! các hình tr!*c %ó
mô t5 bi(n thiên c1a BSS theo 5 ph!"ng pháp. Trong khi c5 4 ph!"ng pháp
PCAMLRx %&u cho BSS nh; h"n 0, MLR t; ra t2t h"n khi BSS có tr6 s2 cQ 0.07. K(t
qu5 này ti(p t>c khMng %6nh ! u th( c1 a ph!"ng pháp l#a ch'n %i9m gCn nh$t so v*i sD
d>ng PCA tr!*c khi tuy9n ch'n nhân t2.
Bi9u %F tin c)y cho d# báo cho kh5 nKng xu$t hi+n rét %)m %!4c th9 hi+n trên
hình 5.8 v*i ph!"ng pháp PCAMLR3 %/i di+n cho các ph!"ng pháp PCAMLRx %!4c
so sánh v*i MLR. D# báo theo MLR có %0 tin c) y và %0 phân gi5i t2t h" n so v*i d#
báo t8 PCAMLR3, dIn %(n %i9m s2 BSS trung bình cao h"n (BSS d# báo theo
PCAMLR3 th)m chí còn nh; h"n 0 có nghNa d# báo theo PCAMLR3 có kE nKng th$p
h"n d# báo khí h)u). Tu %i9m duy nh$t v*i PCAMLR3 là d# báo %!a ra có %0 nh'n
l*n khi d# báo t)p trung v& hai %Cu c1a d# báo khí h)u thay vì t)p trung quanh d# báo
khí h)u nh! v*i MLR. Y(u t2 d# báo kh5 nKng xu$t hi+n n,ng nóng cHng cho các k(t
qu5 t!"ng t# nh!ng không %!4c th9 hi+n : %ây.
208 Hình 5.8 Bi9u #$ tin c:y trên khu v,c Vi-t Nam trong mùa #ông t0 2 ph1"ng pháp l,a
ch/n nhân t+ PCAMLR3 và MLR trên t:p s+ li-u #&c l:p theo REEP cho kh4 n;ng
xu<t hi-n rét #:m
TAng h4p l/i t8 các %ánh giá trên, ph!"ng án l#a ch'n nhân t2 d# báo theo %i9m
l!*i gCn %i9 m tr/m nh$t t; ra có !u th( h"n so v*i sD d>ng các thánh phCn chính PCx
là k(t qu5 c1a ph!" ng pháp PCA trên m0t mi&n tính l#a ch'n tr!*c nào %ó. Các k(t
qu5 d# báo d!*i %ây s3 không sD d>ng ph!"ng pháp PCA và chB sD d>ng ph!"ng pháp
hè và %ông. Vào hai mùa xuân và thu t/i m0t s2 %i9m giá tr6 t!"ng quan r$t l*n có khi
lên %(n 0.98, 0.99. Nh! %ã nói : trên %i&u này cho th$y ph!"ng trình hFi quy mô
ph;ng r$t t2t bi(n %0ng mùa.
Hình 5.9 Chu=i th>i gian quan tr3c và d, báo Tmin2m và Tmax2m t%i m&t s+ #i.m
tr%m có k? n;ng th<p h"n d, báo khí h:u theo REG
210
Phân b2 c1a MSSS v*i Tmin2m và Tmax2m %!4c cho trên hình P5.22 %(n P5.25.
Mô hình REG cHng nh! ANN cho th$y m0t kE nKng d# báo t2t h"n d# báo khí h)u t/i
hCu h(t các %i9m tr/m. T!"ng t# nh! v*i corr, t/i cùng m0t %i9m tr/m, d# báo theo
REG th!=ng cho MSSS l*n h"n so v*i d# báo theo ANN. T/i m0t s2 %i9 m MSSS âm
có nghNa d# báo theo mô hình REG hay ANN có nh7ng v$n %& nh$t %6nh t/i các %i9m
tr/m này. M0t s2 chu?i th=i gian d# báo và quan tr,c t/i các %i9m tr/m có MSSS âm
%!4c cho trên hình 5.9. Tuy nhiên, r$t khó gi5i thích t/i sao kE nKng d# báo t/i %ây l/i
th$p h"n so v*i d# báo khí h)u.
TAng h4p l/i, d# báo nhi+t %0 c#c tr6 theo ph!"ng pháp REG cho th$y m0t ch$t
l!4ng d# báo t2t h"n so v*i d# báo theo ph!"ng pháp ANN. Các ph!"ng trình thu
%!4c có th9 -ng d>ng trong d# báo h/n tháng cho Tmin2m và Tmax2m.
Trên % ây là %ánh giá t!"ng %2 i d# báo nhi+t %0 c#c tr6 khi so sánh v*i m0t d#
báo %2i ch-ng là d# báo khí h)u v*i m>c % ích chB ra kE nKng c1a d# báo th2ng kê.
Lánh giá này %ã cho th$y ph!"ng pháp REG cho k(t qu5 d# báo t2t h"n so v*i ANN.
D!*i %ây mô t5 giá tr6 sai s2 tuy+t %2i c1a d# báo Tmin2m và Tmax2m theo ph!"ng
pháp REG trên 7 khu v#c khác nhau trong 4 mùa (b5ng 5.2, 5.3). Sai s2 d# báo
Tmin2m trên t$t c5 các khu v#c luôn nh; h"n 1
0
C cho m'i mùa. Riêng mùa hè sai s2
-0.4
-0.5
RMSE
0.9
0.7
1.0
1.0
0.6
0.9
1.0
CORR
0.94
0.98
0.95
0.94
0.96
0.96
0.68
H/
ME
0.2
0.1
0.2
0.1
-0.1
-0.2
-0.2
RMSE
0.5
0.6
0.5
CORR
0.97
0.98
0.98
0.97
0.97
0.98
0.70
Lông
ME
0.3
-0.1
-0.1
0.0
-0.2
-0.5
-0.2
RMSE
0.9
0.9
1.0
0.9
0.6
1.0
0.7
CORR
0.90
-0.2
RMSE
0.9
0.9
1.7
1.4
0.7
0.8
0.8
CORR
0.94
0.97
0.94
0.91
0.93
0.95
0.78
H/
ME
0.1
0.3
-0.1
0.4
0.2
0.2
-0.2
RMSE
0.8
0.6
0.7
CORR
0.96
0.99
0.97
0.96
0.93
0.93
0.70
Lông
ME
0.1
-0.1
-0.3
0.3
0.3
0.5
0.1
RMSE
1.2
1.2
1.6
1.5
0.8
1.0
0.7
CORR
0.93
0.91
213 Hình 5.12. Chu=i th>i gian quan tr3c và d, báo Tmax2m t%i tr%m Láng theo REG
trong 4 mùa 214 Hình 5.13. Chu=i th>i gian quan tr3c và d, báo Tmax2m t%i tr%m C@n Th" theo REG
trong 4 mùa
Các ph!"ng trình hFi quy thu %!4c sau khi mã hóa b<ng ngôn ng7 ch!"ng trình
ch/y %!4c trên h+ th2ng máy tính s3 %!4c áp d>ng vào d# báo v*i mô hình CFS thay