NXB Đại học Quốc gia Hà Nội - Hà Nội - 2005
Từ khóa: Quá trình hải dương học, chẩn đoán, dự báo, thống kê, phương pháp hồi quy, thành phần chính, nhân tố, phương pháp phân loại, cấu
trúc, biến động, ma trận số liệu, nhận biết phân biệt, khai triển trường, mô hình tuyến tính, đa chiều, phân tích quan hệ, dự báo tổ hợp.
Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu cá nhân. Nghiêm
cấm mọi hình thức sao chép, in ấn phục vụ các mục đích khác nếu không được sự chấp thuận của nhà xuất bản và tác giả. CHẨN ĐOÁN VÀ DỰ BÁO THỐNG KÊ
CÁC QUÁ TRÌNH HẢI DƯƠNG HỌCSmirnov N. P., Vainovsky P. A., Titov Iu. E.
NHÀ XUẤT BẢN ĐẠI HỌC QUỐC GIA HÀ NỘI - 2005
Н. П. СМИРНОВ, П. А. ВАЙНОВСКИЙ, Ю. Э. ТИТОВ
СТАТИСТИЧЕСКИЙ
ДИАГНОЗ
И ПРОГНОЗ
ОКЕАНОЛОГИЧЕСКИХ
ПРОЦЕССОВ
Санкт-Петербург
ГИДРОМЕТЕОИЗДАТ - 1998
Với phương tiện tính toán ngày càng hiện đại, chắc chắn hướng nghiên
cứu phân tích thống kê tự động sẽ phát triển và cuốn sách này sẽ hữu ích
cho nhiều người nghiên cứu.
Người biên dịch
P PHÂN LOẠI TỰ ĐỘNG 43
3.2. PHƯƠNG PHÁ
P PHÂN TÍCH PHÂN BIỆT 51
Chương
4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH
THỐNG KÊ ĐA CHIỀU 56
4.1. DỰ BÁO
CẤU TRÚC CỦA CÁC QUÁ TRÌNH 56
4.2. DỰ BÁ
O NHỮNG LỚP TRẠNG THÁI CỦA CÁC QUÁ TRÌNH 59
4.3. KẾT HỢP CÁC MÔ HÌNH DỰ BÁ
O 61
4.4. TÍNH KHẢ BÁO
THỐNG KÊ CỦA CÁC QUÁ TRÌNH HẢI DƯƠNG
HỌC 63
Chương
5 - NHỮNG KẾT QUẢ CHẨN ĐOÁN THỐNG KÊ CÁC QUÁ
TRÌNH HẢI DƯƠNG HỌC 67
5.1. CHẨN ĐOÁ
N CÁC TRƯỜNG NHIỆT Ở BẮC ĐẠI TÂY DƯƠNG 68
5.2. CHẨN ĐOÁ
N CẤU TRÚC NƯỚC BIỂN NA UY 77
5.3. CHẨN ĐOÁ
N CẤU TRÚC CÁC KHỐI NƯỚC Ở BIỂN
BELLINSHAUZEN 88
Chương
6 - NHỮNG KẾT QUẢ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH
HẢI DƯƠNG HỌC 93
6.1. DỰ BÁO
CÁC TRƯỜNG NHIỆT Ở BẮC ĐẠI TÂY DƯƠNG 94
x
về một biến số nào đó,
tại một điểm không gian, vào một thời điểm cho trước, sẽ là một ô duy
nhất trong khối lập phương dữ liệu. Một chuỗi gồm
N quan trắc
{}
N
xxx , , ,
21
sẽ là một vectơ nằm dọc theo trục tương ứng của khối lập
phương.
Thí dụ, bản ghi
nhiệt độ nước ở một điểm tại những thời điểm
N
ttt , , ,
21
sẽ cho ta một vectơ quan trắc )(tX , trong khối lập phương
dữ liệu nó sẽ song song với trục thời gian. Một quan trắc phân bố thẳng
đứng của nhiệt độ nước sẽ là một vectơ dữ liệu song song với trục không
gian: )(l
X . Nếu ta quan trắc liên tiếp theo thời gian về phân bố thẳng
đứng của nhiệt độ nước tại một điểm, ta sẽ nhận được một mặt phẳng dữ
liệu nằm trong khối lập phương song song với mặt phẳng các dấu hiệu: 3
),( ltX .
Còn nếu như đồng thời với nhiệt độ, ta quan trắc nhiều lần các tham số
trạng thái đại dương khác (độ muối, vận tốc dòng chảy, các yếu tố hoá
học), thì kết quả là ta nhận được khối lập phương dữ liệu phủ đầy tất cả
2
lX . Ở đây người ta vừa phân tích từng vectơ riêng biệt, vừa
phân tích mức độ quan hệ cặp đồng bộ hay bất đồng bộ giữa chúng. Vậy
là người ta đã nghiên cứu cấu trúc thống kê của quá trình một cách đầy
đủ hơn so với phân tích đơn chiều.
Nhưng chỉ tr
ong các phương pháp phân tích thống kê đa chiều thì
mới thực sự có khả năng khảo sát đồng thời một tập hợp các vectơ quan
trắc. Các phương pháp phân tích thống kê đa chiều hướng tới giải quyết
các bài toán phân tích thống kê đối với những ma trận gồm
N quan trắc
(các đối tượng) về
M
biến số (các dấu hiệu). Ở đây, những ma trận có
thể là những bảng số nhận được bằng cách cắt khối lập phương dữ liệu
dọc theo một mặt bất kỳ nào đó. Đây có thể là những ma trận quan trắc
trong các mặt phẳng: các biến số
− thời gian ),( tzX , các biến số − không
gian ),( lzX hoặc thời gian
− không gian ),( ltX . Ta có thể đưa trục các
dấu hiệu vào phân tích thì cũng hoàn toàn như vậy, đó là ưu điểm rõ rệt
của phân tích thống kê đa chiều, nó cho phép khảo sát khối lập phương
dữ liệu một cách toàn thể. Những tập phân bố đồng thời của các đặc
trưng quan trắc được phân tích bằng các phương pháp phân tích các vectơ
và các ma trận, với chúng, bằng phép phân tích thống kê đa chiều sẽ đưa
ra sự mô
tả định lượng về những mối liên hệ tương hỗ ẩn bên trong các
tham số ban đầu và phát hiện ra nội hàm của các mô hình chẩn đoán và
dự báo các quá trình hải dương đa chiều được nghiên cứu.
Khái niệm c
yếu tố đã phát hiện được ở giai đoạn phân tích. Thực chất thì tổng hợp
bao gồm nhiều phương pháp trong số các phương pháp phân tích, nhưng
chúng được áp dụng với chức năng nội dung và mục tiêu khác
− để liên
kết và hệ thống hoá những hợp phần đã biết. Ngoài ra, tổng hợp gồm cả
sự lý giải về hệ thống các quy luật đã thấy được. Lý giải được hiểu là sự
giải thích vật lý về những quy luật đã phát hiện, nêu ra cơ chế vật lý
chung trong sự xuất hiện và phát triển của các hiện tượng đang diễn ra
trong đại dương.
Tác giả công
trình này gộp vào khái niệm chẩn đoán toàn bộ những
thủ tục biến đổi thông tin hải dương học đa dạng trong quá trình nghiên
cứu sự vận hành của hệ thống "đại dương" trong quá khứ hay hiện tại. Vì
vậy, có hai loại thủ tục chẩn đoán sau đây với tư cách là những bộ phận
cấu thành của chẩn đoán: chẩn đoán vật lý và chẩn đoán thống kê.
Những
khái niệm này khác nhau về dấu hiệu kỹ thuật hay dấu hiệu tính toán.
Chẩn đoán vật lý bao gồm c
ác thủ tục và phương pháp xác định
trạng thái đại dương, được xây dựng trên cơ sở mô tả những hiện tượng
và quá trình hải dương bằng cách tính toán và phân tích những đặc trưng
thủy vật lý. Theo nội dung, chẩn đoán vật lý có tính truyền thống. Trước
hết, nó gồm những phương pháp hải dương học tính toán những đặc
trưng trạng thái đại dương không trực tiếp quan trắc, những đặc trưng thứ
sinh. Đó là những tham
số đặc trưng cho các trường vật lý, động lực,
năng lượng, ta có thể kể ra rất nhiều. May thay, tất cả những tham số đó
liên hệ với những đặc trưng nguyên sinh thông qua những quy luật vật lý
đã biết và tạo thành một tập hợp các biến đặc trưng một cách đơn trị cho
Về toàn cục thì thực tiễn phân tích vật l
ý đối với những quá trình hải 5
dương là một phương pháp luận đã hình thành, hoàn chỉnh và rất hiệu quả
trong xử lý thông tin hải dương học.
Những nguyên tắc của chẩn đoán thống kê
Chẩn đoán thống kê yêu cầu sử dụng các phương pháp thống kê để
xử lý, phân tích và lý giải thông tin hải dương học đa dạng. Phương pháp
luận của chẩn đoán thống kê dựa trên nhiều phương pháp phân tích thống
kê và thể hiện dữ liệu.
Chẩn đoán t
hống kê có nhiều triển vọng ứng dụng thực tế trong
nghiên cứu hải dương học. Đó là do hiện nay có rất nhiều phương pháp
thống kê biến đổi thông tin. Song việc sử dụng chẩn đoán thống kê trong
thực tế hiện còn rất hạn chế. Về điều này có một số nguyên nhân.
Thứ nhất, rõ ràng rằng trong giới những
người nghiên cứu ứng dụng
chưa hiểu sâu sắc về chính hệ thống các tính toán thống kê và sự liên hệ
ràng buộc bên trong của các phương pháp thống kê khác nhau. Thực chất
điều này cản trở việc sử dụng nhiều phương pháp để hình thành và kiểm
tra các giả thuyết thống kê, chấp nhận những quyết định có căn cứ thống
kê để khảo sát định
lượng toàn diện về những mối liên hệ lẫn nhau giữa
các đặc trưng hải dương học. Chúng tôi cho rằng chính là sự thiếu hiểu
biết thực dụng về bản chất của phương pháp luận thống kê đã làm nảy
sinh sự hoài nghi đối với nó. Kết quả là sự chẩn đoán bị quy về ứng dụng
thực tế một số thủ pháp phương pháp luận riêng biệt, những thủ p
háp này
thống kê bậc thấp), mô tả quan hệ các chuỗi (tương quan cặp và hồi quy),
phát hiện quy luật biến động thời gian của các đặc trưng hải dương học
(phân tích điều hoà, phổ, hiệp phổ). Trong khi đó các phương pháp phân
tích nhiều biến nói chung hiện còn ít được dùng hơn, điều này hoàn toàn
không tương xứng với sức mạnh thực tế của các phương p
háp đó.
Ta sẽ khái quát hoá những
nhận xét trên đây về chẩn đoán vật lý và
thống kê dưới dạng một sơ đồ trực quan đơn giản sao cho có thể tóm lược
được những ý tưởng phương pháp luận của các hướng nghiên cứu khác
nhau (hình 0.2).
Thấy rằng k
hối chẩn đoán thống kê liên quan trực tiếp với ba khâu
của hệ thống xử lý: các cơ sở dữ liệu, chẩn đoán vật lý và hình thành tri
thức của người dùng. Tương ứng với những mối liên hệ qua lại đó, có thể
phát biểu những bài toán cơ bản của chẩn đoán thống kê gồm ba nhóm
sau đây.
1. Những
bài toán về xử lý sơ bộ các số liệu, bao gồm các thủ tục 6
hỡnh thnh nhng mng thụng tin ban u t cỏc c s d liu gc v trờn
c s nhng kt qu tớnh toỏn cỏc c trng hi dng hc th sinh trong
khi chn oỏn vt lý.
2. Nhng bi
toỏn phõn tớch thng kờ thụng tin, th hin di dng
mt lot vn c th v phõn tớch thng kờ ti u i vi ti liu. Thớ
d, nhng bi toỏn v phỏt hin nhng hp phn tun hon trong bin
thiờn thi gian v khụng gian, ỏnh giỏ nh lng mi liờn h gia cỏc
Tính các đặc trng thống kê
Phân tích thống kê các quá trình
Lập mô hình thống kê
Lý giải kết quả
Tri thức
Ngời sử dụng
Chấp nhận quyết định
Dự báo
Hỡnh 0.2. S chc nng c
hn oỏn cỏc quỏ trỡnh hi dng hc
3. Nhng bi toỏn giai on tng hp, khi nhng c lng nh
lng thu c v cỏc mi liờn h thng kờ cn phi thng nht li di
hỡnh thc nhng mụ hỡnh v hin tng, ỏng tin v mt thng kờ, sau ú
lý gii theo tinh thn vt lý v c ch hot ng ca nhng mụ hỡnh nhn
c theo thut ng hi dng hc v phự hp vi nhng tiờn vt l
ý
ó chp nhn khi phõn tớch.
S khi tr
ờn õy vn hnh thnh cụng hay khụng tu thuc vo
tng quan gia trỡnh tri thc ca ngi s dng nhng kt qu chn
oỏn v tớnh hiu qu ca nhng quyt nh thc tin chp nhn trờn c
s tri thc ú. Nu hiu s gia hai hp phn ny õm thỡ s phỏt sinh yờu
cu tip tc nghiờn cu. Nu hiu dng s ny
Nguyên tắc kết hợp các phương pháp để liên tục áp dụng những
phương pháp nghiên cứu phức tạp hơn. Những phương pháp xử lý thống
kê đơn sơ hơn thì cho những kết quả thô, gần đúng, nhưng ít tốn thời
gian. Phương pháp chính xác hơn thường phức tạp hơn và ít kinh tế hơn.
Thông thường, sự phức tạp tính toán và tăng độ chính xác kết quả luôn
dẫn tới thu hẹp phạm v
i ứng dụng của hệ phương pháp. Độ tin cậy cao
của một ước lượng thống kê chủ yếu là do tuân thủ nghiêm ngặt những
điều giới hạn trong khi tính toán. Bài toán quen thuộc trong khí tượng
thủy văn về tính các chuẩn nhiều năm của nhiệt độ nước là một minh hoạ
về điều vừa nêu. Ước lượng gần đúng trung bình số học theo chuỗi quan
trắc dài tỏ ra không có gì kém so với những ước lượng tinh xảo kỳ vọng
toán học thực hiện bằng nhiều phương pháp phức tạp với xấp xỉ không
dừng.
Nguyên tắc kế thừa cho p
hép dần dần đạt tới độ tin cậy cực đại của
kết quả tính toán với độ mạo hiểm tối thiểu. Nguyên tắc này tạo ra khả
năng phân chia thành từng pha các phương pháp chẩn đoán thống kê
những quá trình hải dương. Một pha là một nhóm các phương pháp xử lý
thống kê gồm một số những tính toán khép kín, người sử dụng kiểm soát
tính hiệu quả của nó. Thí
dụ, khi tính các thành phần chính, có thể tổ
chức một pha tính mỗi thành phần và khôi phục giá trị của thành phần đó.
Sau khi kiểm tra tính hội tụ và tính lý giải được của các thành phần,
người sử dụng quyết định cần tiếp tục khai triển hay kết thúc các thủ tục
tính toán.
Trình tự chẩn đoán thống kê
Trong thực tế có thể thực hiện những nguyên tắc chẩn đoán thống kê
chung nhất đã liệt kê trên đây dưới dạng những sơ đồ tính toán thống kê.
− trung bình, phương sai, các hệ số biến phân, độ bất đối xứng, độ
nhọn, các tham số phân bố xác suất, là thông tin quan trọng về cấu trúc
nội tại của biến động thời gian hay không gian của các quá trình. Trên cơ
sở đó hình thành quan niệm ban đầu về biến động nền của các hiện tượng
nghiên cứu nói chung.
Phân tích các chuỗi t
hời gian được tách thành một khối riêng biệt, vì
trong đó những thuật toán ước lượng định lượng về mức độ có quy luật
trong sự biến thiên các đặc trưng hải dương học theo thời gian được liên
kết thành một chuỗi những tính toán liên quan nhau một cách lôgic.
Những ý tưởng phân tích chuỗi thời gian đã được xét chi tiết và toàn diện 8
trong nhiu chuyờn kho v nhng vn phõn tớch xỏc sut cỏc quỏ
trỡnh hi dng [69, 151, 193]. õy cn nhn mnh ý ngha to ln ca
phộp phõn tớch thng kờ tng hp i vi cỏc quỏ trỡnh hi dng a
chiu trong h phng phỏp ny.
Phân tích
Xử lý bớc đầu
Chọn các tham số
Hình thnh các tập mẫu
Phân tích thống kê ban đầu
Phân tích các chuỗi thời gian
Phân tích thống kê đa chiều
Lựa chọn mô hình thống kê
Ta ó bit rng cu trỳ
c tn s trong s tng tỏc gia cỏc thnh
t ca h thng khớ hu cú s bc t do rt khỏc nhau. Vic mụ t
nhng mi liờn h qua li trong cỏc dao ng ca nhng c trng hi
dng hc trong min tn s c thc hin bng cỏc phng phỏp
phõn tớch ph tng h; theo phng phỏp ny, t cỏc c lng ph
dao ng ng pha v k
hụng ng pha, hip bin v pha cỏc dao
ng, ta s cú c quan nim v s hin din hay khụng hin din
ca nhng tng tỏc cú tớnh tun hon gia hai chui thi gian.
Cũn cú mt
nhúm cỏc bi toỏn phõn tớch chui thi gian liờn quan
ti vic mụ t nhng dao ng tun hon chu k di trong cỏc quỏ
trỡnh ban u, gi l "xu th". Bi toỏn mụ t xu th chc chn khụng
nờn coi l bi toỏn tm thng v cú l nú cng l bi toỏn cũn lõu
mi hon thin.
Theo truyn thng thỡ cỏc nh nghiờn
cu xem xu th l mt th
nhiu khụng mong mun. Nguyờn nhõn l do xu th phỏ hu iu kin
dng ca cỏc chui thi gian, lm gim mnh hiu qu ca cỏc phng
phỏp phõn tớch tng quan v ph kinh in. Thc vy, tớnh khụng dng
v k vng toỏn hc, v cỏc c trng biờn v pha dao ng lm gim
tin cy ca nhng c lng ca cỏc thnh phn tt nh
, vỡ phn ln
trng hp trong thc t cỏc c lng ny c tớnh theo nhng thut
toỏn ỏp dng i vi nhng tp mu dng. Chớnh vỡ vy m ngi ta
thng mun bng mi cỏch loi b cỏc xu th trong cỏc chui. 9
liên hệ chủ yếu trong tài liệu phân tích. Vì có nhiều quan điểm lý thuyết
khác nhau, nên cũng xuất hiện và phát triển nhiều phương pháp phân tích
thống kê đa chiều, mỗi phương pháp tr
ong số đó lý giải sự biến động của
số liệu theo kiểu của mình. Những phương pháp phân tích thống kê đa
chiều phổ dụng nhất là:
1) Phân tích hồi qu
y;
2) Phân tích thành phần
và phân tích nhân tố;
3) Phân tích tương quan ch
uẩn hoá;
4) Phân loại
hay phân tích nhóm (cluster analysis);
5) Phân tích phân biệt (discriminant an
alysis).
Trên cơ sở những phương
pháp này nảy sinh hàng trăm biến thể
khác nhau. Nhiệm vụ của người nghiên cứu là làm sao định hướng tốt,
lựa chọn và sử dụng những phương pháp hiệu quả nhất. Khả năng áp
dụng phân tích thống kê đa chiều trong thực tế được quy định và được
kiểm tra bằng sự phù hợp giữa mô hình thống kê được xây dựng và số
liệu thực, ngoài ra phải xét xem những mối phụ thuộc tương hỗ nhận
được theo m
ô hình có lý giải được về vật lý hay không. Khi ứng dụng các
phương pháp phân tích thống kê đa chiều mà kết quả kém, thì điều đó
không chỉ nói lên nhược điểm của bản thân phương pháp, mà chủ yếu do
không phù hợp giữa phương pháp và số liệu xuất phát hay việc áp dụng
nó không đúng đắn. Chỉ có thể thành công khi áp dụng những phương
pháp này một cách có lựa c
mối liên hệ giữa các biến
trên cơ sở tương quan và
hồi quy
Hồi quy đa biến (tuyến tính,
phi tuyến)
Phân tích tương quan
chuẩn
hoá
Phát hiện và mô tả
cấu trúc tiềm ẩn của
số liệu
Biến đổi các biến thành
những thành phần trực giao
Khai triển thành các đa thức
đại số trực giao (Chebưsev,
Fourier)
Phương pháp thành phần
chính
Phân tích nhân tố
Tách các tập con trong
các đối tượng quan
trắc; điển hình, phân
loại, phân vùng
Tách biệt tự nhiên tập hợp
quan trắc thành những lớp
đồng nhất, đánh giá sắp xếp
các quan trắc cụ thể vào
những lớp xác định
Phân tích nhóm (phân loại tự
động)
− thời gian.
Phải thừa nhận phương p
háp khai triển đơn giản nhất là các thủ tục
khai triển theo các đa thức đại số, trong đó các đa thức Chebưsev và
Fourier là phổ dụng nhất. Phương pháp các thành phần chính cũng được
sử dụng rộng rãi, mặc dù nó có phần phức tạp hơn. Phương pháp phân
tích nhân tố tạm thời ít được ứng dụng trong hải dương học thực hành,
song trong các lĩnh vực khoa học khác (khí tượng học, sinh học, xã hội
học, kinh tế học) nó tỏ ra rất hữu hiệu. Sự hiệu quả của phương phá
p
phân tích nhân tố thường phải trả giá bằng sự phức tạp của các thủ tục
tính toán.
Quá trình hệ thống
hoá khoa học đối với những tri thức tích luỹ gắn
liền với phân loại hoá, phân loại các đối tượng nghiên cứu. Những vấn đề
phân loại khối nước, phân loại dạng băng, phân loại cấu trúc nước thẳng
đứng có ý nghĩa thực tiễn và khoa học đặc biệt. 11
Loi (kiu) ca hin tng hay quỏ trỡnh l kt qu khỏi quỏt thụng
tin tớch lu v i dng rt quan trng. Thụng thng, nhng bi toỏn
kiu tng t c gii quyt bng cỏch ng dng phng phỏp phõn
tớch phõn bit. Theo phng phỏp ny, da trờn nhng tớnh cht thng kờ
ca nhng lp ó c phõn ra trc õy, cú th xp thụng tin mi vo
mt trong nhng lp ú vi mt sai s ti thiu. Trong thc hnh, phõn
tớch phõn bit ó c ng dng hiu qu khi nhn dng kiu cu trỳc
thng ng nhit nc, khi chn oỏn v d bỏo kiu iu kin bng.
Trỡnh t chn oỏn thng kờ cỏc quỏ trỡnh a chiu
Khai triển các đặc trng
đợc nghiên cứu trong hệ
quy chiếu trực chuẩn (các
đa thức chuẩn, các thnh
phần chính, các nhân tố
chung, các biến chuẩn hoá)
Phân loại các quá
trình đợc nghiên cứu
trong không gian các
biến xuất phát (phân
lo
ạ
i t
ự
đ
ộ
n
g,
p
hân tích
Phơng án 1
Mô tả biến động các
quá trình bằng các
phơng pháp phân tích
bớc đầu đối với những
chuỗi thời gian trong hệ
q
u
y
nhng trng hp khụng tho món cỏc gi thit v tớnh chun trong cỏc
lut phõn b mt chiu v hai chiu, c bit trong trng hp xut hin
dao ng a mt. Chớnh c im ny cú tớnh quyt nh ti vic s dng 12
phép phân loại các quá trình được nghiên cứu. Theo kinh nghiệm của các
tác giả, nếu ngay từ đầu đã thực hiện phân tích cấu trúc với những số liệu
loại này bằng các phương pháp khai triển thì thường dẫn tới những mô
hình thống kê kém hiệu quả. Nguyên nhân dẫn tới những kết quả kém
như vậy là do tính ít thông tin của các ước lượng tham số tương quan và
hồi quy, vì phần lớn các phương pháp khai triển thực nghiệm xuất phát từ
những ước lượng đó.
Phải lưu
ý những người nghiên cứu thực hành rằng quy luật này
hoàn toàn có cơ sở, vì ước lượng liên hệ tương quan tuyến tính dựa trên
đòi hỏi tuân thủ tính chuẩn của phân bố xác suất hai chiều của các biến
[8, 75, 96, 201]. Nếu giả thiết chuẩn của luật phân bố thực nghiệm không
thoả mãn với xác suất
P
(%), thì ta chỉ có thể hy vọng nhận được kết quả
khai triển với độ chính xác khai triển không cao hơn
P
(%) chứ không
mong gì hơn.
Cần nhấn mạnh rằng sự kết hợp, m
óc nối giữa một số phương pháp
phân tích thống kê đa chiều ngày nay là một tất yếu, được khẳng định
bằng kinh nghiệm ứng dụng thực tiễn các phương pháp, bằng căn cứ lý
luận về sự liên kết này và bằng những khả năng kỹ thuật của máy tính
này cũng đặt ra mục tiêu minh hoạ tính hiệu quả và triển vọng ứng dụng
các phương pháp phân tích thống kê đa chiều để giải quyết những bài
toán dự báo các quá trình hải dương đa chiều.
Khái niệm "
dự báo" trong hải dương học thực hành hiện đại được
hình thành như là sự tiên đoán có căn cứ khoa học về những biến đổi
trong trạng thái các yếu tố chế độ đại dương. Bài toán dự báo các đặc
trưng hải dương học không phải là bài toán tầm thường, một mặt vì tính
phức tạp của các quá trình đang diễn ra trong đại dương, mặt khác vì
thiếu những hiểu biết có căn cứ khoa
học cho phép mô tả đúng các quá
trình. Lý thuyết tổng quát về những quá trình hải dương tạo ra một hệ
thống quan điểm đôi khi không phải là không còn những mâu thuẫn, trên
cơ sở đó xây dựng nên những phương pháp cụ thể phân tích và dự báo
các đặc trưng hải dương học. Tuy nhiên, từ lý thuyết đó chưa dẫn tới một
thuật giải vạn năng, đảm bảo dự báo hiệu quả. Những
quan trắc trong đại
dương ít khi cho phép người ta lý giải một tính biến động nào đó một
cách đơn trị, mà thường chỉ là cơ sở hình thành nên những giả thiết còn
phải kiểm tra cẩn thận. Sự đa dạng của các nhân tố trực tiếp và gián tiếp 13
ảnh hưởng tới biến động thời gian của các đặc trưng hải dương học, làm
chúng ta rất khó chính thức hoá một cách đơn trị những mối phụ thuộc
nhân quả. Vì vậy, những phương pháp thống kê chẩn đoán và dự báo các
đặc trưng hải dương học ngày càng được ứng dụng rộng hơn trong thực
tiễn. Tương tự như công trình [153] có thể định nghĩa dự báo thống kê
như là sự suy
nghiên cứu xác định được những khả năng của m
ô hình, tức thực hiện
việc kiểm tra các mô hình dự báo và đưa ra đánh giá khách quan cuối
cùng về mô hình đang dùng.
Phân loại các phương pháp dự báo
Ngày nay, dự báo một quá trình đa chiều là một bài toán tương đối
đặc biệt trong thực tiễn nghiên cứu dự báo hiện đại. Đối với hải dương
học, thì điển hình nhất là dự báo quá trình một chiều, gọi là dự báo một
yếu tố chế độ hay dự báo một đặc trưng hải dương học. Ở đây tính đa liên
hệ, đa chiều của bản thân quá trình hình thành sự biến thiên của đặc trưng
đang xét
bị đẩy xuống hàng thứ yếu (được tham số hoá gián tiếp qua
phương trình hồi quy đa biến) hoặc là bị bỏ qua hoàn toàn khi sử dụng
những phương trình tự dự báo. Trong công trình này, chúng tôi sẽ cố
gắng thử nghiệm ý tưởng bảo tồn tính đa chiều của quá trình cả trong
chẩn đoán lẫn trong dự báo. Ở đây chúng tôi cho rằng nội dung quan
trọng nhất của dự báo
một quá trình đa chiều chính là dự báo được sự tiến
triển liên hệ lẫn nhau của các tham số của vectơ
m
chiều các biến quan
trắc. Vì vậy việc dự báo một cách tách biệt các tham số riêng lẻ không có
vị trí hàng đầu, mà quan trọng là xây dựng mô hình dự báo mô tả được
những quan hệ đa chiều của các tham số của quá trình.
Số lượng các phương pháp có thể có để dự báo thống kê các quá
trình đa chiều một mặt do nội d
ung kết quả chẩn đoán, mặt khác do chức
năng mục tiêu của dự báo quy định. Trong bảng 0.2 biểu diễn ba mục tiêu
quan trọng nhất của việc xây dựng mô hình dự báo trong nghiên cứu hải
dương học ứng dụng. Chúng ta sẽ khái quát tóm tắt những nguyên tắc và
Dự đoán sự tiến triển của
quá trình theo nghĩa thay
thế các lớp trạng thái
Ngoại suy hàm mật độ xác suất bảo tồn
hay biến thiên lớp bằng những phương
pháp ước lượng Bayes và lý thuyết các
quá trình Markov
Dự báo một
biến riêng
lẻ của quá
trình đa
chiều
Dự đoán đặc trưng có tính
tới ảnh hưởng của tất cả các
tham số của quá trình
Ngoại suy dựa trên việc tính tới các
mối liên hệ không đồng bộ của những
tham số xuất phát bằng các phương
pháp phân tích hồi quy đa biến (tuyến
tính, đa thức, phổ, hồi quy từng bước)
Tính đa mốt của quá trình nhiều chiều biểu lộ rõ nét là tiền đề quan
trọng để chẩn đoán và dự báo động lực của nó, với ý nghĩa là động lực
chung của trạng thái quá trình. Ước lượng trạng thái tương lai của quá
trình ở đây được thực hiện dựa trên ngoại suy hàm mật độ xác suất bằng
các phương pháp của lý thuyết các quá trình Markov và ước lượng Bayes.
Các trị số dự báo của những
tham số xuất phát được xác định qua những
ước lượng kỳ vọng toán học và phương sai của chúng, ứng với lớp đang
xét.
Trong nhiều tình huống t
đồ dự báo đa tham số sau khi thất bại với tự dự
báo mà chỉ sử dụng một
trong những phương pháp đơn giản nhất
− phân tích xu thế hoặc xấp xỉ
Fourier. Trong khi đó, còn cả một loạt các phương pháp tự dự báo thống
kê xác suất có rất nhiều khả năng thì nhìn chung chưa được dùng tới.
Sự phát triển và hoàn thiện của các phương p
háp thống kê cho phép
nhìn nhận tương quan giữa các dự báo đa tham số và tự dự báo từ những
quan điểm mới, trực tiếp dựa theo kết quả chẩn đoán các quá trình hải
dương đa chiều. Việc ứng dụng các phương pháp phân tích thống kê đa
biến trong chẩn đoán tạo ra một khả năng hấp dẫn mô tả tin cậy quá trình 15
hải dương bằng những mô hình thống kê xác suất khép kín với số tham số
độc lập tổng quát tối thiểu
− các thành phần chính, các nhân tố chung, các
lớp. Giá trị dự báo của những tham số này rất hiển nhiên. Phương pháp
luận tự dự báo kinh điển khi áp dụng với những chỉ tiêu chẩn đoán tổng
quát này sẽ có một nội hàm mới.
Nét mới của phương pháp
tiếp cận này chính là ở chỗ xem xét lại
khái niệm đa chiều trong chẩn đoán và dự báo. Sự đa chiều không chỉ
được xem đơn thuần là có nhiều tiên lượng xuất phát, được quan trắc hay
được tính trực tiếp cho phương trình dự báo. Nó được hiểu là sự đa chiều
của bản thân yếu tố được dự báo, sự đa chiều này mô tả tin cậy trạng thái
của quá trình hải dương v
à chứa lượng thông tin đủ để tự dự báo. Vì vậy
trong khi chẩn đoán, mỗi tham số trạng thái quá trình hải dương được
quá khứ
F và trạng thái tương lai F
ˆ
của quá trình hải dương. Ở đây
cũng xuất hiện phần dư
ε gồm những sai số dự báo.
Mối liên hệ giữa chẩn đo
án và dự báo được thực hiện không chỉ
thông qua ma trận các tham số tổng hợp
F duy nhất đối với hai giai đoạn
chẩn đoán và dự báo. Trong trường hợp nếu ma trận phần dư của các mô
hình chẩn đoán khác với quá trình kiểu nhiễu trắng, thì nó cũng có thể
được đưa vào dự báo độc lập. Khi đó sẽ có một thành phần chịu trách
nhiệm dự báo bản thân ma trận
ε
cũng được đưa vào mô hình dự báo.
Trên hình 0.5 trình bày sơ đồ tổng quát tuần tự xử lý
các quá trình hải
dương đa chiều. Những khía cạnh quan trọng nhất trong các giai đoạn chẩn
đoán và dự báo đã được bàn luận ở trên và sẽ còn được phân tích tiếp theo.
Ở đây sẽ khái quát về các mối liên hệ giữa những khối lớn của sơ đồ này để
bước đầu đánh giá những khả năng tiềm tàng của việc ứng dụng
phương
pháp tiếp cận này trong thực tế. Nguyên tắc tổ chức cơ bản mối liên hệ
giữa các khối là nhằm thực hiện ý tưởng về sự liên hệ ngược của các
phương pháp xử lý riêng lẻ và các giai đoạn phân tích. Việc đưa ra những
mối liên hệ ngược ở mức độ nào đó làm phức tạp quá trình xử lý thông tin.
Sở dĩ phải có những mối liên hệ ngược đó là v
ì hiểu biết hiện thời của
chúng ta về bản chất của các quá trình hải dương còn hạn chế. Vì vậy thực
Phân tích thống kê
ban đầu các biến
xuất phát
Phân tích đa
chiều
Phân tích các
mối liên hệ
giữa các biến
của quá trình
Phân tích cấu
trúc quá trình
Phân loại trạng
thái của quá
trình
Tổng hợp
Ho hợp các kết
quả phân tích
Phát biểu mô hình
chẩn đoán tối u
Ngời dùng
Dự báo thống kê
Lựa chọn các
mô hình dự
báo
Phõn tớch thng kờ tỏc ng qua li trc tip vi lý gii vt lý v
nhng kt qu nh lng b phn nhn c nh ỏp dng nhng phng
phỏp riờng r. Nu lý gii vt lý nh vy cha t thỡ lp li cỏc tớnh toỏn
nhn c nhng kt lun vt lý tin cy hn v bn cht ca cỏc quỏ
trỡnh c nghiờn cu.
Trong giai on tng
hp cỏc kt qu tớnh toỏn cú th ny sinh s
cn thit phi tớnh toỏn gii tớch lp li gn kt tt hn cỏc kt qu ca
nhng phng phỏp khỏc nhau v xõy dng nờn mụ hỡnh thng kờ chung
hon thin v quỏ trỡnh. S ng thun gia cỏc kt qu tớnh toỏn trong
khuụn kh mụ hỡnh chung v quỏ trỡnh phi cú cn c vt lý, vỡ vy m
phi quay v chn oỏn vt lý. Khi cn phi m rng m
ụ hỡnh chn oỏn
chung, thỡ tp hp nhng tham s xut phỏt cú th li c b sung ln
na da trờn nhng bt cp phỏt hin ra trong quỏ trỡnh lý gii.
Mi liờn h hai chiu gia chn oỏn v d bỏo th hin ý tng xõy
dng mi ph thuc d bỏo
da theo kt qu chn oỏn, v ngc li,
chớnh xỏc hoỏ thờm nhng tớnh toỏn chn oỏn cn c vo yờu cu xõy
dng cỏc mụ hỡnh d bỏo cú ỏp ng mong mun ca chỳng ta hay
khụng. Khi cht lng cỏc d bỏo khụng t, giỏ tr d bỏo ca mụ hỡnh
kộm, thỡ phi quay li quỏ trỡnh chn oỏn. Khi chn cỏc mụ hỡnh, phi
hiu rng ngi nghiờn cu chn mt s kiu
mụ hỡnh ớt nhiu phự hp
vi kt qu chn oỏn.
Mt s d bỏo bt k
ú l mụ hỡnh thng kờ v s phỏt trin
quỏ trỡnh. Nú cho kh nng nhỡn vo tng lai cn c vo lý gii ca mụ
hỡnh v lch s phỏt trin ca quỏ trỡnh, v s lý gii ny nhiu khi khụng
hon ton phự hp vi d liu thc. Chớnh iu ny dn ti nhng kt
theo nghĩa cực tiểu sai số.
Như vậy l
à khía cạnh phương pháp luận đã trình bày trên đây dẫn tới
một luận điểm rằng các mô hình dự báo chỉ vận hành với những kiểu quá
trình "của mình", những quá trình này có thể phân biệt theo mức độ tất
định và theo tính chất phát triển trong thời gian. Từ đây rút ra một kết
luận có tính nguyên tắc rằng: không tồn tại một hệ phương pháp vạn năng
duy nhất dự báo các đặc trưng hải dương học. Kết luận nà
y cũng đúng
với nhiều quá trình tự nhiên khác [135, 142, 143, 146, 151, 171, 215],
điều đó làm cho chúng ta hiểu phải sử dụng đồng thời một số mô hình dự
báo. Thủ tục này gọi là kết hợp các dự báo. Nhờ kết hợp mà có thể nâng
cao được chất lượng dự báo khí tượng thủy văn [35, 36, 43, 44, 76, 206,
235].
Phương p
háp luận xây dựng mô hình dự báo chung (mô hình cộng
sinh) quy về bốn giai đoạn tính toán chính:
1) Tuyển chọn các
mô hình xuất phát;
2) Lai tạo các m
ô hình (chọn phương pháp kết hợp);
3) Hiện thực hoá m
ô hình (ước lượng các tham số);
4) Kiểm c
hứng mô hình (phân tích so sánh sai số).
Trong số những nh
iệm vụ chính của dự báo thống kê thì nhiệm vụ
làm tăng tính khả báo thống kê có vị trí đặc biệt. Muốn tăng tính khả báo
cần chọn mô hình tối ưu mô tả những quy luật ổn định trong thời gian của
sự biến thiên đặc trưng hải dương học được dự báo. Kết hợp một số mô