ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
NGUYỄN THỊ KIM LOAN MÔ HÌNH CHUỖI THỜI GIAN MỜ
TRONG DỰ BÁO CHUỖI THỜI GIAN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Chuyên ngành: KHOA HỌC MÁY TÍNH
4. Những hạn chế của mô hình ARMA trong chuỗi thời gian tài chính
16
CHƢƠNG 2. LÝ THUYẾT TẬP MỜ VÀ CHUỖI THỜI GIAN MỜ
23
1. Lý thuyết tập mờ 23
1.1. Tập mờ 23
1.2. Các phép toán trên tập mờ 25
2. Các quan hệ và suy luận xấp xỉ, suy diễn mờ 30
2.1. Quan hệ mờ 30
2.2. Suy luận xấp xỉ và suy diễn mờ 31
3. Hệ mờ 33
3.1. Bộ mờ hoá 33
3.2. Hệ luật mờ 34
3.3. Động cơ suy diễn 35
3.4. Bộ giải mờ 36
3.5. Ví dụ minh hoạ 37
CHƢƠNG 3. MỘT SỐ THUẬT TOÁN CƠ BẢN TRONG CHUỖI
THỜI
GIAN MỜ VÀ MỘT SỐ THUẬT TOÁN CẢI TIẾN 39
1. Một số khái niệm
39
1.1. Định nghĩa tập mờ và chuỗi thời gian mờ 39
1.2. Một số định nghĩa liên quan đến chuỗi thời gian mờ 40
2. Mô hình một số thuật toán dự báo trong mô hình chuỗi thời gian mờ
41
2.1. Mô hình thuật toán của Song và Chissom 41
phụ thuộc vào thời gian để dự báo. Chen đã cải tiến và đưa ra phương pháp mới
đơn giản và hữu hiệu hơn so với phương pháp của Song và Chissom. Trong
phương pháp của mình, thay vì sử dụng các phép tính tổ hợp Max- Min phức tạp,
Chen đã tính toán bằng các phép tính số học đơn giản để thiết lập mối quan hệ
mờ. Phương pháp của Chen cho hiệu quả cao hơn về mặt sai số dự báo và độ
phức tạp của thuật toán.
Từ các công trình ban đầu về chuỗi thời gian mờ được xuất hiện năm 1993,
hiện nay mô hình này đang được sử dụng để dự báo rất nhiều lĩnh vực trong kinh
tế hay xã hội như trong lĩnh vực giáo dục để dự báo số sinh viên nhập trường,
2
hay trong lĩnh vực dự báo thất nghiệp, trong lĩnh vực dân số, chứng khoán và
trong nhiều lĩnh vực khác như tiêu thụ điện, hay dự báo nhiệt độ của thời tiết…
Tuy nhiên xét về độ chính xác của dự báo, một số thuật toán trên còn cho
kết quả chưa cao. Để nâng cao độ chính xác của dự báo, một số thuật toán cho
moo hình chuỗi thời gian mờ liên tiếp được đưa ra. Chen sử dụng mô hình bậc
cao của chuỗi thời gian mờ để tính toán. Sah và Degtiarev thay vì dự báo chuỗi
thời gian đã sử dụng chuỗi thời gian là hiệu số bậc nhất để nâng cao độ chính
xác. Đây cũng là một phương pháp hay được sử dụng trong mô hình Box-Jenkins
để loại bỏ tính không dừng của chuỗi thời gian. Huarng đã sử dụng các thông tin
có trước trong tính chất của chuỗi thời gian như mức độ tăng giảm để đưa ra mô
hình heuristic chuỗi thời gian mờ.
Trong thời gian gần đây, đề tài này vẫn luôn được một số tác giả nghiên
cứu. Các hướng hiện nay vẫn là tập trung nâng cao độ chính xác dự báo của mô
hình chuỗi thời gian mờ. Bài báo của I-Hong Kuo và các tác giả (2008) đưa ra
phương pháp tăng độ chính xác của dự báo bằng tối ưu các phần tử đám đông
(Particle swarm optimaization). Ching Hsue Cheng và các đồng tác giả (2008)
mở rông nghiên cứu bằng các phương pháp kỳ vọng (Exspectation method) và
Phương pháp lựa chọn mức (Grade Selection Method) thông qua các ma trận
vấn đề này thí dụ như cuốn của Mandic và Chambers “ Recurrent neural network
and prediction” in vào năm 2001. Một hướng đi khác là sử dụng khái niệm mờ
để đưa ra thuật ngữ “ Chuỗi thời gian mờ”. Phương pháp sử dụng chuỗi thời gian
mờ đã được đưa ra từ năm 1994 và đến nay vẫn đang được tiếp tục nghiên cứu
để làm tăng độ chính xác của dự báo.
Trong đề tài này em trình bày phương pháp dự báo chỉ số chứng khoán
bằng công cụ chuỗi thời gian mờ đã được một số tác giả phát triển. Tư tưởng
chính của phương pháp là sử dụng một số khái niệm của Huarng và Chen, Hsu
để phát triển thuật toán mới. Dựa trên thuật toán đề ra, em đã tính toán một bài
4
toán thực tế dựa trên dữ liệu lấy từ thị trường chứng khoán Đài Loan để kiểm
chứng. Kết quả thu được rất khả quan. Độ chính xác của dự báo được nâng lên
khá nhiều so với các thuật toán trước đây đề ra.
Nội dung chính của luận văn nghiên cứu những khái niệm, tính chất và
những thuật toán khác nhau trong mô hình chuỗi thời gian mờ để dự báo cho một
số chuỗi số trong kinh tế xã hội, được trình bày trong 3 chương:
Chương 1: trình bày các kiến thức cơ bản về chuỗi thời gian.
Chương 2: trình bày Lý thuyết tập mờ và chuỗi thời gian mờ.
Chương 3: trình bày một số thuật toán cơ bản trong chuỗi thời gian mờ và
một số thuật toán cải tiến.
Luận văn này được hoàn thành dưới sự hướng dẫn tận tình của TS Nguyễn
Công Điều, tác giả xin bày tỏ lòng biết ơn chân thành của mình đối với thầy. Tác
giả xin chân thành cảm ơn các thầy giáo Viện công nghệ thông tin, khoa Công
nghệ thông tin Đại học Thái Nguyên đã tham gia giảng dạy giúp đỡ em trong
suốt qúa trình học tập nâng cao trình độ kiến thức. Tuy nhiên vì điều kiện thời
gian và khả năng có hạn nên luận văn không thể tránh khỏi những thiếu sót. Tác
giả rất mong các thầy cô giáo và bạn đóng góp ý kiến để đề tài được hoàn thiện
hơn.
là các giá trị quan sát tại thời điểm
đầu tiên, x
2
là quan sát tại thời điểm thứ 2 và x
n
là quan sát tại thời điểm thứ n.
Ví dụ: Các báo cáo tài chính mà ta thấy hằng ngày trên báo chí, tivi hay
Internet về các chỉ số chứng khoán, tỷ giá tiền tệ, chỉ số tăng cường hay chỉ số
tiêu dùng đều là những thể hiện rất thực tế của chuỗi thời gian.
Bước đầu tiên của việc phân tích chuỗi thời gian là chọn một mô hình toán
học phù hợp với tập dữ liệu cho trước X:={x
1
, x
2
,……… x
n
}nào đó. Để có thể nói
về bản chất của những quan sát chưa diễn ra, ta giả thiết mỗi quan sát x
t
là một
giá trị thể hiện của biến ngẫu nhiên X
t
với t T. Ở đây T được gọi là tập chỉ số.
Khi đó ta có thể coi tập dữ liệu X:={x
1
, x
2
,……… x
n
} là thể hiện của quá trình
x(r,s): cov(Xr, Xs) E[(Xr EXr)(Xs EXs)],với r, s Z.
Định nghĩa 1.3 (Quá trình dừng)
Chuỗi thời gian X
t
, t Z được gọi là dừng nếu nó thoả mãn 3 điều
kiện sau:
- E X
t
2
, t Z
7
- EX
t
m, t Z
-
x
(r,s)
x
(r t,s t), t,r,s Z
Định lý 1.1
Nếu X
t
, t Z là một quá trình dừng, và nếu như a
t
R, i Z thoả mãn
điều kiện a
i
hiệp phương sai bởi (.) thay vì
x
(.).
Với một quá trình dừng thì hàm hiệp phương sai có các tính chất
(0) 0, (h) (0), h Z
8
Và nó còn là một hàm chẵn nghĩa là:
(h) = (-h), h Z.
1.3. Hàm tự tƣơng quan
Định nghĩa 1.4
Hàm tự tương quan của quá trình ngẫu nhiên X
t
, t Z được định
nghĩa tại trễ h như sau:
(h): = (h)/ (0):=corr(X
t+h
,X
t
), t, h Z
Chú ý:
Trong thực tế, ta chỉ quan sát được một thể hiện hữu hạn X:={x
t
, t =
1,2,…n}của một chuỗi thời gian đừng nên về nguyên tắc ta không thể biết chính
xác được các hàm tự hiệp phương sai của chuỗi thời gian đó, muốn ước lượng nó
ta đưa vào khái niệm hàm tự hiệp phương sai mẫu của thể hiện X.
Hàm tự hiệp phương sai mẫu của một thể hiện X được định nghĩa bởi công thức
c(h) : n 1
FXt :=Xt+1
Các toán tử B, F thoả mãn hệ thức
BnXt = Xt-n, FnXt :=Xt+n Và
n aiB i Xt i n0aiXt-i
i 0
Chú ý:
Một cách tổng quát, người ta có thể định nghĩa các chuỗi theo toán tử tiến F
hay toán tử lùi b và muốn thế chúng ta hạn chế trong trường hợp các quá
trình là dừng. Khi đó, giả sử ta có quá trình dừng X
t
, t Z và một dãy {a
i ,i Z tuyệt đối khả tổng, tức là i
a
i
, thì định lý 1.1, quá trình
Y
t
: a
i
X
t i
,t Z cũng là quá trình dừng. Ta ký hiệu a
i
B
i
E
t
0, t
Định nghĩa 1.6 (Quá trình tự hồi quy)
Người ta gọi quá trình ngẫu nhiên X
t
, t Z là một quá trình tự hồi
quy cấp P, viết là X
t
AR(p), là một quá trình dừng {X
t
, t Z} thoả mãn
Xt a1Xt 1 a2Xt 2 apXt-p t,ap 0.
với { } là một ồn trắng.
Ta có thể viết biểu thức của quá trình tự hồi quy ở trên bởi công thức
Xt a1Xt 1 a2Xt 2 apXt-p t,ap 0,
Hay ở dạng
11
toán tử
a(z): 1 a1 2 apzp
z a2 z
ở đây a(z) được gọi là đa thức hồi quy.
Chú ý:
Nếu đa thức a(z) ở trên có nghiệm nằm ngoài đĩa tròn đơn vị( z 1)thì X
t
(p-1) (p
-2) (1) 1
=
aa pp 1 ((pp) 1) 12
Hệ phương trình gọi là hệ phương trình Jule – Walker, song tuyến đối với a
và .
Nghĩa là nếu cho ta sẽ tính được a và ngược lại cho a ta cũng sẽ tính được .
Trong hệ phương trình Jule – Walker, nếu ta đặt
pi
= a
i
, i =1,…p thì
hệ phương trình Jule – Walker tương đương với
( j)
p1
( j p), j 1, , p
Đại lượng
pp
ở trên được gọi là tự tương quan riêng cấp p của quá trình
{X
t
, nó đóng vai trò rất quan trọng trong việc xác định bậc của quá trình tự hồi
tương tự như đối với quá trình tự hồi quy như sau :
Xt = b(B) t,
Trong đó hàm b(.) định nghĩa bởi
b(z) : = 1+b
1
z+…+b
q
z
q.
Ở đây b(z) được gọi là đa thức trung bình trượt .
Chú ý:
Khác với quá trình AR, biểu thức trên luôn xác định duy nhất một quá trình
MA mà không đòi hỏi thêm điều kiện gì đối với các hệ số b
1
. Và với giả
thiết
t
là ồn trắng thì theo định lý 1.1 ta có b(z) (z)
= 1.
Và khi đó
1
có thể biểu diễn dưới dạng
t j; j j jXt j; (z) j jz j
Một chú ý nữa, cũng giống như trường hợp AR, nếu đa thức trung bình
trượt b(z) không có nghiệm có môđun bằng 1 thì ta có thể biểu diễn X
t
dưới
dạng sau:
b1,s t i;1 i q0,s
Mặt khác ta có:
(h): E(XtXt h) E(Xt ( t h b1 1 h 1 bq 1 h q))
Từ đó ta suy ra
(h)
2
(bh b1bh 1 bq hbq),b0 : 1;1 h q
(h) 0,h q
Đặc biệt ta có
(0): var Xt
2
(1 b1
2
bq
215
Từ công thức hiệp sai của quá trình trung bình trượt ta suy ra công thức của
tự tương quan như sau:
X
t ARMA(p,q) là một quá trình X
t
, t Z thỏa mãn
Xt a1Xt 1 apXt p t b1 t 1
bq t q,a1,a2, ap,b1,b2, ,bq R,ap 0,bq 0
Trong đó
t
là ồn trắng, a(.) và b(.) lần lượt là đa thức tự hồi quy và đa
thức trung bình trượt có bậc tương ứng là p và q:
a(z): 1 a1z apz
p
b(z): 1 b1z bqz
q
Khi đó ta có thể viết quá trình ARMA ở dạng toán tử như sau a(B)Xt b(B) t
Định nghĩa 1.9 (Quá trình nhân khả nghịch)
16
Một quá trình ARMA(p,q) được gọi là một quá trình nhân quả và khả nghịch
nếu có là một quá trình ARMA(p,q) có a(z) và b(z) thỏa mãn hai điều kiện:
i) a(z) và b(z) không có nghiệm chung
ii) a(z) và b(z) không có nghiệm có môđun không
vượt quá 1 Chú ý:
Do tính nhân quả và khả nghịch cộng với tính chất khả đảo của đa thức toán
tử, ta có thể biểu diễn một quá trình
Xt i 0 i t i, 0 1;i 1 i .
Và có thể tính các hệ số
Giả sử ta cần ước lượng các tham số của mô hình ARMA(p,q)
Xt a1Xt 1 apXt p t b1 t 1 bq t q,a1,a2, ,ap,b1,b2, ,bq R,ap 0,b
trong đó
t
đóng vai trò là sai số.
Đối với mô hình ARMA cũng có nhiều phương pháp ước lượng tham số
hiệu quả và được nêu ra chi tiết trong P.Brockwell, R. David, 2001. Dưới đây, ta
sẽ xem xét phương pháp bình phương cực tiểu theo kiểu thuật toán Hannan –
Rissanen. Ý tưởng của thuật toán này là sử dụng hồi quy tuyến tính để ước lượng
các tham số. Nếu q>0 ta còn phải ước lượng các giá trị chưa biết t .
Thuật toán Hannan – Rissanen
Bước 1:
q
18
Dùng ước lượng Yule Walker để ước lượng các tham số mô hình AR(m),
với m > max(p,q).
Xt a1Xt 1 amXt m t, t m 1, ,n.
Bước 2:
Ước lượng vecto tham số (a1, ,ap,b1 ,bq)
t
trên cơ sở cực tiểu hóa
hàm
n
2
theo .
S ( ) t m q 1 (xt a1xt 1 a2xt 2 apxt p b1 t 2 bq t q)
Giải hệ Gauss-Markov, kết quả thu được ở dạng sau:
2 S( )
HR .
n m q
4. Những hạn chế của mô hình ARMA trong chuỗi thời gian tài chính
Mô hình ARMA thu được thành công lớn khi áp dụng cho các chuỗi thời
gian xuất phát từ các lĩnh vực khoa học tự nhiên và kỹ thuật nhưng thất bại khi
áp dụng cho các chuỗi thời gian kinh tế và tài chính. Nguyên nhân chính là giả
thiết về mặt toán học phương sai của các chuỗi thời gian tài chính không thay đổi
theo thời gian là không phù hợp. Và vì vậy mô hình ARMA có thể dự báo được
kỳ vọng nhưng thất bại khi dự báo phương sai của chuỗi thời gian tài chính. Sau
đây ta sẽ xem xét một ví dụ cụ thể để thấy rõ sự không phù hợp của mô hình
ARMA đối với chuỗi thời gian tài chính.
Xét chuỗi số chuỗi số liệu NYSE chứa giá trị của chỉ số chứng khoán giao
dịch hằng ngày trên thị trường NewYork từ tháng ngày 02/01/1990 đến ngày
31/12/2001. Chuỗi gồm 3028 số liệu được lưu dưới tên file là NYSE.txt. Tuy
nhiên thay vì trực tiếp làm việc với chuỗi số liệu gốc, ta lấy logarit tự nhiên của
chuỗi gốc rồi lấy lại sai phân của nó để được một chuỗi mới mà trong lĩnh vực
kinh tế tài chính ta gọi là chuỗi tăng trưởng.
Từ số liệu ở trên, chuỗi giá và chuỗi tăng trưởng được minh họa bằng đồ thị
sau
20 Hình 1.1 Chuỗi giá
Hình 1.2 Chuỗi tăng trưởng
Nhìn vào đồ thị của chuỗi giá, rõ ràng ta thấy nó không có tính dừng.
Ngược lại, chuỗi tăng trưởng có đồ thị rất giống với một quá trình dừng. Khi nhìn
vào đồ thị của chuỗi tăng trưởng ta cũng thấy có xuất hiện những cụm biến động,
Hình 1.6 Tự tương quan của bình phương chuỗi tăng trưởng
Hình 1.7 Tự tương quan riêng của bình phương chuỗi tăng trưởng
Mặc dù chuỗi tăng trưởng ít tương quan nhưng bình phương của nó lại thể
hiện sự tương quan mạnh. Những dấu hiệu đó cho ta thấy rằng mô hình ARMA
không thực sự phù hợp với chuỗi thời gian qua sát này.
Bây giờ giả sử bằng cách nào đó ta tìm được mô hình ARMA gần nhất với
chuỗi quan sát và đó là mô hình ARMA(1,1). Mục đích ở đây là chúng ta sẽ thấy
rõ ràng sau khi ước lượng, nhiễu thu được sẽ không phải là một ồn trắng như ta
mong muốn nữa. Thật vậy, kết quả ước lượng theo mô hình
ARMA(1,1) là
yt 0.00049332
t
Nhiễu khi đó được tính toán và biểu diễn bởi đồ thị sau