Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN THỊ THÚY LAN
CÁC PHƢƠNG PHÁP CHIA KHOẢNG TRONG MÔ HÌNH
CHUỖI THỜI GIAN MỜ
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN CÔNG ĐIỀU
THÁI NGUYÊN - 2012
1.1. Chuỗi thời gian và quá trình ngẫu nhiên 4
1.1.1. Khái niệm chuỗi thời gian và quá trình ngẫu nhiên 4
1.1.2. Quá trình ngẫu nhiên dừng 5
1.1.3. Hàm tự tương quan 6
1.1.4. Toán tử tiến, toán tử lùi 7
1.2. Mô hình ARMA 7
1.2.1. Quá trình tự hồi quy 7
1.2.2. Quá trình trung bình trượt 9
1.2.3. Quá trình tự hồi quy trung bình trượt 11
1.3. Những hạn chế của mô hình ARMA trong chuỗi thời gian tài chính 13
1.4. Lý thuyết tập mờ 16
1.4.1. Tập mờ 16
1.4.2. Các phép toán trên tập mờ 18
1.5. Các quan hệ và suy luận xấp xỉ, suy diễn mờ 21
1.5.1. Quan hệ mờ 21
1.5.2. Suy luận xấp xỉ và suy diễn mờ 22
1.6 . Hệ mờ 24
1.6.1. Bộ mờ hoá 24
1.6.2. Hệ luật mờ 25
1.6.3. Động cơ suy diễn 25
1.6.4. Bộ giải mờ 26
CHƢƠNG 2: MÔ HÌNH CHUỖI THỜI GIAN MỜ 28
2.1. Chuỗi thời gian mờ 28
ii
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
2.1.1.Một số khái niệm cơ bản 28
2.1.2. Một số định nghĩa liên quan đến chuỗi thời gian mờ 29
2.2. Một số thuật toán trong mô hình chuỗi thời gian mờ 30
Hình 1.10. Một số dạng hàm liên thuộc của tập mờ 18
Bảng 1.1. Một số phép kéo theo mờ thông dụng 20
Hình 1.11. Cấu hình cơ bản của hệ mờ 24
Bảng 3.1. Cơ sở ánh xạ 35
Bảng 3.2 Giá trị chỉ số chứng khoán Đài Loan 38
Bảng 3.3. Nhóm mối quan hệ mờ 39
Bảng 3.4. Giá trị mờ và kết quả dự báo 40
Bảng 3.5. Tính giá trị tuyệt đối của hiệu số bậc 1 41
Bảng 3.6. Sự phân phối tích luỹ của sai phân cấp một 42
Bảng 3.7. Nhóm mối quan hệ mờ 44
Bảng 3.8. Kết quả dự báo 45
Bảng 3.9. Nhóm mối quan hệ mờ 47
Bảng 3.10. Kết quả dự báo 47
Bảng 3.11. So sánh với các phƣơng pháp dự báo khác 49
Hình 3.1. Đồ thị so sánh các kết quả dự báo chỉ số chứng khoán với giá trị thực 51
Bảng 3.12. Số liệu chỉ số VN-index trong tháng 4 và tháng 5 năm 2012 52
Bảng 3.13. Phân bố giá trị trong từng khoảng 53
Bảng 3.14. Phân khoảng 54
Bảng 3.15. Nhóm mối quan hệ mờ 55
iv
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Bảng 3.16. Nhóm quan hệ mờ và nhóm quan hệ mờ heuristic và dự báo 56
Hình 3.2. Đồ thị so sánh kết quả dự báo bằng phƣơng pháp dựa trên mật độ 58
và giá trị thực 58
Bảng 3.17. Tính giá trị tuyệt đối của hiệu số bậc 1 58
Bảng 3.18. Sự phân phối tích luỹ của sai phân cấp một 59
Bảng 3.19. Nhóm mối quan hệ mờ 61
Bảng 3.20. Kết quả dự báo 61
công trình của Chen et al, tập thô hay sử dụng khái niệm tối ƣu đám đông để xây
dựng các thuật toán trong mô hình chuỗi thời gian mờ. Ngoài ra, một số tác giả
khác đã sử dụng thêm thông tin khác trong chứng khoán để dự báo chính xác hơn
các chỉ số chứng khoán. Từ đó nảy sinh ra mô hình chuỗi thời gian mờ loại 2 khi
đồng thời với chuỗi thời gian chính còn sử dụng số liệu của các tham số phụ để đƣa
ra dự báo.
- 2 -
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Một trong các hƣớng đƣợc phát triển là sử dụng mối quan hệ mờ bậc cao
trong mô hình chuỗi thời gian mờ. Chen [3] tiếp tục là ngƣời đi đầu khi xây dựng
đƣợc thuật toán để xử lý mối quan hệ mờ bậc cao. Sau đó hƣớng này đƣợc một số
tác giả khác tiếp cận và ứng dụng trong các công trình của mình.
Trong những năm gần đây một số công trình đã đƣợc hoàn thành theo hƣớng
nâng cao độ chính xác và giảm khối lƣợng tính toán trong mô hình chuỗi thời gian
mờ nhƣ các công trình của Chen và Hsu, Huarng, Singh, Một cách tiếp cận khác
cho mô hình chuỗi thời gian mờ là sử dụng những kỹ thuật khác trong khai phá dữ
liệu nhƣ phân cụm, mạng nơ ron, giải thuật di truyền hay tối ƣu đám đông … để
xây dựng mô hình và làm tăng tính hiệu quả của thuật toán.
Dự báo chuỗi thời gian sử dụng mô hình chuỗi thời gian mờ có một số bƣớc
cơ bản nhƣ sau: Xác định tập nền, Phân chia tập nền thành các khoảng, Mờ hoá các
giá trị lịch sử, Xác định các mối quan hệ mờ, Dự báo và cuối cùng là giải mờ. Nhiều
nhà khoa học đã cho thấy cách phân chia khoảng có ảnh hƣởng rất lớn đến độ chính
xác của thuật toán. Nếu phân các khoảng có độ dài lớn thì số phép tính giảm nhƣng
sẽ có sự phân tán kết quả, còn nếu chia khoảng nhỏ mất ý nghĩa của dự báo. Các tác
giả có đề xuất nhiều cách khác nhau để phân khoảng nhƣ chia ngẫu nhiên, dựa vào
giá trị trung bình, dựa vào phân bố hay dựa vào mật độ phân bố. Mỗi phƣơng pháp
đƣợc sử dụng trong các trƣờng hợp khác nhau và đều cho kết quả tốt hơn so với
phƣơng pháp truyền thống. Từ đây cũng có thể thấy rõ sự ảnh hƣởng của phƣơng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
CHƢƠNG 1: CÁC KIẾN THỨC CƠ BẢN VỀ CHUỖI THỜI GIAN
VÀ TẬP MỜ
Chƣơng 1 giới thiệu các kiến thức cơ bản về chuỗi thời gian và tập mờ, trọng
tâm là trình bầy về một lớp mô hình chuỗi thời gian hết sức thông dụng trong thực
tế. Đó là mô hình quy trình trƣợt ARMA (Autoregressive Moving Average). Bao
gồm các nội dung: đặc trƣng của quá trình ARMA, phƣơng pháp ƣớc lƣợng tham số
của lớp mô hình này và hạn chế của nó khi áp dụng với chuỗi thời gian tài chính.
Một số kiến thức cơ bản về hệ mờ có liên quan tới mô hình chuỗi thời gian mờ
1.1. Chuỗi thời gian và quá trình ngẫu nhiên
1.1.1. Khái niệm chuỗi thời gian và quá trình ngẫu nhiên
Một chuỗi thời gian là một dãy các giá trị quan sát X:={x
1
, x
2
,…… x
n
} đƣợc
xếp thứ tự diễn biến thời gian với x
1
là các giá trị quan sát tại thời điểm đầu tiên, x
2
là quan sát tại thời điểm thứ 2 và x
n
là quan sát tại thời điểm thứ n.
Ví dụ: Các báo cáo tài chính mà ta thấy hằng ngày trên báo chí, tivi hay
Internet về các chỉ số chứng khoán, tỷ giá tiền tệ, chỉ số tiêu dùng đều là những thể
Một quá trình ngẫu nhiên là một họ các biến ngẫu nhiên
X
t
, t
T
được
định nghĩa trên một không gian xác suất(
,
,
).
Chú ý:
Trong việc phân tích chuỗi thời gian, tập chỉ số T là một tập các thời điểm, ví dụ
nhƣ là tập {1,2 } hay tập (-,+). Cũng có những quá trình ngẫu nhiên có T không phải
- 5 -
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
là một tập con của R nhƣng trong giới hạn của luận văn nàychỉ xét cho trƣờng hợp TR.
Và thƣờng thì ta xem T là các tập các số nguyên, khi đó ta sẽ sử dụng ký hiệu tập chỉ số
là Z thay vì T ở trên. Một điểm chú ý nữa là trong luận văn này sẽ dùng thuật ngữ chuỗi
thời gian để đồng thời chỉ dữ liệu cũng nhƣ quá trình có dữ liệu đó là một thể hiện.
1.1.2. Quá trình ngẫu nhiên dừng
Định nghĩa 1.2 (Hàm tự hiệp phƣơng sai)
Giả sử
x
với r, s
Z.
Định nghĩa 1.3 (Quá trình dừng)
Chuỗi thời gian
X
t
, t
Z
được gọi là dừng nếu nó thoả mãn 3 điều kiện
sau:
-
ZtE ,X
2
t
-
ZtmE ,X
t
-
Zsrttstrsr
xx
,,),,(),(
,X:
i-t
sẽ định nghĩa một quá dừng.
Chú ý: Cũng có tài liệu gọi “dừng” theo nghĩa trên là dừng yếu, dừng theo
nghĩa rộng hay dừng bậc hai. Tuy nhiên trong giới hạn luận văn chỉ xem xét tính
dừng theo định nghĩa ở trên.
Khi chuỗi thời gian
X
t
, t
Z
là dừng thì
,,),0,(),( Zsrsr
x
sr
x
y
Và vì vậy, với một quá trình dừng thì có thể định nghĩa lại hàm tự hiệp
phƣơng sai bằng cách chỉ thông qua hàm một biến. Khi đó, với quá trình dừng
X
t
(h)là giá trị
của nó tại “trễ” h. Đối với một quá trình dừng thì ta thƣờng ký hiệu hàm tự hiệp
phƣơng sai bởi (.) thay vì
x
(.).
Với một quá trình dừng thì hàm hiệp phƣơng sai có các tính chất
(0) 0, (h)(0), hZ
Và nó còn là một hàm chẵn nghĩa là:
(h) = (-h),hZ.
1.1.3. Hàm tự tương quan
Định nghĩa 1.4
Hàm tự tương quan của quá trình ngẫu nhiên
X
t
, t
Z
được định nghĩa tại
trễ h như sau:
(h): = (h)/(0):=corr(X
t+h
,X
t
), t, hZ
Chú ý:
Trong thực tế, ta chỉ quan sát đƣợc một thể hiện hữu hạn X:={x
t
n
j
j
xnx
1
1
là trung bình mẫu.
Khi đó thì hàm tƣơng tự tƣơng quan mẫu cũng định nghĩa thông qua hàm tự
hiệp phƣơng sai mẫu nhƣ sau:
( ): ( ) / (0), .r h c h c h n
- 7 -
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
1.1.4. Toán tử tiến, toán tử lùi
Toán tử lùi B kết hợp với một quá trình ngẫu nhiên
X
t
, t
Z
là quá trình
ngẫu nhiên
Y
X
t :=
X
t+n
Và
i-t
X
0
t
X
0
n
i
i
a
n
i
it
,:
cũng là
quá trình dừng. Ta ký hiệu
i
i
i
Ba
là ánh xạ đặt tƣơng ứng quá trình dừng
X
t
, t
Z
với quá trình dừng
Y
t
, t
t
s
= 0 (t s)
22
t
E0,Et
t
Định nghĩa 1.6 (Quá trình tự hồi quy)
Người ta gọi quá trình ngẫu nhiên
X
t
, t
Z
là một quá trình tự hồi quy cấp
P, viết là X
t
ở đây a(z) đƣợc gọi là đa thức hồi quy.
Chú ý:
Nếu đa thức a(z) ở trên có nghiệm nằm ngoài đĩa tròn đơn vị
)1( z
thì X
t
đƣợc gọi là quá trình nhân quả tự hồi qui cấp p và nói chung ta chỉ xét các quá trình
nhân quả.
Các đặc trƣng của quá trình tự hồi quy cấp p:
- E(X
t
) = 0
-
p
t
i
ia
1
2
|)()0(
-
0,0)(
1
p
p
a
a
a
a
1
2
1
=
. Trong hệ phƣơng trình Jule – Walker, nếu ta đặt
pi
= a
i
, i =1,…p thì hệ phƣơng
trình Jule – Walker tƣơng đƣơng với
pjpjj
p
, ,1),()(
1
Đại lƣợng
pp
ở trên đƣợc gọi là tự tƣơng quan riêng cấp p của quá trình
{X
t
, nó đóng vai trò rất quan trọng trong việc xác định bậc của quá trình tự hồi quy
cũng nhƣ việc ƣớc lƣợng tham số mô hình tự hồi quy sau này.
Trong việc thực tế, khi cho chuỗi quan sát X:=x
1
, t = 1,2…,n thì ta dùng
công thức của tƣơng quan mẫu để tính các r(i), là các giá trị xấp xỉ của
(i). Khi đã
có các tự tƣơng quan mẫu ta thay vào hệ phƣơng trình Jule – Walker và giải nó để
tìm các tham số a
1
. Từ đây ta cũng xác định đƣợc tƣơng quan riêng
q
bR
q
bbb
qt
q
b
t
b
t
X
với
t
là một ồn trắng.
Ta cũng có thể viết biểu thức trung bình trƣợt ở trên dƣới dạng toán tử lùi
tƣơng tự nhƣ đối với quá trình tự hồi quy nhƣ sau:
X
t
= b(B)
t,
1
(1) ….
(p-2)
q.
Ở đây b(z) đƣợc gọi là đa thức trung bình trƣợt.
Chú ý:
Khác với quá trình AR, biểu thức trên luôn xác định duy nhất một quá trình
MA mà không đòi hỏi thêm điều kiện gì đối với các hệ số b
1
. Và với giả thiết
t
là
ồn trắng thì theo định lý 1.1 ta có
b(z)
(z) = 1.
Và khi đó
1
có thể biểu diễn dƣới dạng
;
1
Và có thể xác định
i
bằng cách chia 1 (theo luỹ thừa tăng) cho
b(z),
)1(
0
.
Khi quá trình
t
X
có thể biểu diễn ở dạng trên, tức là khi b(z) chỉ có nghiệm
có môđun lớn hơn 1 thì ta nói
t
X
là một quá trình khả nghịch. Và từ nay về sau,
nếu không nói gì thêm thì khi nói về các quá trình AR và MA thì sẽ đƣợc hiểu đó là
các quá trình nhân quả và khả nghịch.
Các đặc trƣng của quá trình trung bình trƣợt:
Trƣớc hết, dễ dàng thấy rằng
0EX
t
,
- 11 -
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Từ đó suy ra
2
( ) ( ), : 1;1
1 1 0
( ) 0,
h b b b b b b h q
h h q h q
h h q
Đặc biệt có
2 2 2
γ(0):=varX =σ (1+b + +b )
1.2.3. Quá trình tự hồi quy trung bình trượt
Định nghĩa 1.8 (quá trình tự hồi quy trung bình trƣợt)
Một quá trình
X
t
, t
Z
được gọi là quá trình tự hồi quy trung bình trượt
cấp p,q, kí hiệu
t
X
ARMA(p,q) là một quá trình
X
t
, t
Z
thỏa mãn
aaa
qt
q
b
t
b
tpt
X
p
a
t
Xa
t
X
Trong đó
t
là ồn trắng, a(.) và b(.) lần lƣợt là đa thức tự hồi quy và đa thức
trung bình trƣợt có bậc tƣơng ứng là p và q:
( ): 1
1
p
a z a z a z
p
( ): 1
ii
Và có thể tính các hệ số
t
bằng cách chia theo lũy thừa tăng a(z) cho b(z).
Các đặc trƣng của quá trình ARMA:
Trƣớc hết ta có
) ( ) ( ) ( )
1
11
( ) (
pq
a h i h b h i
i
XX
ti
h E X X
t
th
Và ta có
Lần lƣợt cho h = 0,1, p trong các chƣơng trình trên và chú ý đến tính chẵn
của hàm (h) ta có hệ phƣơng trình tuyến tính đối với (0), , (p) hay
với
).(), 1( p
p
i
i
qhihah
1
),()(
Và vì thế
1.3. Những hạn chế của mô hình ARMA trong chuỗi thời gian tài chính
Mô hình ARMA thu đƣợc thành công lớn khi áp dụng cho các chuỗi thời
gian xuất phát từ các lĩnh vực khoa học tự nhiên và kỹ thuật nhƣng thất bại khi áp
dụng cho các chuỗi thời gian kinh tế tài chính. Nguyên nhân chính là giả thiết về
mặt toán học phƣơng sai của các chuỗi thời gian tài chính không thay đổi theo thời
gian là không phù hợp. Và vì vậy mô hình ARMA có thể dự báo đƣợc kỳ vọng
nhƣng thất bại khi dự báo phƣơng sai của chuỗi thời gian tài chính. Sau đây ta sẽ
xem xét một ví dụ cụ thể để thấy rõ sự không phù hợp của mô hình ARMA đối với
chuỗi thời gian tài chính.
Xét chuỗi số chuỗi số liệu NYSE chứa giá trị của chỉ số chứng khoán giao
dịch hằng ngày trên thị trƣờng NewYork từ tháng ngày 02/01/1990 đến ngày
31/12/2001. Chuỗi gồm 3028 số liệu đƣợc lƣu dƣới tên file là NYSE.txt. Tuy nhiên
thay vì trực tiếp làm việc với chuỗi số liệu gốc, ta lấy logarit tự nhiên của chuỗi gốc
rồi lấy lại sai phân của nó để đƣợc một chuỗi mới mà trong lĩnh vực kinh tế tài
chính ta gọi là chuỗi tăng trƣởng. Từ số liệu ở trên, chuỗi giá và chuỗi tăng trƣởng
đƣợc minh họa nhƣ sau:
Hình 1.1. Chuỗi giá
- 14 -
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 1.2. Chuỗi tăng trưởng
Nhìn vào đồ thị của chuỗi giá, rõ ràng ta thấy nó không có tính dừng. Ngƣợc
lại, chuỗi tăng trƣởng có đồ thị rất giống với một quá trình dừng. Khi nhìn vào đồ
thị của chuỗi tăng trƣởng ta cũng thấy có xuất hiện những cụm biến động, có vùng
biến đổi về phƣơng sai của chuỗi thời gian.
Bây giờ giả sử bằng cách nào đó ta tìm đƣợc mô hình ARMA gần nhất với
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 1.7. Tự tương quan bình phương nhiễu Hình 1.8. Tự tương quan riêng bình phương nhiễu
Rõ ràng là nhiễu có hiện tƣợng tạo cụm biến động giống nhƣ chuỗi tăng
trƣởng ban đầu. Còn khi nhìn vào đồ thị tự tƣơng quan của bình phƣơng nhiễu ta
thấy nó thể hiện sự tƣơng quan mạnh nên ta có thể kết luận rằng nhiễu không phải
là một ồn trắng nhƣ mong muốn. Và nhƣ vậy mô hình ARMA sẽ không phù hợp
với chuỗi số liệu này.
Mặc dù mô hình ARMA tỏ ra không phù hợp với chuỗi thời gian tài chính
nhƣng những kỹ thuật mà nó cung cấp là một cơ sở rất quan trọng và mang lại
nhiều gợi ý cho các công trình nghiên cứu về chuỗi thời gian sau Box-Jenkins.
1.4. Lý thuyết tập mờ
1.4.1. Tập mờ
Định nghĩa: Cho Ω( Ω ≠ ) là không gian nền, một tập mờ A trên Ω đƣợc
xác định bởi hàm thuộc (membership function):
A
: Ω [0,1]
- 17 -
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
0
A
(x) 1
2
, ,x
n
,
là một tập hữu hạn và A là tập mờ xác định trên Ω thì
thông thƣờng ta có ký hiệu:
A =
1
/x
1
+
2
/ x
2
+ +
n/ x
n
Ví dụ 1: Hàm liên tục của tập mờ A “tập các số thực gần 1” đƣợc định nghĩa nhƣ
sau:
A
(x) =
Gaussian(x,
,,c
)=
)
2
()
xc
e
Bell(x, a, b, c) =
b
a
cx
2
1
1
- 18 -
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 1.10. Một số dạng hàm liên thuộc của tập mờ
có tính giao hoán: min(x,y)=min(y,x), với mọi 0 x, y 1.
- T
1
không giảm: min(x,y)<=min(u,v), với mọi x u, y v.
- 19 -
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- T1 có tính kết hợp: min(x,min(y,z))=min(min(x,y),z)= min(x,y,z), với
mọi 0 x, y, z 1.
Định nghĩa 4 (Phép giao hai tập mờ): Cho hai tập mờ A, B trên cùng không
gian nền với hàm thuộc A(x), B(x) tƣơng ứng. Cho T là một T-Chuẩn. Phép giao
của hai tập mờ A,B là một tập mờ (ký hiệu (A
T
B)) trên với hàm thuộc cho bởi
biểu thức:
(A
T
B)(x) = T(A(x), B(x)), với mỗi x
Ví dụ:
- Với T(x,y)=min(x,y)ta có: (A
T
B)(x) = min(A(x),B(x))
- Với T(x,y) = x.y ta có (A
T
B)(x) = A(x).B(x) (tích đại số)
Ta có thể biểu diễn phép giao của hai tập mờ qua hai hàm
T(x,y)=min(x,y) và T(x,y) = x.y theo các đồ thị hình 1.3 sau đây:
- Hình a: Hàm thuộc của hai tập mờ A và B
- Hình b: Giao của hai tập mờ theo T(x,y)=min(x,y)