Tài liệu THƯ VIỆN MÃ NGUỒN MỞ CHO BÀI TOÁN DỰ BÁO - Pdf 99

THƯ VIỆN MÃ NGUỒN MỞ CHO BÀI TOÁN DỰ BÁO

AN OPEN SOURCE LIBRARY FOR PREDICTION PROBLEMS

Dương Ngọc Hiếu, Võ Hoàng Tam, Nguyễn Thành Thi (*)

Khoa Khoa học & Kỹ thuật Máy tính, ĐH Bách khoa Tp. Hồ Chí Minh
(*) Bộ môn Thông tin Địa lý Ứng dụng, ĐH Nông – Lâm Tp. Hồ Chí Minh
{dnhieu,
vhtam}@cse.hcmut.edu.vn, [email protected]

BÁN TÓM TẮT
Khai phá dữ liệu hiện đang là lãnh vực nghiên cứu rất phát triển. Cho đến thời điểm hiện nay đã có một số thư
viện mã nguốn được hiện thực để đáp ứng cho các bài toán khai phá dữ liệu. Tuy nhiên hầu như chưa có một thư
viên mã nguồn mở nào chuyên biệt cho lớp bài toán dự báo. Bài báo sẽ giới thiệu về thư viện mã nguồn mở cho
bài toán dự báo với những giải thuật tiên tiến hiện nay như Artificial Neural Network (ANN), Support Vector
Regression (SVR), Standard Addictive Model (SAM).
ABSTRACT
Datamining has recently been an emerging research trend. For the time being, there have been some open source
libraries implemented to solve datamining problems. However, there is no library specialized in predicting
technique. In this paper, we implement an open source library for solving prediction problems using some
advanced algorithm such as: Artificial Neural Network (ANN), Support Vector Regression (SVR), Standard
Addictive Model (SAM).

1. GIỚI THIỆU
Con người luôn luôn quan tâm đến tương lai. Từ
xa xưa các nhà tiên tri luôn giữ một vị trí quan trọng
trong cộng đồng. Khi văn minh nhân loại phát triển
đã làm gia tăng các mối quan hệ phức tạp vốn có
trong cuộc sống. Do đó con người cần có cái "nhìn về
tương lai" của họ. Ngày nay, tất cả các cơ quan

ều thư viện data
mining mã nguốn mở như Xelopes, Weka, … đã hiện
thực nhiều giải thuật khác nhau đáp ứng cho các bài
toán data mining. Tuy nhiên hầu như chưa có một thư
viên mã nguồn mở nào chuyên biệt cho lớp bài toán
dự báo. Bài báo sẽ giới thiệu về thư viện mã nguồn
mở cho bài toán dự báo với những giải thuật tiên tiến
hiện nay như ANN, SVR, SAM.
Phần còn lại của bài báo gồm các nội dung sau.
Phần 2 trình bày tổng quan về bài toán dự báo. Phần
3 điểm qua các giải thuật dự báo đã được hiện thực
trong thư viện mã nguồn mở. Trong phần 4, chúng
tôi mô tả sơ lược kiến trúc của thư viện mã nguốn
mở. Các so sánh thực nghiệm được nêu ra trong phần
5. Phần 6 đúc kết và vạch ra hướng phát triển trong
tương lai.

2. TỔNG QUAN VỀ BÀI TOÁN DỰ
BÁO
Trong lãnh vực dự báo, thường được chia ra làm
hai hướng:
2.1. Phương pháp định tính
Phương pháp định tính (đôi khi được gọi là
phương pháp chuyên gia hay phương pháp phân tích
cơ sở) thường được sử dụng khi những dữ liệu lịch
sử không sẵn có hay có nhưng không đầy đủ, hay
những đối tượng dự báo bị ảnh hưởng bởi những
nhân tố không thể lượng hoá đuợc: sự thay đổi tiến
bộ kỹ thuật, ảnh hưởng của tác động môi trường….
Những phương pháp này bao gồm việc sử dụng

+ Có thể làm sai lệch kết quả dự báo xuất phát từ
đánh giá chủ quan của các chuyên gia dự báo.
2.2. Phương pháp định lượng
Ngược với phương pháp định tính, phương pháp
định lượng sử dụng những dữ liệu quá khứ theo thời
gian. Nói cách khác, dựa trên những dữ liệu lịch sử
để phát hiện chiều hướng vận động của đối tượng
phù hợp với một mô hình toán học nào đó và đồng
thời sử dụng mô hình này là mô hình ước lượng. Tiếp
cận định lượng dựa trên giả định rằng giá tr
ị tương lai
của biến số dự báo sẽ phụ thuộc vào xu thế vận động
của đối tượng đó trong quá khứ. Có các loại phương
pháp định lượng như sau:
+ Phương pháp chuỗi thời gian dựa trên phân
tích chuỗi quan sát của một biến duy nhất theo biến
số độc lập là thời gian. Tần suất có thể là ngày, tháng,
quý và năm. Những biến số kinh tế quan tâm có thể
là biến vĩ mô hay vi mô. Những phạm vi quan sát có
thể là hãng, tỉnh, hay cả nền kinh tế. Giả định chủ
yếu là biến số kinh tế dự báo sẽ giữ nguyên chiều
hướng phát triển đã diễn ra trong quá khứ và hiện tại.
+ Mô hình nhân quả giả định biến số dự báo có
thể được giải thích bởi hành vi của những biến số
kinh tế khác (biến số độc lập). Ví dụ: doanh số có thể
giải thích phụ thuộc vào chi phí quảng cáo, thu nhập
của khách hàng, giá sản phẩm, đối thủ cạnh tranh và
những nhân tố ảnh hưởng khác. Mục đích của mô
hình nhân quả là tìm ra những hình thức (mô hình
toán) mô tả mối quan hệ giữa tất cả các biến số và sử

ω
, ,,
21

Tập dữ liệu mẫu cho quá trình huấn luyện là tập hợp
các bộ giá trị gồm (x,d) gồm:
- Vector đặt trưng x =

(x
1,
x
2,
x
n
)
- Giá trị của loại dữ liệu cần dự báo d
Với tập trọng số w , mạng neuron sẽ đưa ra ngõ ra
d(x,w) = ƒ(u
j
)
u
j:
là hàm tổng tuyến tính của vector trọng số và ngõ
ra của các neuron
ƒ(u
j
): là hàm hoạt tính, trong đó hàm sigmoid
)exp(1
1
j

Lớp 1: Là lớp nhập gồm N dữ liệu nhập (input).
Lớp 2: Gọi là lớp các hàm thành viên. Các nút
trong lớp này thực hiện việc mờ hoá. Lớp này dùng
để tính giá trị hàm thành viên theo hàm phân phối
Gauss. Số nút trong lớp 2 là N x M, trong đó M là số
luật mờ (số nút của lớp 3)
Lớp 3: Lớp các luật mờ. Các nút trong lớp này
tạo thành c
ơ sở luật mờ (Fuzzy rule base) gồm M nút.
Liên kết giữa lớp 2 và lớp 3 biểu diễn giả thiết của
luật mờ. Liên kết giữa lớp 3 và lớp 4 biểu diễn kết
luận của luật mờ.
Lớp 4: Lớp xuất gồm P nút có chức năng giải
mờ.
Giải thuật học cho mô hình mạng RFNN cũng là giải
thuật backpropagation
Mô hình mạng neural kết hợp với giả
i thuật
gen
Có nhiều cách kết hợp giải thuật gen với mạng
neuron. Tuy nhiên phương pháp sau đây được xem là
hữu hiệu nhất:
- Xem mạng neuron như một cá thể.
- Quần thể bao gồm nhiều cá thể mạng neuron.
- Trước khi chọn ra cá thể tốt thực hiện các phép
toán gen để sinh ra tập quần thể mới, các cá thể tự tối
ưu bằng phương pháp backpropation.
3.2. Giải thuật Support vector regression
(SVR)
Cho một tập huấn luyện {(x

=
++
l
i
ii
Cw
1
*
2
)(||||
2
1
ξξ

Với điều kiện:
0,
).(
).(
*
*

+≤−+
+≤−

ii
iii
iii
ybxw
bxwy
ξξ

i
1

… VÀ x
d
là A
i
d
) THÌ (y là B
i
).

Hình 2. Cơ chế hoạt động của SAM.
Các luật mờ của SAM được xây dựng dựa trên
giải thuật phân lớp theo cơ chế học không giám sát.
Hệ mờ sẽ xấp xỉ tốt hơn nếu thực hiện quá trình tối
ưu hệ luật và điều chỉnh các thông số hệ luật theo cơ
chế học giám sát. Các thông số hệ luật sẽ được điều
ch
ỉnh bằng luật học sai số nhỏ nhất.
Trong SAM, ứng với mỗi giá trị đầu vào x = x
0
,
luật thứ j sẽ kích hoạt và cho kết quả là tập mờ B
j

được xây dựng dựa theo mức độ thỏa mãn vế trái và
tập mờ B
j
của vế phải theo quy tắc PROD:

V
m
j
(x).
j
.a
j
w
j
.c
j
V
m
j
(x).
j
.a
j
w
BCentroidF(x)

=

=
==
1
14. HIỆN THỰC THƯ VIỆN MÃ

- Phần thứ hai là dữ liệu dùng để học cho các
giải thuật dự báo

Dưới đây là giao diện người sử dụng của thư
viện đã được xây dựng.

Hình 4: Giao diện mở đầu.
Người dùng có thể lựa chọn các các giải thuật dự
báo khác nhau như: neural network, SAM fuzzy
system, SVM hay mô hình hồi quy tuyến tính
ARIMA (xem hình 4.).

Hình 5. Giao diện mô hình neural network.

5. KẾT QUẢ SO SÁNH THỰC
NGHIỆM
Để kiểm tra thư viện đã xây dựng chúng tôi sử
dụng tập dữ liệu giá của vàng, cà phê, … của Việt
Nam để đo đạc và kiểm nghiệm. Tập dữ liệu này
được thu thập từ năm 1997 cho đến 2007 (trung binh
một năm sẽ có 365 hàng dữ liệu). Chương trình được
kiểm tra trên hệ thống máy tinh đơn CPU P4 1.4GHz,
RAM 769.
Đây là một số kết quả đo đạc được khi thực thi
dự báo bằng giải thuật SAM.

STT Số
luật
mờ
Trung

t
2
Gaussian 0.10752 0.00410 07 giờ
05
p

t
3
Laplace 0.08828 0.00212 09 giờ
41
p

t
Bảng 2 Đánh giá theo hàm thành viên.

Những thống kê trên mô hình ANN và các hệ lai
của ANN có thể tham khảo tại (1).
Thực nghiệm cho thấy các phương pháp dự báo
hồi quy phi tuyến (ANN, SVM, SAM) có độ chính
xác cao và thời gian chạy tương đối nhỏ. Nếu so sánh
với mô hình ARIMA trong khoảng thời gian ngắn thì
có thể xem là tương đương. Tuy nhiên ARIMA là
phương pháp hồi quy tuyến tính nên nếu dữ liệu có
sự biến động lên xuống liên tục thì ARIMA sẽ không
còn chính xác nữa.

Hình 6. So sánh các phương pháp hồi quy phi tuyến
và tuyến tính.

Trong các giải thuật phi tuyến, có thể thấy SAM

control. IEEE Trans. on Systems, Man &
Cybernetics 15, 116-132, 1985.
4. Sugeno, M. and Yasukawa, T. A fuzzy-logic-
based approach to qualitative modeling. IEEE
Trans. on Fuzzy Systems 1, 7-31, 1993.
5. Wang, L.X. Training of fuzzy logic systems using
nearest neighborhood clustering. Proc. 2nd
IEEE Int'l Conf. on Fuzzy Systems (FUZZ-IEEE
‘93), San Francisco, CA, March 28-April 1, 13-
17, 1993.
6. Yager, R. and Filev, D. Generation of fuzzy rules
by mountain clustering. J. of Intelligent and
Fuzzy Systems 2, 209-219, 1994.
7. Chiu, S. Fuzzy model identification based on
cluster estimation. J. of Intelligent and Fuzzy
Systems 2, 267-278, 1994.
8. Ruspini, E.H. Numerical methods for fuzzy
clustering. Inform. Sci. 2, 319-350, 1970.
9. Dunn, J. A fuzzy relative of the ISODATA
process and its use in detecting compact, well
separated clusters. J. of Cybernetics 3, 32-57,
1974.
10. Bezdek, J. Cluster validity with fuzzy sets. J. of
Cybernetics 3, 58-71, 1974.
11. Keller, J., Gray, M. and Givens Jr., J. A fuzzy k-
nearest neighbor algorithm. IEEE Trans. Syst.,
Man, Cybern., 15, 580-585, 1985.
12. Chung, F.L. and Lee, T. A fuzzy learning method
for membership function estimation and pattern
classification. Proc. 3rd IEEE Int'l Conf. on

19. Chiu, S. Selecting input variables for fuzzy
models. To appear in J. of Intelligent & Fuzzy
Systems, 1996.
20. Fisher, R.A. The use of multiple measurements
in taxonomic problems. Annals of Eugenics 7,
179-188, 1936.
21. Chiu, S. and Cheng, J. Automatic generation of
fuzzy rulebase for robot arm posture selection.
Proc. 1st Joint Conf. of North American Fuzzy
Information Processing Society (NAFIPS ‘94),
Industrial Fuzzy Control & Intelligent Systems
Conf., and NASA Joint Technology Workshop
on Neural Networks & Fuzzy Logic, San
Antonio, TX, December 18-21, 436-440, 1994.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status