SỰ CẦN THIẾT CỦA QUY TRÌNH NGHIÊN CỨU QUY TRÌNH KHÁM PHÁ TRI THỨC –KHAI PHÁ DỮ LIỆU - Pdf 32

Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày càng phát
triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn. Đặc biệt trong
lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng cuả việc nắm bắt và xử lí
thông tin. Tất cả lí do đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lượng dữ
liệu khổng lồ cỡ Gigabyte thậm chí là Terabyte cho riêng mình. Các kho dữ liệu ngày càng lớn và
tiềm ẩn nhiều thông tin có ích. Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết là phải có những kĩ thuật
và công cụ mới để biến kho dữ liệu khổng lồ kia thành những thông tin cô đọng và có ích. Khám phá
tri thức – Khai phá dữ liệu ra đời như một kết quả tất yếu đáp ứng các nhu cầu đó.
SỰ CẦN THIẾT CỦA QUY TRÌNH NGHIÊN CỨU QUY TRÌNH KHÁM PHÁ TRI THỨC –KHAI PHÁ
DỮ LIỆU.
Hiện nay trên thế giới Khám phá tri thức – Khai phá giữ liệu đã và đang được áp dụng một
cách rộng rãi trong rất nhiều lĩnh vực khác nhau như : y tế , marketing , ngân hàng , viễn thông,
internet…, ở Việt nam hiện thuật ngữ Khám phá tri thức – Khai phá dữ liệu đang còn rất là mới mẻ, vì
vậy việc đầu tư nghiên cứu một cách tỷ mỷ nhằm nắm rõ được bản chất của kỹ thuật Khám phá tri
thức là gì, các bước chính trong quy trình khám phá tri thức được thực hiện như thế nào, thực chất của
việc khai phá dữ liệu cũng như các giải thuật cúa nó là rất cần thiết đối với các nhà phát triển công
nghệ thông tin Việt.
MỤC ĐÍCH NGHIÊN CỨU CỦA ĐỀ TÀI.
Vì kỹ thuật Khám phá tri thức – Khai phá dữ liệu là một lĩnh vực mới, do đó mục đích của đề
tài là nghiên cứu một cách tổng quan quy trình Khám phá tri thức – Khai phá dữ liệu, từ đó có thể
nắm bắt được những luận điểm, giải thuật cơ bản nhất của kỹ thuật này làm tiền đề cho việc nghiên
cứu phát triển các ứng dụng cụ thể nào đó.
PHẠM VI NGHIÊN CỨU CỦA ĐỀ TÀI.
Đề tài chỉ dừng ở phạm vi nghiên cứu các bước cơ bản nhất của quy trình Khám phá tri thức, áp
dụng vào việc phân tích CSDL chuỗi thời gian mà cụ thể là CSDL của thị trường chứng khoán. Giới
thiệu kỹ thuật làm sạch giữ liệu bằng việc áp dụng phương pháp trung bình trượt hàm mũ, đồng thời
đưa ra thuật toán phân loại trạng thái của hệ thống “nhiễu loạn” dựa trên cặp chỉ số xu hướng.
1
QUY TRÌNH KHÁM PHÁ TRI THỨC
CÁC KHAI NIỆM
• Khám phá tri thức - Knowledge Discovery: Khám phá tri thức trong CSDL là một quá

Cỏc mẫu
/ mụ
hỡnh
Trực quan húa dữ
liệu
Hình 2.2: Các nhiệm vụ của quá trình Khám phá tri thức
Rõ ràng, nhiệm vụ của quá trình Khám phá tri thức là rất nặng nề và liên quan đến nhiều vấn
đề khác nhau nếu như lĩnh vực ứng dụng hay bài toán đặt ra được xác định trên các tập dữ liệu lớn
như kho dữ liệu, CSDL, ... cụ thể, thì một quy trình Khám phá tri thức (kết hợp cả việc Khai phá dữ
liệu) có thể được thực hiện theo 5 bước như hình sau (Hình 3.2):
Hình 2.3 Quy trình Khám phá tri thức
ỨNG DỤNG QUY TRÌNH KHÁM PHÁ TRI THỨC VÀO VIỆC PHÂN TÍCH CSDL
CHỨNG KHOÁN (CSDL CHUỖI THỜI GIAN)
CÁC ĐỊNH NGHĨA.
a. CSDL chuỗi thời gian - Time Series DataBase (TSDB): Cơ sở dữ liệu chuỗi thời gian là một
tập hợp các bản ghi
{ }
)(
1
tN
j
t
j
r

=

, trong đó mỗi một bản ghi chứa một tập các thuộc tính và giá trị thời
gian
{ }

Dữ liệu
đích
Dữ liệu đã được
tiền xử lý
Dữ liệu đã được
chuyển đổi
Các mẫu,
mô hình
Tri thức
thời gian thì nó được gọi là thuộc tính động, trong trong trường hợp ngược lại thì được gọi là thuộc
tính tĩnh. Còn giá trị thời gian
t
j
t

được đưa ra trên thang chia thời gian ứng với mỗi khoảng thời
gian, ví dụ như là phút, ngày, tháng, năm.
b. Hàm thuộc tính: đó là hàm của thời gian mà các phần tử của nó là các giá trị của thuộc tính
i
trong bản ghi, ký hiệu là
)(ta
t
i

.
t
j
t
j
tt

t
– là nhãn thời gian tương
ứng với bản ghi đó. Nếu như hàm thuộc tính
( )
ta
t
i

có thể được sấp xỉ cũng bởi một hàm thời gian
khác
( )
t
t

φ
trên khoảng thời gian
[ ]
21
,tt
thì người ta nói rằng
( )
t
t

φ
và các tham số của nó chính là
đặc tínhg của
( )
ta
t

lệch chính là đặc tính được rút ra từ
( )
ta
t
i

trên một khoảng thời gian nào đó.
ĐẶC ĐIỂM CỦA THỊ TRƯỜNG CHỨNG KHOÁN.
• Đây là một dạng điển hình của cơ sở dữ liệu chuỗi thời gian.
• Hệ thống phân tích là một hệ thống “nhiễu loạn”, bởi giá trị của chỉ số chứng khoán chịu ảnh
hưởng của rất nhiều yếu tố ngẫu nhiên, không xác đinh.
• Các thông tin có ích phản ánh sự biến đổi của xu hướng của các chỉ số chứng khoán không thể
hiện dưới dạng dữ liệu tường minh, mà nó tồn tại dưới dạng phi cấu trúc trong các trạng thái
tự do của hệ thống. Không gian giữ liệu cần phân tích là rất lớn, không đầy đủ và nhiều
“nhiễu” .
• Sự biến đổi xu hướng của chỉ số chứng khoán không chỉ được phản ánh trong giá trị của giá
đóng (Close), mà nó còn được thể hiện ở sự trênh lệch giữa giá đóng, giá Max (Hight) và giá
Min(Low) so với giá mở (Open).
TIỀN XỬ LÝ DỮ LIỆU CHUỖI THỜI GIAN
Thực chất của quá trình tiền xử lý dữ liệu chính là lọc dữ liệu nhằm nhận được các dữ liệu
“sạch” với càng ít các nhiễu hay tạp chất càng tốt. Giả sử dữ liệu thô
( )
na
raw
bao gồm tín hiệu của xu
hướng dài hạn
( )
na
và nhiễu
( )

αα
(3.3)
Với,
[ ]
1;0∈
α
được gọi là hằng số làm trơn (hay trọng số),
( )
tY
là giá trị cần làm trơn tại thời
điểm
t
,
( )
ttY ∆−
là giá trị đã làm trơn ở thời điểm
( )
tt ∆−
,
( )
tX
là dữ liệu thô tại thời điểm
t
. Trong
bài toán chúng ta sẽ chọn
{ }
55,13,8,
1
∈=
T

tt
∆−
.
Khi áp dụng phương pháp này vào thì trường FOREX, ta nhận được kết quả như hình 3.1:
Hình 3.1: Trung bình trượt hàm mũ
CHỈ SỐ XU HƯỚNG TỔNG QUÁT.
5


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status