Đồ án tốt nghiệp đại học các giải thuật khai phá dữ liệu trên SQL server 2005 và ứng dụng - Pdf 14

MC LC
LI NểI U
Sự phát triển nhanh chóng của các ứng dụng công nghệ thông tin
(CNTT) và Internet vào nhiều lĩnh vực đời sống xã hội: quản lý kinh tế,
khoa học kỹ thuật đã tạo ra nhiều cơ sở dữ liệu (CSDL) khổng lồ. Ví dụ,
CSDL của siêu thị Walmart (Mỹ) chứa hơn 20 triệu giao tác; CSDL nhân
khẩu của TPHCM với hơn 5 triệu nhân khẩu.
Sự phong phú của dữ liệu, cùng với việc thiếu vắng một công cụ phân
tích dữ liệu mạnh đã đợc miêu tả nh là một hoàn cảnh giàu dữ liệu nhng
nghèo thông tin. Hậu quả là, các quyết định quan trọng thờng đợc đa ra
không dựa trên dữ liệu giàu thông tin đợc lu trữ trong cơ sở dữ liệu mà dựa
trên cảm tính cả nhà đa ra quyết định, đơn giản là vì ngời đa ra quyết định
không có công cụ để triết ra tri thức có giá trị đợc nhúng trong lợng lớn dữ
liệu. Theo đánh giá của IBM, các phơng pháp khai phá thông tin truyền
thống chỉ thu đợc khoảng 80% thông tin từ CSDL, phần còn lại bao gồm
các thông tin mang tính khái quát, thông tin có tính qui luật vẫn còn tiềm ẩn
trong CSDL. Lợng thông tin này tuy nhỏ nhng là những thông tin cốt lõi và
cần thiết cho quá trình ra quyết định.
Từ đó, SQL Server 2005 đã ra đời với dịch vụ phân tích dữ liệu
Analysis Service tích hợp sẵn các kỹ thuật khai phá dữ liệu (KPDL) đợc cập
nhật và năng cấp từ phiên bản SQL Server 2000. Giúp cho việc KPDL trở
- 1 -
nên dễ dàng và hiệu quả hơn, đó là nền tảng để xây dựng các ứng dụng th-
ơng mại thông minh.
Để chúng ta hiểu rõ hơn về vấn đề này, tôi sẽ trình bày chi tiết trong
nội dung đề tài của mình:
Tìm hiểu các giải thuật khai phá dữ liệu trên SQL Server 2005 và
ứng dụng.
Do đây là lĩnh vực mới nên còn nhiều hạn chế về tài liệu, kiến thức nên
không tránh khỏi những thiếu sót. Rất mong đợc sự đóng góp ý kiến của các
thầy cô giáo và các bạn.

liệu hiện thời để đa ra các dự báo.
2. Các bài toán thông dụng trong khai phá dữ liệu
Trong KPDL, các bài toán có thể phân thành bốn loại chính.
Bài toán thông dụng nhất trong KPDL là Phân lớp (Classification).
Với một tập các dữ liệu huấn luyện cho trớc và sự huấn luyện của con ng-
- 3 -
ời, các giải thuật phân loại sẽ học ra bộ phân loại (classifier) dùng để phân
các dữ liệu mới vào một trong những lớp (còn gọi là loại) đã đợc xác
định trớc. Nhận dạng cũng là một bài toán thuộc kiểu Phân loại.
Với mô hình học tơng tự nh bài toán Phân loại, lớp bài toán Dự
đoán (Prediction) sẽ học ra các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự
đoán sẽ dựa trên thông tin đang có để đa ra một giá trị số học cho hàm cần
dự đoán. Bài toán tiêu biểu trong nhóm này là dự đoán giá sản phẩm để
lập kế hoạch trong kinh doanh.
Các giải thuật Tìm luật liên kết (Association Rule) tìm kiếm các
mối liên kết giữa các phần tử dữ liệu, ví dụ nh nhóm các món hàng th-
ờng đợc mua kèm với nhau trong siêu thị.
Các kỹ thuật Phân cụm (Clustering) sẽ nhóm các đối tợng dữ
liệu có tính chất giống nhau vào cùng một nhóm. Có nhiều cách tiếp cận
với những mục tiêu khác nhau trong phân loại.
3. ứ ng dụng của khai phá dữ liệu
KPDL đợc ứng dụng rộng rãi trong nhiều lĩnh vực nh:
A. Ngân hàng
- Xây dựng ứng dụng dự báo rủi ro tín dụng.
- Tìm kiếm tri thức, qui luật của thị trờng chứng khoán và đầu t bất
động sản.
- Phát hiện dùng thẻ tín dụng giả trên mạng và là công cụ hữu ích cho
dịch vụ quản lý rủi ro cho thơng mại điện tử.
B. Thơng mại điện tử:
- Xây dựng công cụ tìm hiểu, định hớng thúc đẩy, giao tiếp với khách

bớc thực hiện một tác vụ KPDL

- 5 -
Chơng II
Các giải thuật khai phá dữ liệu trên SQL Server 2005
Microsoft SQL Server 2005 Analysis Service (MSSAS) hỗ trợ thêm cho
chức năng khai thác thông tin (Business Intelligent), khả năng mở rộng gia
tăng, tính sẵn có và bảo mật cho các giải pháp Business Intelligent trong khi
làm cho chúng dễ tạo, dễ triển khai và dễ quản lý.
Microsoft khi phát triển SQL Server 2005 AS, họ đã hoàn thiện các thuật
toán thờng sử dụng trong KPDL một cách hoàn chỉnh nhất so với SQL Server
2000 AS , bao gồm : MS(Microsoft) Naive Bayes, MS Decision Tree , MS
Clustering, MS time series, MS Sequence Clustering, MS Neural Network.
Trong phạm vi của đề tài tôi xin trình bày 3 thuật toán: MS Naive
Bayes, MS Decsion Tree và thuật toán mới MS Time Series.
1. Thuật toán Microsoft Naive Bayes
a. Giới thiệu
Thuật toán MS Naive Bayes là một thuật toán phân loại đợc
Microsoft SQL Server 2005 cung cấp để sử dụng trong mô hình KPDL.
Khi mô hình KPDL sử dụng thuật toán này, chúng ta có thể xác định
một số thuộc tính đầu vào giúp việc phân loại các trạng thái của thuộc tính
dự đoán tốt nhất, và giả sử rằng các thuộc tính độc lập với nhau. Do giả
thiết này nên thuật toán có tên là Naive Bayes.
Thuật toán MS Naive Bayes xây dựng mô hình khai phá nhanh hơn
các thuật toán khác. Thuật toán này chỉ hỗ trợ các thuộc tính rời rạc
(discrete, ví dụ: Gới tính), nếu tạo một mô hình Naive Bayes với thuộc tính
liên tục (continuous) sẽ sinh ra lỗi.
b. Nguyên tắc cơ bản của giải thuật
Thuật toán tính xác suất có điều kiện các trạng thái của mỗi cột đầu
vào với mỗi trạng thái của cột dự báo.

CustomerKey
Key
Education Input
Gender Input
House Owner Flag Input
Marital Status Input
Number Car Owner Input
Number Children At Home Input
Occupation (Nghề nghiệp) Input
Region Input
Total Children Input
Bảng 2.1: Cấu trúc của mô hình TM Naive Bayes
Thuộc tính dự đoán BikeBuyer với hai trạng thái 0 và 1 tơng ứng với
sự không mua và mua xe của khách hàng.
Nh đã nói ở trên: Thuật toán tính xác suất có điều kiện các trạng thái
của mỗi cột đầu vào với mỗi trạng thái của cột dự báo. Trong ví dụ này với cột
đầu vào CommuteDistance, từ cở sở dữ liệu về 18484 khách hàng của công ty
ta có bảng thống kế sau:
- 7 -
CommuteDistance Số ngời mua Số ngời không mua
0-1 Miles (6310) 3538 2772
1-2 Miles (3232) 1529 1703
2-5 Miles (3234) 1839 1395
5-10 Miles (3214) 1318 1896
10+ Miles (2494) 908 1586
Tổng =18484 9132 9352
Bảng 2.2: Số khách hàng với thuộc tính CommuteDistance
Gọi A là biến cố ngời đó thuộc nhóm khách hàng có khoảng cách từ
nhà đế chỗ làm việc từ 0-1 Miles. B
1

BP
ABP
=
18484:9352
18484:2772
=0,296
Nh vậy, trong số những ngời mua xe đạp của công ty, chọn ra một ng-
ời thì xác suất ngời đó đi từ nhà tới chỗ làm việc từ 0-1 Miles là 0,387. Và
với những khách hàng không mua xe đạp của công ty, chọn ra một khách
hàng thì xác suất ngời đó đi từ nhà đến chỗ làm việc từ 0-1 Miles là 0,296.
Tơng tự với các trạng thái khác của thuộc tính đầu vào
CommuteDistance ta có bảng sau:
CommuteDistance P
1
(A/B
1
) P
2
(A/B
2
)
0-1 Miles 0,387 0,296
1-2 Miles 0,167 0,182
2-5 Miles 0,201 0,149
5-10 Miles 0,144 0,203
10+ Miles 0,099 0,170
Bảng 2.3: Xác suất có điều kiện các trạng thái của CommuteDistance
Hoàn toàn tơng tự với thuộc tính CommuteDistance, xét với các
thuộc tính còn lại trong mô hình ta đợc kết quả nh các kết quả hiển thị ở
Microsoft Naive Bayes Viewer trong Business Intelligence Development

Miles để làm việc và hạn chế phát tờ rơi cho những ngời phải đi trên 10
Miles để làm việc.
c. Các tham số của thuật toán
Thuật toán MS Navie Bayes khá đơn giản, vì vậy không có nhiều
tham số. Các tham số đảm bảo thuật toán hoàn thành trong một lợng thời
gian hợp lí.
MAXIMUM_INPUT_ATTRIBUTES : xác số thuộc tính đầu vào
lớn nhất. Nếu nh số thuộc tính đầu vào lớn hơn giá trị của tham số, thuật
toán sẽ chọn số đầu vào bằng giá trị này. Thiết lập tham số này bằng 0 để
thuật toán tính đên tất cả các thuộc tính đầu vào. Giá trị mặc định là 255.
MAXIMUM_OUTPUT_ATTRIBUTES : xác định số thuộc tính
đầu ra lớn nhất. Nếu mô hình có số đầu ra lớn hơn giá trị của tham số, thuật
toán sẽ chọn số đầu ra bằng giá trị này. Thiết lập tham số này bằng 0 để thuật
toán tính đến tất cả đầu ra. Giá trị mặc định là 255.
MAXIMUM_STATES : chỉ ra số trạng thái lớn nhất của một
thuộc tính đợc tính đến. Nếu một thuộc tính có số trạng thái lớn hơn giá trị
của tham số, thuật toán sẽ chọn số trạng thái bằng giá trị của tham số này.
- 10 -
Tham số này đợc sử dụng khi một thuộc tính có nhiều trạng thái , chẳng
hạn nh mã bu điện. Cũng nh các tham số khác, thiết lập bằng 0 xét đến tất
cả các trạng thái. Giá trị mặc định là 100.
MINIUMUM_DEPENDENCY_PROBABILITY: là một số từ 0
đến 1, giá trị của tham số này đợc thiết lập để giới hạn kích thớc của nội
dung mô hình đợc tạo ra bởi thuật toán. Giá trị này lớn thì sẽ giảm số thuộc
tính trong nội dung của mô hình. Giá trị mặc định là 0.5
2. Thuật toán Microsoft Decision Tree
a. Gới thiệu
MS Decision Tree đợc cung cấp bởi MSSAS, là thuật toán phổ biến
nhất trong KPDL. Thuật toán này hỗ trợ xử lý cả thuộc tính rời rạc và thuộc
tính liên tục. Thuật toán đợc sử dụng để thực hiện cả tác vụ phân loại và hồi

thu đợc rất phức tạp, với những đờng đi dài. Để tránh hiện tợng này trong
thuật toán MS Decision tree, đã tích hợp tham số MINIMUM_SUPPORT
để thiết lập giá trị ngỡng, không chia một nút nếu tạo ra nút có số phần tử
nhỏ hơn ngỡng này.
Để chọn thuộc tính hữu ích nhất, chúng ta cần một đại lợng mà có thể
đánh giá trờng hợp nào cho ra một sự phân chia cân bằng nhất (với chiều sâu
và chiều rộng của cây). Thuật toán MS Decision tree cung cấp 3 phơng pháp
tính điểm để đo độ lợi thông tin: Entropy, Bayesian with K2 Prior và
Bayesian Dirichlet Equivalent with Uniform prior.
Phơng pháp tính điểm Entropy:
Phơng pháp tính điểm này dựa trên công thức tính Entropy trong lý
thuyết thông tin của nhà vật lý, toán học Shannon. Lý thuyết thông tin của
Shannon vào năm 1948 cung cấp khái niệm entropy để đo tính hỗn loạn của
một tập hợp. Một tập hợp là thuần nhất nếu tất cả các phần tử của tập hợp
đều thuộc cùng một loại, và khi đó độ hỗn loạn của tập hợp này thấp nhất.
Khi tập hợp thuần nhất thì ta biết chắc chắn về giá trị của một phân tử cần
phần loại có thuộc về tập này hay không? hay ta có lợng thông tin về tập đó
là cao nhất, và ngợc lại, khi tập hợp có độ hỗn loạn cao nhất, thì ta không
thể cho biết chính xác phần tử kiểm tra thuộc loại nào? hay lợng thông tin
ta có đợc về tập này là thấp ít nhất.
Giả sử một tập dữ liệu S có hai lớp: lớp N và lớpP, với n phần tử thuộc
lớp N và p phần tử thuộc lớp P. Entropy đo độ hỗn loạn của tập S nh sau:
Entropy(S) = -
)(log
2
pn
n
pn
n
++

=
pn
p
+
là xác suất phần tử bất kỳ thuộc lớp P.
- 12 -
Một cách tổng quát hơn, nếu S có c lớp, và p
i
là xác suất của một
phần tử trong tập dữ liệu thuộc lớp thứ i, thì ta có công thức tính entropy
tổng quát:
Entropy(S)=
i
c
i
i
pp
2
1
log

=

.
Theo Shannon thì lợng thông tin nhận đợc chính là lợng giảm độ hỗn
loạn của tập dữ liệu sau khi phân chia, và ta gọi độ giảm tính hỗn loạn này
là độ lợi thông tin. Vậy, điều ta mong muốn ở đây là làm sao chọn đợc
thuộc tính mà sau khi phân chia chúng ta đợc các tập con thuần nhất, càng
nhanh càng tốt. Tức là chọn thuộc tính mang lại độ lợi thông tin lớn nhất.
Giả sử khi ta sử dụng thuộc tính A có v trạng thái{ S

Phòng Marketing của công ty Adventure Works Cycle muốn dự đoán
một khách hàng với những đặc điểm đợc xác định có mua xe tại công ty
hay không?, dựa vào những đặc điểm của các khách hàng đã mua sản phẩm
của công ty đợc lu trong cơ sở dữ liệu. Bằng cách sử dụng thuật toán MS
Decision tree để phân tích những thông tin này, phòng Marketing có thể xây
dựng một mô hình khai phá có cấu trúc:
Structure TM Decsion Tree
CommuteDistance (KC từ nhà đến nơi làm
việc)
Input
BikeBuyer Predict
Age Input
CustomerKey
Key
Number Car Owner Input
Total Children Input
Bảng 2.5: Cấu trúc mô hình TM Decision Tree
Từ dữ liệu của công ty ta có các bảng sau;
BikeBuyer CommuteDistance
0-1 Miles 1-2 Miles 2-5 Miles 5-10 10+ Miles
- 13 -
Miles
1 3538 1529 1839 1318 908
0 2772 1703 1395 1896 1586
B¶ng 2.6: Sù ph©n lo¹i theo thuéc tÝnh CommuteDistance
.
H×nh 2.3: BiÓu ®å thÓ hiÖn sù ph©n lo¹i theo thuéc tÝnh CommuteDistance
Bike
Buyer
Age

H×nh 2.5: BiÓu ®å thÓ hiÖn sù ph©n lo¹i theo thuéc tÝnh Number Car
Owner
Bike
Buyer
TotalChildren
0 1 2 3 4 5
1 2648 2172 1929 1061 875 447
0 2517 1447 1850 1133 1428 977
B¶ng 2.9: Sù ph©n lo¹i theo thuéc tÝnh Total Children
- 15 -
Hình 2.6: Biểu đồ thể hiện sự phân loại theo thuộc tính Total Children
Trong các bảng trên mỗi cột là một trạng thái của thuộc tính đầu vào,
mỗi dòng là một trạng thái của thuộc tính dự đoán, mỗi ô là số khách hàng
thỏa mãn mối tơng quan giữa một trạng thái của thuộc tính đầu vào với một
trạng thái của thuộc tính dự đoán. Các biểu đồ biểu diễn tơng quan đó. Cột
màu đỏ biểu diễn số khách hàng mua xe và cột màu xanh biểu diễn số
khách hàng không mua.
Dữ liệu của công ty gồm có 18484 khách hàng trong đó có 9132 ngời
mua xe, 9352 ngời không mua, nên entropy của tập dữ liệu này là:
Entropy(S) = -
18484
9132
log
2
(
18484
9132
) -
18484
9352

Entropy(1-2 Miles)=
-
70311529
1529
+
log
2
(
70311529
1529
+
) -
70311529
1703
+
log
2
(
70311529
1703
+
) = 0,9979
Tơng tự ta có:
Entropy(2-5 Miles) = 0,9863 ; Entropy(5-10 Miles) = 0,9765 ;
Entropy(10+ Miles)= 0,946
Do đó ta có:
Entropy(CommuteDistance) = (
18484
27723538 +
)Entropy(0-1 Miles) + (

có xu hớng thiên về chọn những thuộc tính có nhiều trạng thái khác nhau.
Ví dụ sự phân chia trên tập thuộc tính Customer_ID sẽ cho một lợng lớn
các tập con thuần nhất, mỗi tập con chỉ chứa duy nhất một bộ. Entropy của
thuộc tính này bằng 0 và độ lợi thông tin có đợc bởi việc phân nhánh trên
thuộc tính Customer_ID là lớn nhất. Rõ ràng, phép phân chia trên là không
hữu dụng. MS Decision tree mặc định sử dụng phơng pháp tính điểm
Bayesian Dirichlet Equivalent with Uniform prior. Và kết quả của mô hình
với phơng pháp tính điểm mặc định nh sau.
Hình 2.8: Cây quyết định với phơng pháp tính điểm mặc định
Hình trên biểu diễn mô hình cây quyết định cho một khách hàng mua
xe tại công ty Adventure Works Cycle, cây đợc đặt nằm ngang với nút gốc
nằm phía bên trái nhất và hộp thoại Mining Legned biểu diễn thông tin của
một nút. Ta thấy cây này có độ rộng nhỏ hơn nhng có chiều sâu lớn hơn so
với cây đợc tạo ra bằng phơng pháp tính điểm Entropy. Mỗi đờng đi từ nút
gốc đến một nút định dạng một luật, nh luật tại nút Number Cars
- 18 -
Owned=4 sẽ là Number Cars Owned = 4 (đợc chỉ ra ở góc dới bên trái của
hộp thoại Mining Legned). Mỗi nút chứa một biểu đồ hình cột đại diện cho
tỉ lệ các trạng thái của thuộc tính dự đoán thỏa mãn luật tại nút đó (nh hình
trên màu xanh biểu diễn số ngời không mua, màu đỏ nhạt biểu diễn số ngời
mua xe). Khi một nút đợc chọn trên hộp thoại Mining Legned sẽ hiển thị
tổng số phần tử, số phần tử của mỗi trạng thái của thuộc tính dự đoán thỏa
mãn luật tại nút đó và xác suất tơng ứng (nh đã nói ở phần trên, cây quyết
định cũng là một phơng tiện có tính mô tả cho việc tính các xác suất có điều
kiện). Trong hình trên, nút đợc chọn là Number Car Owned=4, ở hộp thoại
Mining Legend cho thấy tổng số khách hàng có Number Car Owned=4 là
1261 trong đó có 466 ngời mua xe, 795 ngời không mua với xác suất tơng ứng
là 62,98 % và 36,95 %. Các xác suất này đợc tính nh sau:
Gọi A là biến cố ngời đó mua xe, B là biến cố ngời đó có Number Car
Owned = 4. Vậy xác suất ngời đó sẽ mua xe nếu ngời đó có Number Car

c. Các tham số của thuật toán
Có một số tham số của giải thuật đó là các tham số giúp kiểm soát sự
phát triển của cây, hình dạng cây, các thiết lập cho các thuộc tính đầu vào,
đầu ra.
Complexity_Penalty đợc dùng để kiềm chế sự phát triển
của cây quyết định. Là một số thực thuộc khoảng (0,1), giảm giá trị của tham
số này để tăng khả năng phân chia của một nút trong cây, trong khi tăng giá
- 19 -
trị của tham số này để giảm khả năng phân chia. Giá trị mặc định của tham
số này phụ thuộc vào số lợng các thuộc tính đầu vào của một mô hình:
- Từ 1 đến 9 thuộc tính, giá trị mặc định là 0,5.
- Từ 10 đến 99 thuộc tính, giá trị mặc định là 0,9.
- Từ 100 thuộc tính trở lên, giá trị mặc định là 0,99.
Minimum_Support dùng để chỉ ra số phần tử nhỏ nhất của
một nút lá trên cây. Nh trong ví dụ trên nếu giá trị của tham số này đợc đặt
là 100, khi cây sinh ra các nút, nút nào có tổng số khách hàng thỏa mãn luật
ở nút đó nhỏ hơn 100 thì sự phân chia này không đợc chấp nhận. Thông th-
ờng tập dữ liệu huấn luyện có nhiều bản ghi thì nên tăng giá trị này lên để
tránh trờng hợp Overtraning. Giá trị mặc định bằng 10.
Score_Method có giá trị dạng số nguyên. Đợc dùng để xác
định phơng pháp tính độ lợi thông tin cho các thuôc tính tại mỗi nút trong
khi phát triển cây, đã đợc nhắc đến trong phần trớc.
- Thiết lập bằng 1 để chọn phơng pháp Entropy
- Thiết lập bằng 3 để chọn phơng pháp Bayesian with K2 Prio.
- Mặc định thiết lập bằng 4 để chọn phơng pháp Bayesian
Dirichlet Equivalent with Uniform prior.
Split_Method có giá trị dạng số nguyên. Đợc dùng để chỉ ra
hình dạng của cây cần xây dựng, ví dụ là cây nhị phân hay cây có hình
dạng phức tạp. Chẳng hạn xét sự phân chia bởi thuộc tính Tuổi có ba trạng
thái: trẻ, trung tuổi và già.

b. Nguyên lý cơ bản của thuật toán
Thuật toán Time Series là một sự kết hợp giữa kỹ thuật cây quyết
định và sự tự hồi quy. Vì vậy nó còn có tên là ART (AutoRegression Tree-
Cây tự hồi quy). Mô hình sử dụng thuật toán Time series phải chứa một cột
khóa thời gian (key time), cột này sẽ đợc mô hình dùng để xác định các
khoảng thời gian (time slices).
- 21 -
Ví dụ trong time series giá cổ phiếu (lúc mở cửa, lúc cao nhất, lúc
thấp nhất, lúc đóng cửa) của tập đoàn Microsoft đợc thống kê từ 19/02/2008
đến ngày 13/02/2009 :
Hình 2.10: Bảng giá cổ phiếu của Microsoft
Thì các time slices đợc xác định nh sau:

Hình 2.10: Các Time Slices đợc thuật toán xác định.
Tự hồi quy (Autoregression)
Tự hồi quy là một kỹ thuật phổ biến để xử lý time series. Một mô
hình tự hồi quy là một hàm thể hiện mối liên hệ giữa giá trị của biến phụ
thuộc với giá trị quá khứ của nó:
X
t
= f(X
t-1
, X
t-2
, X
t-3
,, X
t-n
) +

+ a
2
X
t-2
+ a
3
X
t-3
++ a
n
X
t-n
+

t
Trong đó a
i
là các hệ số.
* Cây tự hồi quy: tơng tự nh cây quyết định là một flow-chart, trong
đó các nút biểu diễn nhãn của các phần tử thuộc nút đó, đờng đi từ gốc tới
một nút hình thành một luật và mỗi nút lá tơng ứng với một công thức hồi
- 23 -
quy.Hình dới đây hiển thị một cây hồi quy đợc xây dựng trên dữ liệu của ví dụ
trên:
Hình 2.11: Cây hồi quy trên dữ liệu time series
Sự phân chia của cây dựa trên Close(t-1), nếu tại thời điểm khảo sát t,
giá cổ phiếu ở thời điểm t-1 mà lớn hơn hoặc bằng 19.271 thì giá cổ phiếu
lúc đóng cửa đợc tính theo công thức hồi quy: Close = -1.665 + 1.405 *
High(- 1) -0.357 * Close(-1).
Khi thực hiện xây dựng mô hình nếu time slot nào không có ý nghĩa

20.76211
20.5220.671
20.3320.41
19.4419.681
19.3419.491
, Y=

quan hệ với Historical_Model_Count. Nó xác định khoảng thời gian giữa
hai historical model liên tiếp nhau. Ví dụ : cho tham số này bằng g, theo đó
khoảng cách các historical model cách nhau lần lợt là: g, 2*g,3*g. Mặc
định là 10.
Hình c.1: Hiển thị thiết lập Historical_Model_Count = 4,
Historical_Model_Gap= 30.
Hình 2.12: Các mô hình quá khứ
Khi mô hình xử lý nó chứa 5 mô hình quá khứ, mô hình đầu tiên kết
thúc tại Time-120, và mô hình cuối cùng kết thúc tại Now (thời điểm hiện
tại). Khi dự đoán giá trị tại thời gian -100 nó sử dụng hoàn toàn mô hình
- 25 -

Trích đoạn ứng dụng xác định khách hàng cho công ty Adventrure Work

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Đồ án tốt nghiệp đại học các giải thuật khai phá dữ liệu trên SQL server 2005 và ứng dụng - Pdf 14

Tài liệu, ebook tham khảo khác

Học thêm