ứng dụng mô hình học máy tiên tiến nhằm tăng cường khả năng dự báo xu thế của thị trường chứng khoán - Pdf 10



1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đinh Thị Thùy Trang

ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN
NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đinh Thị Thùy Trang

ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN
NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ
CỦA THỊ TRƯỜNG CHỨNG KHOÁN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:
Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Hà Nam HÀ NỘI-2010 i


nhiều thay đổi. Hầu hết mọi người đều đầu tư vào chứng khoán, họ cho rằng đó là một
cách đầu tư thông minh và những đồng tiền ấy là đồng tiền thông minh. Nhưng thị trường
chứng khoán luôn có những yếu tố bất ngờ không theo ý muốn chủ quan của ai, có lúc
tăng nhanh sau đó giảm m
ột cách đột ngột, có lúc thì liên tục tăng mà chưa có dấu hiệu
giảm xuống.…Do vậy dự đoán được xu thế của thị trường chứng khoán là một vấn đề
quan trọng đầu tư tài chính. Thị trường sẽ diễn biến ra sao, đầu tư vào chứng khoán ở thời
điểm này có được hay không, phụ thuộc rất nhiều vào kết quả dự đoán của chúng ta chính
xác ra sao
Trong khóa luận này, tôi xin giớ
i thiệu một kỹ thuật được sử dụng nhiều trong khai
phá dữ liệu, có hiệu quả cao trong dự đoán, xây dựng mô hình dự báo đơn giản, nhanh
chóng và dễ hiểu. Đó là mô hình cây quyết định, khóa luận đã tìm hiểu cấu trúc, hoạt
động của cây quyết định, các độ đo dùng để chia cắt các thuộc tính và các thuật toán đặc
biệt là thuật toán C4.5 mà khóa luận sử dụng để xây dựng cây. Từ đó, thiế
t kế mô hình
cây quyết định cho dữ liệu thời gian thực (time series) áp dụng trong dự báo xu thế của thị
trường chứng khoán được trình bày chi tiết. Khóa luận đã thực nghiệm trên dữ liệu
VnIndex và đã thu được những kết quả bước đầu
Từ khóa: data mining, decision tree, time series, stock trend prediction, weka….
iii

2.1.
 Định nghĩa 12
2.2. Cấu trúc 12
2.3. Các kiểu cây quyết định 13
2.4. Các độ đo sử dụng để xác định điểm chia tốt nhất 13
2.4.1. Độ lợi thông tin (Information Gain) 14
2.4.2. Độ đo tỷ lệ Gain (Gain ratio) 15
2.4.3. Chỉ số Gini (Gini index) 15
2.5.
 Cắt tỉa cây (thu gọn cây) 17
2.6. Rút ra quy tắc phân lớp từ cây quyết định 18
2.7. Các thuật toán trong cây quyết định 19
2.8. Quá trình tạo cây quyết định 21
2.8.1. Khả năng học và tổng quát hóa 21
2.8.2. Các phương pháp huấn luyện cây 21
2.9.
 Giải thuật C4.5 22
Tổng kết 25
Chương 3.Mô hình cây quyết định trong dự báo xu thế của thị trường chứng khoán.27
3.1. Giới thiệu chung về dữ liệu thời gian thực 27
3.1.1. Các thành phần của dữ liệu thời gian thực 27
3.1.2. Các phương pháp làm trơn 29
3.2.
 Dữ liệu chứng khoán 30
3.3. Mô hình dự báo tài chính 32
3.4. Thiết kế cây quyết định cho dữ liệu thời gian thực 33
3.4.1. Tập hợp dữ liệu 33
3.4.2. Tiền xử lý dữ liệu 34
3.4.3. Phân hoạch dữ liệu 34



vi

DANH MỤC HÌNH VẼ
Hình 1-0: Bước 1 Học để xây dựng mô hình phân lớp 5
Hình 1-1: Bước 2 Kiểm tra và đánh giá 6
Hình 1-2: Ví dụ về học mô hình 7
Hình 1-3 : Ví dụ về phân lớp dữ liệu 7
Hình 2-0: Biểu diễn cấu trúc cây quyết định 12
Hình 2-1: Một cây quyết định miêu tả khái niệm “mua máy tính” 18
Hình 3-0: Thành phần xu hướng dài hạn 28
Hình 3-1: Thành phần mùa 28
Hình 3-2: Thành phần chu kỳ 29
Hình 3-3: Mô hình cây quyết định dự báo chứng khoán 32
Hình 3-5: Tỷ lệ kích thước của tập huấn luyện và tập kiểm chứng 35
Hình 4-0: Giao diện chính của weka 42
Hình 4-1: Dữ liệu chứng khoán thu được từ sàn chứng khoán 43
Hình 4-2: (a) Một trong số những dữ liệu huấn luyện từ 1/2008-12/2008 45
(b) Một trong số những bộ kiểm chứng từ 1/2009-3/2009 45
Hình 4-3: Một trong những file dữ liệu đầu ra của chương trình 45
Hình 4-4: Lệnh đọc file CSV và chuyển thành file ARFF 46
Hình 4-5: Dữ liệu dưới định dạng arff trong weka 47
Hình 4-6: Lệnh huấn luyện dữ liệu 49
Hình 4-8: Lệnh đánh giá dựa trên tập kiểm chứng 50
Hình 4-12: (a) Cấu trúc một nơ ron 57
(b) Cấu trúc mạng nơ ron 57vii


chiếm phần lớn thời gian của toàn bộ quá trình khai phá dữ liệu
3) Mô hình hóa dữ liệu: lựa chọn kỹ thuật phù hợp để giải quyết các vấn đề đặt ra. Các
bài toán được phân loại vào một trong những nhóm bài toán chính trong khai phá d

liệu dựa trên đặc tả của chúng.
4) Hậu xử lý và đánh giá mô hình: các kết quả được biến đổi từ dạng học thuật sang
dạng phù hợp với nghiệp vụ và dễ hiểu hơn cho người dùng. Kinh nghiệm cho thấy,
các mẫu và các mô hình tìm thấy không phải lúc nào cũng đáng quan tâm và có thể
trực tiếp sử dụng được ngay. Vì vậy, quá trình khai phá dữ liệu cần thiết lặp đ
i lặp
lại với việc đánh giá tri thức đã thu được.
5) Triển khai tri thức: các mô hình được đưa vào hệ thống thông tin thực tế dưới dạng
các modun hỗ trợ việc đưa ra quyết định. Trong một số trường hợp, người ta có thể
sử dụng tri thức phát hiện được mà không cần phải đưa vào một hệ thống máy tính.
Mặc khác, người sử dụng lại mong mu
ốn tri thức đã tìm được có thể được đưa vào
máy tính và được khai thác bằng một số chương trình. Đưa các kết quả đã thu được
vào sử dụng trong thực tế là mục tiêu cuối cùng của một quá trình khai phá dữ liệu 2

Mối quan hệ chặt chẽ giữa các giai đoạn trong quá trình khai phá dữ liệu là rất quan
trọng cho việc nghiên cứu trong khai phá dữ liệu. Quá trình này có thể được lặp lại nhiều
lần một hay nhiều giai đoạn dựa trên phản hồi từ kết quả của các giai đoạn sau. Tham gia
chính trong quá trình KPDL là các nhà tư vấn và phát triển chuyên nghiệp trong lĩnh vực
KPDL
1.1.3. Các phương pháp khai phá dữ liệu
1) Phân lớp (classification) : với một tập các dữ liệu huấn luyện cho trước và sự huấn
luyện của con người, các giải thuật phân loại sẽ lọc ra bộ phân loại dùng để phân dữ

- Với ý nghĩ tiếp t
ục phân thu thập dữ liệu để không bỏ qua điều gì đó quan
trọng, mà dữ liệu này lại không được phân tích gây ra tốn kém
- Các phương pháp phân tích dữ liệu cổ điển tỏ ra không còn mấy phù hợp khi
lượng dữ liệu lên
- Nhiều khi người phân tích dữ liệu không phải là những chuyên gia về dữ liệu,
đó đó cần phải có công cụ để họ thực hiện công việc phân tích dữ
liệu
- Trong môi trường cạnh tranh việc phát hiện ngay những dấu hiệu bất thường
và nhanh chóng đưa ra quyết định phù hợp là điều hết sức quan trọn
1.1.5. Một số khó khăn gặp phải khi xây dựng quá trình khai phá dữ liệu
Trong quá trình khai phá dữ liệu chúng ta luôn gặp phải những trở ngại, chúng ta
phải tìm cách khắc phục và vượt qua những trở ngại này để thu được kết quả mong muốn.
Một trong những khó khăn cơ bản đó là:
- Kích thước lớn: Không chỉ có nhiều bản ghi trong cơ sở dữ liệu mà trong các
bảng cũng có rất nhiều thuộc tính, vì thế kích thước của vấn đề lớn. Một tậ
p dữ liệu có
kích thước lớn làm tăng không gian tìm kiếm theo cách bùng nổ tổ hợp. Hơn nữa, sẽ làm
tăng khả năng làm cho thuật toán khai phá dữ liệu tìm ra những mẫu sai, không có giá trị
khái quát. Để giải quyết vấn đề, người ta sử dụng phương pháp làm giảm kích thước ảnh
hưởng đến vấn đề và sử dụng tri thức ưu tiên (có trước) để nhận ra và loại bỏ những
tr
ường không liên qua
- Hiện tượng quá khớp: Khi thuật toán tìm kiếm tham số tốt nhất cho một mô
hình cụ thể sử dụng một tập dữ liệu học hạn chế, có thể xảy ra hiện tượng dữ liệu quá
khớp, làm cho mô hình kém hiệu quả trên tập dữ liệu thử. Giải quyết vấn đề này sử dụng
phương pháp kiểm tra chéo, thực hiện theo đúng các nguyên tắc và chiến l
ược thống kê
phức tạp khác
- Tri thức và dữ liệu thay đổi: Dữ liệu thay đổi nhanh chóng có thể làm cho các

Sự phát triển nhanh chóng của khai phá dữ liệu làm cho miền ứng dụng lĩnh vực
ngày càng thêm phong phú và đa dạng
1.2. Phân lớp và dự báo
1.2.1. Định nghĩa
Phân lớp và dự báo là hai hình thức phân tích dữ liệu được sử dụng để rút ra những 5

mô hình miêu tả lớp dữ liệu quan trọng hoặc dự báo xu thế dữ liệu trong tương lai. Trong
khi phân lớp dự đoán các nhãn lớp đã được xác định rõ ràng thì mô hình dự báo thực hiện
chức năng trên những giá trị liên tục.
Lấy ví dụ, một mô hình phân lớp được xây dựng để phân loại ứng dụng cho vay
ngân hàng là an toàn hay mạo hiểm, trong khi một mô hình dự báo được xây dựng để dự
báo lượng thiế
t bị máy tính được mua bởi các khách hàng tiền năng dựa vào thu nhập và
nghề nghiệp của họ
Nhiều phương pháp phân lớp và dự báo đã được giới thiệu bởi các nhà nghiên cứu
trong lĩnh vực học máy, hệ chuyên gia, thống kê….
1.2.2. Các bước để phân lớp và dự báo
Phân lớp dữ liệu gồm hai bước xử lý chính:
Bước 1: Học (training) xây dựng một mô hình xác định một tập các lớp dữ liệu. Mô
hình này được xây dựng bằng cách phân tích các bộ dữ liệu của một cơ sở dữ liệu, mỗi bộ
dữ liệu được xác định bởi giá trị của các thuộc tính vào một lớp được xác định trước.
Bước này được xem là học có giám sát, các mẫu huấ
n luyện thuộc về là biết trước và số
lớp dữ liệu cũng được biết trước. Những bộ dữ liệu được phân tích để xây dựng mô hình
phân lớp được lấy từ trong tập dữ liệu học hay dữ liệu huấn luyện. Mô hình đưa ra sau khi
phân tích xong tập dữ liệu huấn luyện thường có dạng là những quy tắc phân lớp, cây
quyết định hay các công thức toán học


Tin cậy
Hình 1-1: Bướ
c 2 Kiểm tra và đánh giá
Lấy ví dụ, cho một cơ sở dữ liệu về thông tin tiền gửi của khách hàng, quy tắc phân
lớp có thể được học để phân biệt khách hàng có loại tiền gửi được đánh giá tốt hay rất tốt
(hình 1.2 ). Quy tắc có thể được sử dụng để phân loại các mẫu dữ liệu về sau, cũng như
cung cấp những hiểu biết tốt hơn về n
ội dung của cơ sở dữ liệu
Từ những quy tắc đã học được từ việc phân tích dữ liệu khách hàng đã tồn tại có thể
được sử dụng để dự báo tiền gửi của khách hàng mới hoặc khách hàng về sau (hình 1.3)
Dữ liệu kiểm chứng
Mô hình phân lớp
Dữ liệu mới 7


….
Thấp
Thấp
Cao
Trung bình
Trung bình
……
Tốt
Rất tốt
Rất tốt
Tốt
Tốt

Tên Tuổi Thu nhập Đánh giá
tiền gửi
Frank Jones
Sylvia Crest
Anne Yee

>40
<=30
31….40
……
Cao
Thấp
Cao

Tốt
Tốt
Rất tốt

i quy) vẫn hay được sử dụng
hơn. Quan điểm này thường cũng được chấp nhận trong khai phá dữ liệu [2, 20].
1.2.3. Độ chính xác trong phân lớp và dự báo
Độ chính xác trong phân lớp và dự báo được đo bằng ước lượng tỷ lệ sai:
- Phân hoạch: Huấn luyện và kiểm tra đối với những tập dữ liệu lớn. Dùng hai
tập dữ liệu độc lập, tập huấn luyện bằng 2/3 tập dữ liệu, tập kiểm tra bằng 1/3 tập huấn
luyện
- Kiểm tra chéo: Dùng với những tập dữ liệu vừ
a, chia tập dữ liệu thành k mẫu
con, sử dụng k-l mẫu con làm tập huấn luyện và một mẫu con làm tập kiểm tra—kiểm tra
chéo k thành phần
- Bootstrapping: Dùng với những tập dữ liệu nhỏ, xóa đi một – leave-one-out
1.2.4. Một số bài toán phân lớp và dự báo điển hình
• Những người có nguy cơ cao, trung bình hoặc thấp với một loại bệnh tật nào đó
• Các đối tượng hiện lên màn hình radar tương ứng với các vật thể như xe cộ, người,
tòa nhà hay cây cối
• Những người có vẻ giống, hơi giống hoặc không giống với tội phạm
• Những ngôi nhà có thể tăng giá, giảm giá hoặc giữ giá trong vòng 1 năm tới
• Độ chính xác c
ủa thời tiết (mưa) của ngày tiếp theo trong dự báo thời tiết (chính xác
cao, có vẻ đúng, không đúng, hầu như sai)
• Các khách hàng có vẻ muốn hoặc không muốn mua một sản phẩm nào đó trong siêu
thị 9

1.3. Bài toán dự báo xu thế thị trường chứng khoán
Các hệ thống tài chính thường là những hệ thống rất phức tạp vì vậy rất khó có thể
dự đoán được dữ liệu của nó. Ví dụ như thị trường chứng khoán, việc dự đoán được sự


=
(1.0)
Nếu một biến trạng thái của quá trình này là lời giải cho phương trình ở trên, thì hệ
thống có thể được mô hình hóa thành một vài chuỗi thời gian của biến này
2
2
(, )
dx dx
fx
dt dt
=
(1.1) 10

Giả sử rằng nghiệm của phương trình là một chuỗi thời gian với bước h, x(j), j = 1 ~
n, và sau đó mô hình của hệ thống có thể được thực hiện với các phép tính, lời giải của
phương trình vi phân bình thường ở trên. Các đáp án của hệ số vi phân tại j của phương
trình trên được thay thế bởi sự khác nhau dưới đây:
2
2
22
(1)2()(1)
|()
j
dx xj xj xj
oh
dt h

j Fxj xj h+= −
(1.5)
Tổng quát hóa đến phần tử thứ p, ta có hàm tổng quát sau:
( 1) ( ( ), ( 1), , ( 1), )xj Fxj xj xj p h+= − −+
(1.6)
Các khía cạnh chính của hàm nói trên để xác nhận hàm quan hệ F. Vì hệ thống áp
dụng chức năng giao dịch phi tuyến tính, thế nên những vấn đề phức tạp về phi tuyến tính
có thể được giải quyết rất tốt trong cây quyết định. Dựa vào lý thuyết cơ bản về cây quyết
định, từ đó ta xây dựng mô hình cây quyết định cho bài toán dự báo xu thế chứng khoán
[7].
1.4. Nội dung và cấu trúc của khóa luận
Với nội dung trình bày những lý thuyết cơ bản về mô hình cây quyết định cho dữ
liệu chứng khoán – dữ liệu thời gian thực (time series) và áp dụng vào bài toán dự báo sự
lên xuống của thị trường chứng khoán. Khóa luận được tổ chức theo cấu trúc như sau:
Chương 1: Giới thiệu các kiến thức cơ sở 11

Giới thiệu sơ lược về khai phá dữ liệu, bài toán phân lớp và dự báo và bài toán dự
báo cho lĩnh vực chứng khoán được phân tích dưới khía cạnh toán học giúp ta chọn
hướng giải quyết tốt nhất cho bài toán là sử dụng mô hình học máy – mô hình cây quyết
định. Chương này giới thiệu những gì mà khóa luận nghiên cứu từ đó thông qua việc trình
bày về nội dung và cấu trúc của khóa luận.
Chương 2: Tổng quan về cây quyết
định
Chương hai đi vào giới thiệu một cách tổng quát nhất về cây quyết định, cấu trúc và
hoạt động của cây quyết định, các độ đo dùng để tìm điểm chia cắt thuộc tính tốt nhất, các
thuật toán dùng để xây dựng cây quyết định và giới thiệu kỹ thuật toán C4.5. Với những
kiến thức cơ bản này, người đọc sẽ hiểu được phần nào cấu trúc, hoạ

Cây quyết định (decision tree) là một trong những hình thức mô tả dữ liệu trực quan
nhất, dễ hiểu nhất đối với người dùng. Trong lĩnh vực học máy, cây quyết định là một
kiểu mô hình dự báo (prediction model), nghĩa là ánh xạ từ các quan sát về một sự
vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng [20].
2.2. Cấu trúc
Một cây quyết định là một sơ đồ có cấu trúc dạng cây bao gồm các nút và các
nhánh.
Nút dưới cùng được gọi là nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị
của các nhãn lớp (gọi tắt là nhãn). Các nút khác nút lá được gọi là các nút trong tương
ứng với một biến, đây còn là các thuộc tính của tập dữ liệu, hiển nhiên các thuộc tính này
phải khác thuộc tính phân lớp.
Mỗi một nhánh của cây xuất phát từ một nút trong nào đó ứng với mộ
t phép so sánh
dựa trên miền giá trị của nút đó. Nút đầu tiên được gọi là nút gốc của cây
Hình 2-0: Biểu diễn cấu trúc cây quyết định
Nút gốc
Nút trong
Nút lá
Nút lá Nút lá
Nhánh


2.4. Các độ đo sử dụng để xác định điểm chia tốt nhất
Như phần trên đã phân tích thì các tiêu chí để đánh giá tìm điểm chia là rất quan
trọng, chúng được xem là một tiêu chuẩn “heuristic” để phân chia dữ liệu. Ý tưởng chính
trong việc đưa ra các tiêu chí trên là làm sao cho các tập con được phân chia càng trở nên
“trong suốt” (tất cả các bộ thuộc về cùng một nhãn) càng tốt.
Cho một tập dữ liệu D, một tập các nhãn C
i
(i >=1 và i <= m với m là số nhãn), định
nghĩa các khái niệm sau:
C
i, D
: là tất cả các bộ dữ liệu có nhãn lớp C
i
trong D
|D|: là tổng số bộ dữ liệu của tập dữ liệu D
|C
i, D
|: là tổng số bộ dữ liệu của tập dữ liệu D có nhãn lớp C
i

Với các khái niệm trên, thông thường người ta sẽ sử dụng ba tiêu chỉ sau để đánh giá
chọn điểm chia: 14

2.4.1. Độ lợi thông tin (Information Gain)
Độ đo này dựa trên cơ sở lý thuyết thông tin của nhà toán học Claude Shannon, độ
đo này xác định giá trị của nội dung mà các thông tin sở hữu trong một loạt các thông
điệp. Độ đo này phụ thuộc vào độ đo sự hỗn loạn của tập dữ liệu và thông tin có được sau

thông tin nhằm xác định nhãn của một bộ bất kỳ trong tập D
• Độ đo thông tin có được sau khi phân lớp
Giả sử phân chia các bộ trong D trên một thuộc tính A bất kỳ, để không mất tính
tổng quát có thể xem A có các giá trị phân biệt {a
1
, a
2
, a
3
, …, a
v
}. Nếu thuộc tính A được
sử dụng để chia thành v tập con, những tập con này sẽ tương ứng với các nhánh con của
nút hiện tại. Độ đo thông tin có được sau khi phân lớp theo v tập con trên sẽ được tính
như sau:
Info
A
(D) =
1
()
v
j
j
j
D
I
nfo D
D
=


jj
A
j
DD
SplitInfo D
DD
=


(2.4)
Công thức SplitInfo
A
(D) cho biết thông tin tiềm ẩn được tạo ra bằng cách chia tập D
trong v tập con. Với mỗi tập con được tạo ra, tính toán tỷ lệ của số bộ trong tập con này
so với tổng số bộ dữ liệu trong tập D. Khi đó, độ đo tỷ lệ Gain sẽ được tính theo công
thức sau:
()
()
()
Gain A
GainRatio A
SplitIn
f
oA
=
 (2.5)
Tất cả thuộc tính sẽ được tính toán độ đo tỷ lệ Gain, thuộc tính nào có độ đo tỷ lệ
Gain lớn nhất sẽ được chọn làm thuộc tính phân chia.
2.4.3. Chỉ số Gini (Gini index)
Chỉ số Gini được sử dụng trong thuật toán CART. Trái ngược với độ đo Gain, chỉ số
16

Chỉ số Gini thường sẽ được tính toán dựa trên giả định về một tập dữ liệu D được
phân chia nhị phân thành hai tập con. Đầu tiên xét trường hợp thuộc tính A bất kỳ trong D
có kiểu dữ liệu rời rạc, khi dùng phép chiếu sẽ thu được v = {a
1
, a
2
, …., a
v
} giá trị khác
nhau. Để xác định điểm chia tốt nhất của A, kiểm tra tất cả tập con có thể tạo được từ v
giá trị phân biệt trên, mỗi tập con tạm gọi là S
A
là một điều kiện kiểm tra nhị phân dạng A
€ S
A
. Như vậy với v giá trị khác nhau ta sẽ có 2
v
– 2 tập con, trong đó tập rỗng và tập toàn
phần v = {a
1
, a
2
, ….,a
v
} sẽ không được xét đến. Như vậy tiến hành lặp qua tất cả các tập
con này, mỗi lần lặp sẽ phân chia tập giá trị v thành hai tập con v

DD
Gini D Gini D Gini D
DD
=+ (2.8)
Khác với độ đo Gain, ta chọn chỉ số Gini nhỏ nhất với mong muốn sau khi phân chia
dữ liệu sẽ làm giảm tính không trong suốt của tập D nhiều nhất. Đối với các giá trị liên
tục thì đầu tiên phải sắp xếp các giá trị này, sau đó tất cả các giá trị cũng sẽ được tính toán
chỉ số Gini và cũng chọn ra giá trị nào có thuộc tính Gini nhỏ nhất. Cũng giống như độ đo
Gain, chỉ số Gini thông thường cũng được tính cho điểm giữa của hai giá trị liên tục nằm
liền kề nhau. Lúc này tập D sẽ được chia làm hai tập D
1
là các bộ dữ liệu thỏa điều kiện
giá trị thuộc tính A nhỏ hơn hoặc bằng giá trị điểm giữa và D
2
thỏa điều kiện giá trị thuộc
tính A lớn hơn giá trị điểm giữa. Mục tiêu của chỉ số Gini là càng làm giảm tính không
trong suốt của dữ liệu càng nhiều càng tốt, giá trị giảm trừ này thực hiện qua công thức:
Ugini (A) = Gini(D) – Gini
A
(D) (2.9)
Lưu ý Gini (D) là một con số cố định, chính vì mục đích chọn điểm chia sao cho
Ugini(A) là lớn nhất nên bắt buộc chọn thuộc tính A sao cho Gini
A
(D) là nhỏ nhất [3]
[19]


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status