ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI THU HOẠCH MÔN HỌC
KHAI PHÁ DỮ LIỆU & KHO DỮ LIỆU
ĐỀ TÀI:
TÌM HIỂU VỀ CÁC PHƯƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ
LIỆU VÀ KHẢ NĂNG PHÂN LỚP CỦA PHẦN MỀM SQL SERVER
Giảng viên phụ trách : PGS-TS. Đỗ Phúc
Học viên thực hiện: Trịnh Ngọc Thư
Mã số: CH1102017
Lớp: Cao học khóa 6
HÀ NỘI – 2012
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
MỤC LỤC
Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 3
1.1. Khái niệm 3
1.2. Kiến trúc của một hệ thống khai phá dữ liệu 3
1.3. Các giai đoạn của quá trình khai phá dữ liệu 4
1.4. Một số kỹ thuật khai phá dữ liệu 7
1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu 10
1.6. Các phương pháp chính trong khai phá dữ liệu 12
1.7. Các ứng dụng của khai phá d ữ liệu 13
1.8. Khai phá dữ liệu và các lĩnh vực liên quan 13
1.9. Các thách thức trong phát hiện tri thức và khai phá dữ liệu 14
1.10. Kết luận chương 1 16
Chương 2: PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG TRONG MICROSOFT SQL SERVER 17
2.1. Giới thiệu về phân lớp : 17
2.2. Các phương pháp phân lớp 17
2.4.Tạo cây quyết định trong Microsoft SQL Server 40
KẾT LUẬN 56
Phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá dữ liệu. Công nghệ
các mối liên hệ, quan hệ giữa các dữ liệu, đối tượng bên trong CSDL, kết quả của
việc khai phá là xác định các mẫu hay các mô hình tồn tại bên trong nhưng chúng
nằm ẩn ở các CSDL. Về bản chất nó là giai đoạn duy nhất rút trích và tìm ra được
các mẫu, các mô hình
h
ay thông tin mới, tri thức tiềm ẩn có trong CSDL chủ yếu
phục vụ cho mô tả và dự đoán. Đây là giai đoạn quan trọng nhất trong quá trình phát
hiện tri thức từ CSDL, các tri thức này hỗ trợ trong việc ra quyết định, điều hành
trong khoa học và kinh doanh.
Khai phá dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong các CSDL,
cụ thể hơn, đó là tiến trình lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn,
chưa biết những thông tin hữu ích từ các CSDL lớn.
1.2. Kiến trúc của một hệ thống khai phá dữ liệu
Khai phá dữ liệu là quá trình rút trích thông tin bổ ích
từ những
kho
d
ữ liệu
lớn.
Khai phá dữ liệu là quá trình chính trong khai phá tri thức từ cơ sở dữ liệu.
Kiến trúc của một hệ thống khai phá dữ liệu có các thành phần như sau:
Hình 1.1. Khám phá tri thức trong cơ sở dữ liệu điển hình
HVTH: Trịnh Ngọc Thư – CH1102017 Page 3
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
CSDL, kho dữ liệu hoặc lưu trữ thông tin khác: Đây là một hay các tập
CSDL, các kho
d
ữ liệu, các trang tính hay các dạng khác của thông tin được lưu trữ.
Các
k
phận
này cho phép người dùng giao tiếp với hệ thống khai phá dữ liệu. Thông qua
giao diện này người dùng tương tác với hệ thống bằng cách đặc tả một yêu cầu
khai phá hay một nhiệm vụ, cung cấp thông tin trợ giúp cho việc tìm kiếm và
thực hiện khai phá thăm dò trên các kết quả khai phá trung gian. Ngoài ra bộ
phận này còn cho phép người dùng xem các lược đồ CSDL, lược đồ kho dữ liệu,
các đánh giá mẫu và hiển thị các mẫu trong các khuôn dạng khác nhau.
1.3. Các giai
đo
ạn của quá trình khai phá dữ liệu
Các thuật toán khai phá dữ liệu thường được mô tả như những chương trình
h oạ t động trực tiếp trên tệp dữ liệu. Với các phương pháp học máy và thống
kê trước đây, bước đầu tiên là thuật toán thường nạp toàn bộ tệp (file) dữ liệu vào
HVTH: Trịnh Ngọc Thư – CH1102017 Page 4
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
trong bộ nhớ. Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai
phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được. Không
HVTH: Trịnh Ngọc Thư – CH1102017 Page 5
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
chỉ bởi nó không thể nạp hết dữ liệu vào trong bộ nhớ mà còn khó có thể chiết
xuất dữ liệu ra các tệp đơn giản để phân tích.
Quá trình xử lý khai phá dữ liệu bắt đầu bằng việc xác định chính xác vấn đề
cần giải quyết. Sau đó sẽ xác định dữ liệu liên quan dùng để xây dựng giải pháp.
Tiếp theo là thu thập dữ liệu có liên quan và xử lý chúng thành dạng sao cho thuật
toán khai phá dữ liệu có thể hiểu được.
Quá trình khai phá dữ liệu trải qua ba bước:
Bước một: Lọc dữ liệu được thực hiện trong quá trình tiền xử lý. Công việc
đầu tiên là tích hợp và chỉnh sửa dữ liệu. Khi dữ liệu được thu thập từ nhiều nguồn
khác nhau nên có thể có những sự sai sót, dư thừa và trùng lặp. Lọc dữ liệu là cắt
bỏ những dư thừa để dữ liệu được định dạng thống nhất. Dữ liệu sau khi lọc và
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
cung cấp, đơn giá hàng, người bán hàng… Các dữ liệu này cần cho quản lý bán
hàng nhưng không c ần cho khai phá dữ liệu, ta loại bỏ các thuộc tính này khỏi
dữ liệu trước khi khai phá dữ liệu.
Bước hai: Khai phá dữ liệu là công việc chính, sử dụng các thuật toán khác
nhau để khai phá các kiến thức tiềm ẩn trong dữ liệu.
Bước ba: Sau xử lý, là quá trình ước lượng kết quả khai phá theo yêu cầu
của người dùng. Nhiều kỹ thuật khai phá dữ liệu được ứng dụng cho một nguồn dữ
liệu, các kỹ thuật cho các kết quả có thể khác nhau. Các kết quả được ước lượng
bởi những quy tắc nào đó, nếu cuối cùng kết quả không thỏa mãn yêu cầu, chúng ta
phải làm lại với kỹ thuật khác cho đến khi có
k
ết quả mong muốn.
1.4. Một số kỹ thuật khai phá dữ liệu
Mục đích của khai phá dữ liệu là chiết xuất ra các tri thức có lợi cho kinh
doanh hay cho nghiên cứu khoa học… Do đó, ta có thể xem mục đích của khai phá
dữ liệu sẽ là mô tả các sự kiện và dự đoán. Các mẫu khai phá dữ liệu phát hiện
được nhằm vào mục đích này. Dự đoán liên quan đến việc sử dụng các biến hoặc
các đối tượng (bản ghi) trong CSDL để chiết xuất ra các mẫu, dự đoán được
những giá trị chưa biết hoặc những giá trị tương lai của các biến đáng quan tâm.
Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà con người có thể hiểu
được.
Để đạt được những mục đích này, nhiệm vụ chính của khai phá dữ liệu
bao gồm như sau:
Phân lớp dữ liệu
Khái niệm phân lớp dữ liệu được Han và Kamber đưa ra năm 2000. Phân
lớp dữ liệu là xây dựng một mô hình mà có thể phân các đối tượng thành những
lớp để dự đoán giá trị bị mất tại một số thuộc tính của dữ liệu hay tiên đoán giá trị
của dữ liệu sẽ xuất hiện trong tương lai.
Quá trình phân lớp dữ liệu được thực hiện qua hai bước. Bước thứ nhất:
Yes
Yes No
Yes No
Sinh viên
30-35 >35TID
Hình 1.3: Cây quyết định
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
tượng trong một nhóm là tương đương nhau, chúng phải khác với những đối
tượng trong những nhóm khác. Trong phân lớp dữ liệu, một bản ghi thuộc về
lớp nào là phải xác định trước, trong khi phân nhóm không xác định trước.
Trong phân nhóm, những đối tượng được nhóm lại cùng nhau dựa vào sự giống
nhau của chúng. Sự giống nhau giữa những đối tượng được xác định bởi những
chức năng giống nhau. Thông thường những sự giống nhau về định lượng như
khoảng cách hoặc độ đo khác được xác định bởi những chuyên gia trong lĩnh
vực của mình.
Hồi qui (Regression): Là việc học một hàm ánh xạ từ một tập dữ liệu thành một
biến dự đoán có giá trị thực. Nhiệm vụ hồi qui tương tự như phân lớp, điểm
khác nhau chính
là
ở chỗ thuộc
t
ính để dự báo là liên tục chứ không rời rạc. Việc
dự báo các giá trị số thường được làm bởi các phương pháp thống kê cổ điển
chẳng hạn như hồi qui tuyến tính. Tuy nhiên, phương pháp mô hình hóa
cũng được
sử dụng .
Ứng dụng của hồi quy là rất nhiều, ví dụ: dự đoán số lượng sinh vật phát
quang hiện thời trong khi rừng bằng cách dò tìm vi sóng bằng thiết bị cảm biến từ
xa; dự đoán khả năng tử vong của bệnh nhân khi biết các kết quả xét nghiệm
chuẩn đoán; dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu
mà chúng ta cần khai phá. Cơ sở dữ liệu quan hệ có cấu trúc cao, dữ liệu được
mô tả bởi một tập những thuộc tính và lưu trong những bảng. Khai phá dữ liệu
trên cơ sở dữ liệu quan hệ chủ yếu tập trung khai phá
mẫu
. Ví dụ, trong cơ sở dữ
liệu của một ngân hàng, ta có thể tìm được những khách hàng có mức chi tiêu
cao, ta có thể phân loại những khách hàng này dựa vào quá trình chi tiêu của họ.
Cũng với việc phân tích những mục chi tiêu của khách hàng, chúng ta có thể
cung cấp một số thông tin của khách hàng đến những doanh nghiệp khác. Giả sử
rằng một khách hàng chi mỗi tháng 500 đô la cho thời trang, nếu được phép,
ngân hàng có thể cung cấp thông tin về khách hàng này cho những cửa hàng
thời trang.
Cơ sở dữ liệu giao tác
Cơ sở dữ liệu giao tác là tập hợp những bản ghi giao dịch, trong đa số các
HVTH: Trịnh Ngọc Thư – CH1102017 Page 10
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
trường hợp chúng là những bản ghi các dữ liệu hoạt động của doanh nghiệp, tổ
chức. Với tính phổ biến của máy tính và thương mại điện tử, ngày nay có rất
nhiều cơ sở dữ liệu giao tác. Khai phá dữ liệu trên cơ sở dữ liệu giao tác tập
trung vào khai phá luật kết hợp, tìm mối tương quan giữa những mục dữ liệu
của bản ghi giao dịch. Nghiên cứu sâu về cơ sở dữ liệu giao tác được mô tả chi
tiết ở phần sau.
Cơ sở dữ liệu không gian
Cơ sở dữ liệu không gian bao gồm hai phần: Phần thứ nhất là dữ liệu
quan hệ hay giao tác, phần thứ hai là thông tin định vị hoặc thông tin địa lý.
Những luật kết hợp trên cơ sở dữ liệu không gian mô tả mối quan hệ giữa các
đặc trưng trong cơ sở dữ liệu không gian. Dạng của luật kết hợp không gian có
dạng X ⇒ Y, với X, Y là tập hợp những vị từ không gian. Những thuật toán
khai phá luật kết hợp không gian tương tự như khai phá luật kết hợp nhưng thêm
những vị từ về không gian.
Phân lớp và dự đoán (Classification & Prediction)
Xếp một đối tượng vào một trong những lớp đã biết. Ví dụ: phân lớp
vùng địa lý theo dữ liệu thời tiết. Đối với hướng tiếp cận này thường áp dụng
một số kỹ thuật như học máy (Machine learning), cây quyết định (Decision
tree), mạng nơron nhân tạo (Neural network). Với hướng này, người ta còn gọi là
học có giám sát hay học có thầy (Supervised learning).
Phân cụm và phân đoạn (Clusterring and Segmentation)
Sắp xếp các đối tượng theo từng cụm (số lượng và tên của cụm chưa
được biết trước). Các đối tượng được gom cụm sao cho mức độ tương tự
g
iữa
các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối
tượng nằm trong các cụm khác nhau là nhỏ nhất. Lớp bài toán phân cụm còn được
gọi là học không giám sát hay học không thầy.
Luật kết hợp (Association rules)
Luật kết hợp là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Mục tiêu
của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ
liệu trong cơ sở dữ liệu. Mẫu đầu của giải thuật khai phá dữ liệu là tập luật kết
hợp tìm được.
Khai phá chuỗi theo thời gian (Sequential temporal patterns)
Cũng tương tự như khai phá dữ liệu bằng luật kết hợp nhưng có thêm tính
HVTH: Trịnh Ngọc Thư – CH1102017 Page 12
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực
tài chính và thị trường chứng khoán bởi vì chúng có tính dự báo cao.
Mô tả khái niệm và tổng hợp hóa (Summarization)
Liên quan đến các phương pháp tìm kiếm một mô tả cho một tập con dữ
liệu. Các kỹ thuật toán tắt thường được áp dụng cho các phân tích dữ liệu tương
tác có tính thăm dò và tạo báo cáo tự động.
1.7. Các ứng dụng của khai phá
Các ngành khoa
học khác
Giáo dục
Y tế
Thương mại
Khai phá dữ liệu
Hình 1.4: Một số lĩnh vực liên quan đến khai phá dữ liệu
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
Phát hiện tri thức và khai phá dữ liệu được coi là trung tâm của nhiều
ngành khoa học, nó liên quan đến rất nhiều ngành, nhiều lĩnh vực khác nhau
như tài chính, ngân hàng, thương mại, y tế, giáo dục, thống kê, máy móc, trí tuệ
nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song, thu nhận tri thức trong
các hệ chuyên gia, quan sát dữ liệu.
Lĩnh vực học máy và nhận dạng mẫu là giống nhau trong khai phá dữ liệu
nghiên cứu các lý thuyết và thuật toán của hệ thống trích ra các mẫu và mô hình
dữ liệu. Khai phá dữ liệu tập trung vào việc mở rộng các lý thuyết và thuật toán
cho các vấn đề về tìm ra các mẫu đặc biệt, đây được coi là những mẫu hữu ích
hoặc tri thức quan trọng tập dữ liệu lớn.
Đặc biệt, phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực
thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện
các mẫu, luật…, kho dữ liệu và các công cụ xử lý trực tuyến (OLAP – online
analytical processing) tập trung vào phân tích dữ liệu đa chiều, tốt hơn SQL
trong tính toán và phân tích thống kê đa chiều cũng liên quan chặt chẽ đến khai
phá dữ liệu.
Đặc trưng của hệ thống khai phá dữ liệu là nhờ vào các phương pháp
thuật toán và kỹ thuật từ những lĩnh vực khác nhau, nhằm mục đích cuối cùng là
trích ra tri thức từ dữ liệu trong CSDL khổng lồ.
1.9. Các thách thức trong phát hiện tri thức và khai phá dữ liệu
Khai phá dữ liệu ngày càng đóng một vai trò quan trọng trong việc tìm ra
HVTH: Trịnh Ngọc Thư – CH1102017 Page 14
quả đạt được sau khai phá cũng gây không ít khó khăn cho khai phá dữ liệu, như
các mẫu được khai phá ở bước
trước
, có thể không còn giá trị hay vô nghĩa đối
HVTH: Trịnh Ngọc Thư – CH1102017 Page 15
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
với thời điểm sử dụng, hoặc có thể làm nhiễu hay phát sinh hiệu ứng phụ làm
sai lệch kết quả. Để khắc phục được vấn đề này cần phải chuẩn hóa, cải tiến,
nâng cấp các mẫu, các mô hình và có thể xem các thay đổi này là mục đích của
khai phá và tìm kiếm các mẫu bị thay đổi.
Thuộc tính không phù hợp, các bộ giá trị không đầy đủ, bị thiếu giá trị
trong các m i ề n thuộc tính đã làm ảnh hưởng rất lớn trong khai phá dữ liệu.
Trong quá trình khai phá dữ liệu, khi các hệ thống tương tác với nhau phụ thuộc
nhau mà thiếu vắng một vài giá trị nào đó, sẽ dẫn đến các mẫu không được
chính xác, bị thiếu, không đầy đủ. Để giải quyết cho vấn đề này, người ta coi sự
thiếu vắng của các dữ liệu này là giá trị ẩn, chưa biết và có thể được tiên đoán
bằng một số phương pháp nào đó.
Quan hệ phức tạp giữa các thuộc tính trong CSDL cũng là vấn đề cần
được quan tâm. Những bộ thuộc tính có cấu trúc, phân lớp phức tạp, có mối liên hệ
phức tạp với nhau trong CSDL đòi hỏi khai phá dữ liệu phải có các giải pháp, các
kỹ thuật để có thể áp dụng được, nhận ra được các mối quan hệ này trong quá
trình khai phá dữ liệu.
1.10. Kết luận chương 1
Các tri thức tiềm ẩn
tro
ng các CSDL có ý nghĩa rất lớn trong nhiều lĩnh
vực vì vậy việc phát hiện, rút trích tự động các tri thức ẩn từ các tập hợp dữ liệu
lớn thông qua các mẫu, mô hình dữ liệu càng đóng một vai trò hết sức quan
trọng, đặc biệt là trong bối cảnh hiện nay khi mà sự phát triển nhanh chóng của
các ứng
mô hình, tập kiểm tra là độc lập với tập huấn luyện.
Phân lớp là một hình thức học được giám sát tức là: tập dữ liệu huấn
luyện (quan sát, thẩm định ) đi đôi với những nhãn chỉ định lớp quan sát, những
dữ liệu mới được phân lớp dựa trên tập huấn luyện.
Ngược lại với hình thức học được giám sát là hình thức học không được giám
sát lúc đó nhãn lớp của tập dữ liệu huấn luyện là không được biết đến.
.
2.2. Các phương pháp phân lớp
2.2.1. Phân lớp bằng phương pháp qui nạp cây quyết định :
2.2.1.1. Khái niệm cây quyết định:
Cây quyết định là một flow-chart giống cấu trúc cây, nút bên trong biểu thị
một kiểm tra trên một thuộc tính, nhánh biểu diễn đầu ra của kiểm tra, nút lá biểu
diễn nhãn lớp hoặc sự phân bố của lớp.
Việc tạo cây quyết định bao gồm 2 giai đoạn: Tạo cây và tỉa cây.
Để tạo cây ở thời điểm bắt đầu tất cả những ví dụ huấn luyện là ở gốc sau đó
phân chia ví dụ huấn luyện theo cách đệ qui dựa trên thuộc tính được chọn.
HVTH: Trịnh Ngọc Thư – CH1102017 Page 17
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
Việc tỉa cây là xác định và xóa những nhánh mà có phần tử hỗn loạn hoặc
những phần tử nằm ngoài (những phần tử không thể phân vào một lớp nào đó).
Việc sử dụng cây quyết định như sau: Kiểm tra những giá trị thuộc tính
của mẫu đối với cây quyết định.
2.2.1.2.Thuật toán qui nạp cây quyết định :
Giải thuật cơ bản (giải thuật tham lam) được chia thành các bước như sau:
1. Cây được xây dựng đệ qui từ trên xuống dưới (top-down) và theo cách
thức chia để trị (divide-conquer).
2. Ở thời điểm bắt đầu , tất cả những ví dụ huấn luyện ở gốc .
3. Thuộc tính được phân loại (nếu là giá trị liên tục chúng được rời rạc hóa)
4. Những ví dụ huấn luyện được phân chia đệ qui dựa trên thuộc tính mà nó
chọn lựa .
i
entropy hoặc thông tin mong đợi cần để phân loại những đối tượng trong cây con
S
i
là :
v
E(A) = Σ [(p
i
+n
i
)/(p+n)] I(p
i
,n
i
)
i=1
Thông tin nhận được ở nhánh A là: Gain(A) = I(p,n)-E(A)
HVTH: Trịnh Ngọc Thư – CH1102017 Page 18
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
2.2.1.4. Nội dung giải thuật học cây quyết định cơ bản ID3 :
ID3 là một giải thuật học cây quyết định được phát triển bởi Ross Quinlan
(1983). Ý tưởng cơ bản của giải thuật ID3 là để xây dựng cây quyết định bằng
việc sử dụng một cách tìm kiếm từ trên xuống trên những tập hợp cho trước để
kiểm tra mỗi thuộc tính tại mỗi nút của cây. Để chọn ra thuộc tính mà hữu ích nhất
cho sự phân loại trên những tập hợp cho trước, chúng ta sẽ đưa ra một hệ đo độ lợi
thông tin.
Để tìm ra một cách tối ưu để phân loại một tập hợp thông tin, vấn đề đặt ra là
chúng ta cần phải làm tối thiểu hóa (Chẳng hạn, tối thiểu chiều cao của cây). Như
Decision n(negative), p(positive)
Tập Leaning set cho ví dụ chơi tennis:
HVTH: Trịnh Ngọc Thư – CH1102017 Page 19
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
Outlook Temperature Humidity Windy Decision
sunny hot high false n
sunny hot high true n
overcast hot high false p
rain mild high false p
rain cool normal false p
rain cool normal false n
overcast cool normal true p
sunny mild high false p
sunny mild normal true p
rain mild normal false p
sunny mild normal true p
overcast mild high true p
overcast hot normal false p
rain mild high true n
Giải thuật ID3 thực hiện như sau :
1. Tạo nút gốc( rootNode), chứa đựng toàn bộ learning set như là những
tập hợp con của chúng (subset) sau đó tính :
Entropy(rootNode.subset)= -(9/14)log
2
( 9/14 ) – ( 5/14)log
2
(5/14)= 0.940
2. Tính toán thông tin nhận được cho mỗi thuộc tính:
Gain(S,Windy)= Entropy(S)-(8/14)Entropy(S
false
dụng những tiêu chuẩn chọn lựa thuộc tính khác hơn thu thập thông tin.
2.2.1.6. Mở rộng qui nạp cây quyết định cơ bản:
Việc mở rộng qui nạp cây quyết định được áp dụng cho những thuộc tính giá
trị liên tục: Định nghĩa một cách uyển chuyển những thuộc tính giá trị bị rời rạc
mà sự phân chia giá trị thuộc tính thành một tập rời rạc của những khoảng.
Mở rộng qui nạp cây quyết định cũng được áp dụng cho những giá trị thuộc
tính thiếu sót bằng cách: Gán những giá trị thiếu sót bằng giá trị thông thường nhất
của thuộc tính hoặc gán khả năng có thể với mỗi giá trị có thể.
Việc mở rộng qui nạp cây quyết định cũng được áp dụng cho xây dựng thuộc
tính: Tạo những thuộc tính dựa trên những cái đã tồn tại mà chúng thể hiện thưa
thớt. Điều này sẽ giúp thu giảm việc phân mảnh, sự lặp lại và việc tạo bản sao.
2.2.1.7. Giải thuật mở rộng C4.5 :
C4.5 là sự mở rộng của giải thuật ID3 trên một số khía cạnh sau:
Trong việc xây dựng cây quyết định, chúng có thể liên hệ với tranning set mà
có những records với những giá trị thuộc tính không được biết đến bởi việc đánh
giá việc thu thập thông tin hoặc là tỉ số thu thập thông tin, cho những thuộc tính
bằng việc xem xét chỉ những record mà ở đó thuộc tính được định nghĩa .
Trong việc sử dụng cây quyết định, chúng ta có thể phân loại những record
mà có những giá trị thuộc tính không biết bằng việc ước lượng những kết quả có
khả năng xảy ra. Trong ví dụ chơi đánh gôn, nếu chúng ta được đưa một record
mới mà outlook là sunny và humidity chưa cho biết, chúng ta sẽ xử lý như sau:
Chúng ta di chuyển từ nút gốc Outlook đến nút Humidity theo cung được
đánh nhãn là sunny. Ở điểm đó từ lúc chúng ta không biết giá trị của Humidity
chúng ta để ý rằng nếu humidity là ở 75 có 2 records, và nếu humidity là lớn hơn
75 có 3 records trong đó có 1 record không hoạt động. Như vậy điều đó có thể đưa
ra như câu trả lời cho record khả năng (0.4,06) cho chơi gôn hoặc không chơi
gôn.
Chúng ta có thể liên hệ đến những giá trị liên tục. Giả sử rằng thuộc tính Ci
có tầm giá trị thuộc tính liên tục. Chúng ta sẽ xem xét những giá trị này trong tập
learning set. Cho rằng chúng được xắp sếp thứ tự tăng dần A1, A2, ,Am sau đó
cây quyết định. Một điều dễ dàng làm là có thể dẫn ra một luật từ một cây quyết
định: viết ra một luật từ mỗi đường trong cây quyết định đi từ gốc đến lá.Vế trái
của luật được xây dựng dễ dàng từ nhãn của những nút và nhãn của những cung.
Những luật rút ra có thể được rút gọn như sau:
HVTH: Trịnh Ngọc Thư – CH1102017 Page 22
Blue Red
Success
Failure
Color
Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu
Gọi LHS là LHS của luật Cho LHS’ nhận được bằng cách thu giảm một số
điều kiện của LHS. Chúng ta có thể chắc chắn thay thế LHS bằng LHS’ trong luật
này nếu tập con của training set thỏa mãn LHS và LHS’ là tương đương.
Một luật có thể được thu giảm bằng cách sử dụng metacondition ví dụ như
“không có luật khác có thể áp dụng ”.
2.2.1.9. Giải thuật mở rộng See5/C5.0 :
“See5 là một dạng nghệ thuật của hệ thống xây dựng sự phân loại trong dạng
thức của những cây quyết định và tập luật .”
See5 đã được thiết kế và hoạt động trên cơ sở dữ liệu lớn và sự kết hợp đổi
mới như là boosting. Kết quả tạo ra bởi See5 và C5.0 là tương tự nhau. Hoạt động
trước đây trên Windows95/98/NT của C5.0 là phần hoạt động của nó trên Unix .
See 5 và C5.0 là những công cụ khai khái dữ liệu phức tạp cho những mẫu khai
phá dữ liệu mà phát họa ra những loại tập hợp chúng thành những đối tượng phân
loại và sử dụng chúng để tiên đoán.
Đặc điểm chính của C5.0 là :
C5.0 được thiết kế để phân tích những cơ sở dữ lịêu quan trọng chứa
đựng hàng ngàn đến hàng trăm ngàn những records và hàng chục đến hàng trăm
số liệu hoặc tên field .
Để tối đa khả năng giải thích, đối tượng phân loại của See5.0 /C5.0
được diễn tả như là cây quyết định hoặc tập của những luật if – then. Dạng thức
nâng lên là hoàn toàn chính xác.
Những chức năng mới:
C5.0 kết hợp nhiều chức năng như là variable misclassfication costs. Trong
C4.5 tất cả những lỗi đều được xem như nhau. Nhưng trong những ứng dụng thực
tế sẽ có một số lỗi trong quá trình phân loại là nguy hiểm hơn những cái khác.
C5.0 chấp nhận một chi phí phân chia đối với mỗi cặp lớp được tiên đoán. Nếu
quan điểm này được áp dụng, C5.0 sẽ xây dựng những đối tượng phân loại để tối
thiểu hóa những giá trị phân loại sai được mong đợi hơn là những tần suất lỗi.
C5.0 có nhiều kiểu dữ liệu hơn cả những cái đã có trong C4.5 bao gồm cả
ngày giờ, thuộc tính giá trị rời rạc được xếp thứ tự và case labels. Thêm vào đó là
những giá trị thiếu (missing value). C5.0 cho phép những giá trị được coi như là
không áp dụng được. Hơn nữa, C5.0 cung cấp những điều kiện dễ dàng để định
nghĩa những thuộc tính mới như những hàm của những thuộc tính khác.
Những ứng dụng khai phá dữ liệu gần đây được hình thức hoá với kích thước
lớn hơn, với hàng trăm thậm chí hàng ngàn những thuộc tính. C5.0 có thể tự động
lọc những thuộc tính, loại bỏ những cái xuất hiện bên lề trước khi một lớp phân
loại được xây dựng. Đối với ứng dụng của loại này, sự phân loại có thể dẫn đến
những đối tượng nhỏ hơn và sự tiên đoán chính xác hơn và thậm chí thu giảm
được thời gian tạo ra tập luật.
C5.0 cũng dễ dàng được sử dụng hơn. Những chọn lựa được đơn giản hóa và
mở rộng- để hỗ trợ sự lấy mẫu và cross-validation, trong lúc đó chương trình C4.5
để tạo ra cây quyết định và tập luật được kết hợp vào một chương trình duy nhất.
Phiên bản trên windows See5 đã xây dựng được một giao diện đồ họa thân
thiện và thêm vào một số chức năng hỗ trợ khác. Ví dụ Cross-Reference Window
làm cho những đối tượng phân loại dễ hiểu hơn bằng việc liên kết những trường
hợp đến những phần liên quan đến việc phân loại.
2.2.2. Phân lớp với GiniIndex(IBM IntelligenMiner) :
Tương tự như đại lượng Gain ở trên IBM đã đưa ra một đại lượng cho việc
phân lớp là gini như sau:
Nếu một tập dữ liệu T chứa những mẫu từ n lớp, gini index, gini(T) được