BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
—————————
NGUYỄN VIỆT HÀ
ỨNG DỤNG LÝ THUYẾT TẬP THÔ
TRONG KHAI PHÁ DỮ LIỆU
KINH TẾ – TÀI CHÍNH LUẬN VĂN THẠC SĨ Ngành: Công nghệ thông tin
Mã số: 1.01.10 NGƯỜI HƯỚNG DẪN KHOA HỌC
2.6. Nhận xét và thảo luận một số vấn đề về sử dụng lý thuyết tập thô
trong ứng dụng kinh tế - tài chính 62
2.7. Tổng kết chương 2 64
CHƢƠNG 3. PHÁT HIỆN TRI THỨC QUA LẬP TRÌNH LOGIC
QUY NẠP VÀ ỨNG DỤNG TRONG PHÁT HIỆN CÁC DẦU HIỆU
TÀI CHÍNH BẤT THƢỜNG 65
3.1. Giới thiệu 65
3.2. Lập trình logic qui nạp (Inductive logic programming - LLP)[27] . 67
3.3. Thuật toán FOIL và FOCL [20, 21] 68
3.4. Thuật toán MMDR 73
3.5. Ứng dụng MDDR trong phát hiện các điểm bất thường 77
3.6. Tổng kết chương 3 84
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 85
TÀI LIỆU THAM KHẢO 87
2
DANH MỤC CÁC TỪ VIẾT TẮT AVL Attribute- value language
CSDL Cơ sở dữ liệu
DM Data mining
DW Data ware house
ILP Inductive locgic Programming
KDD Knowledge Discovery in Database
RDM Realtional Data Mining
3
DANH MỤC CÁC BẢNG
Bảng 2.1 Một ví dụ về lựa chọn thuộc tính theo tập thô 49
Trong những năm gần đây, mặc dù đã có nhiều công cụ hỗ trợ đắc
lực cho việc thu thập, lưu trữ, khai thác dữ liệu, song với sự bùng nổ của
thông tin thu thập được đã vượt ra ngoài khả năng của con người để nắm
bắt và khai thác một cách hiệu quả, do vậy trong nhiều trường hợp các
quyết định được đưa ra không dựa vào những thông tin hoặc dữ liệu thu
thập được và chủ yếu dựa vào nhận thức, suy đoán của người ra quyết định.
Bên cạnh đó những khiếm khuyết của các công cụ hỗ trợ đem lại cho người
dùng tình trạng các tri thức lấy ra từ lượng dữ liệu lớn lại thiếu thông tin.
Từ đó phát sinh yêu cầu tự nhiên là tìm kiếm một kỹ thuật mới có các đặc
tính thông minh và khả năng tự động để hỗ trợ con người chắt lọc thông tin
hữu ích trong một khối dữ liệu lớn.
Xuất phát từ những thực tiễn đó, mặc dù lý thuyết tập thô được khởi
xướng từ thập niên tám mươi của thế kỷ trước, song ngày càng được ứng
dụng một cách rộng rãi trong việc phát hiện tri thức, phân tích quyết định,
quy luận quy nạp và nhận dạng mẫu. Nó dường như cũng đặc biệt quan
trọng cho các hệ thống trợ giúp quyết định và khai phá dữ liệu. Thực tế đây
là một cách tiếp cận mới cho việc phân tích dữ liệu.
Từ những vấn đề đó, nội dung đề tài này tập trung vào những vấn đề
cơ bản của lý thuyết tập thô và những ứng dụng của nó trong các bài toán
kinh tế, trong cơ sở dữ liệu thị trường, và trong việc tìm kiếm các yếu tố bất
thường trong lĩnh vực tài chính ngân hàng.
Mục tiêu nhiệm vụ và phạm vi nghiên cứu
Nắm vững cơ sở lý thuyết, các khái niệm cơ bản, khái quát về các
phương pháp ứng dụng lý thuyết tập thô trong khai phá dữ liệu; nghiên cứu
mô hình tập thô trong các bài toán kinh tế: phương pháp, mô hình phân tích
lượng dữ liệu lớn trên cơ sở lý thuyết tập thô, với các ví dụ điển hình của
ứng dụng lý thuyết tập thô để giải quyết các vấn để hỗ trợ quyết định 3 lĩnh
6
vực: đánh giá công ty, chính sách tài chính của ngân hàng, chiến lược thị
trường.
1.1.1 Những tiến bộ trong công nghệ CSDL [2]
Nhu cầu tích luỹ và xử lý các dữ liệu nảy sinh trong mọi công việc,
trong mọi hoạt động của con người, trong mọi vấn đề từ kỹ thuật, kinh tế -
xã hội đến hoạt động quản lý. Thập niên 1960 gắn liền với các sản phẩm
đầu tiên của hệ quản trị tệp, xuất hiện bộ nhớ ngoài, như là bộ nhớ trong lý
tưởng [2]. Giữa những năm 60, thế hệ đầu của hệ quản trị cơ sở dữ liệu
đánh dấu bằng việc phân rõ, mô tả những dữ liệu của chương trình ứng
dụng và ngôn ngữ truy nhập bên trong, bằng các lệnh hỏi phi thủ tục, người
ta có thể truy nhập dữ liệu, tìm đến các bản ghi thay vì phải đi theo cấu trúc
lưu trữ vật lý của dữ liệu (Hệ QTCSDL mạng).
Thập niên 1970, mô hình dữ liệu quan hệ, cài đặt hệ quản trị CSDL
quan hệ. Mô hình quan hệ giúp đơn giản hoá việc truy nhập dữ liệu của
người sử dụng bên ngoài.
Thập niên 1980, xuất hiện hệ QTCSDL quan hệ, các mô hình dữ liệu
nâng cao (quan hệ mở rộng, hướng đối tượng, suy diễn, v.v.) và các hệ
quản trị CSDL hướng ứng dụng (không gian, khoa học, cộng nghệ, vv ).
Từ thập niên 1990 - những năm 2000: khai phá dữ liệu (data mining)
và kho dữ liệu (data warehouse), cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu
web .
1.1.2. Dữ liệu, Thông tin và Tri thức [14 ]
Dữ liệu (data): Chúng ta thường thu thập và nhìn thấy hàng ngày, ví
dụ: một chuỗi các bit, các con số, kí tự, biểu tượng, hay một đối tượng,
8
Thông tin (Information): Là “dữ liệu” đã được loại bỏ các phần dư
thừa, không cần thiết. Thông tin mô tả các đặc trưng, thuộc tính của “dữ
liệu” với chi phí nhỏ nhất.
Tri thức (Knowledge) :
o Là sự tích hợp các “thông tin” bao gồm cả quan hệ, là sự đúng
đàn đã được kiểm nghiệm, là sự khám phá, sự hiểu biết,
o Nói cách khác tri thức có thể được xem như dữ liệu ở mức cao
tập dữ liệu.
Thuật ngữ khai phá dữ liệu (data mining) ám chỉ việc tìm kiếm một
tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật
ngữ hiện được dùng cũng có nghĩa tương tự với từ data mining như
knowledge mming (khai phá tri thức), knowledge extraction (chắt lọc tri
thức), data/pattern analysis (Phân tích dữ liệu/mẫu), data archaeology
(khảo cồ dữ liệu), data dredging (nạo vét dữ liệu). Hiện nay, thuật ngữ khai
phá dữ liệu (data mining) được dùng quá quen thuộc và người ta thường
đồng nhất với thuật ngữ Knowledge Discovery in Databases (KDD).
Còn các nhà thống kê thì xem khai phá dữ liệu như là một qui trình
phân tích được thiết kế để thăm dò một lượng cực lớn các dữ liệu nhằm
phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ
thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng
cách áp dụng các mẫu đã phát hiện được cho các tập con mới của dữ liệu.
Qui trình này bao gồm ba giai đoạn cơ bản: thăm dò, xây dựng mô hình
hoặc định nghĩa mẫu, hợp thức/kiểm chứng [3].
10
Trích chọn dữ liệu: chọn lọc dữ liệu từ các nguồn dữ liệu nhằm phục
vụ mục đích khai phá tri thức theo những tiêu chí xác định. Ví dụ, từ
CSDL về bán hàng, ta chọn ra các dữ liệu về khách hàng, đơn đặt
hàng, hoá đơn,
Tiền xử lý: làm sạch và làm giàu dữ liệu. Làm đầy đủ dữ liệu, xử lý
nhiễu, những vấn đề không nhất quán, v.v. Ví dụ, một khách hàng có
thể được lưu ở nhiều bản ghi có thể có những tên, địa chỉ khác nhau,
cần phải chỉnh sửa để đảm bảo nhất quán và chính xác về khách
hàng đó. Những dữ liệu khác nhau về khuôn dạng, đơn vị đo lường,
v.v. cần phải có những qui định thống nhất và cách chuyển về một
dạng chung.
Biến đổi dữ liệu: thực hiện bước mã hoá dữ liệu và chạy các chương
bộ thông tin trong CSDL là quá dư thừa đối với mục đích của việc khai phá
dữ liệu.
Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực
hiện việc khai phá dữ liệu để tìm được các hình mẫu (pattern) có ý nghĩa
dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn
dưới dạng các luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi
quy, ).
Đặc điểm của mẫu là phải mới (ít nhất là đối với hệ thống đó). Độ
mới có thể được đo tương ứng với độ thay đổi trong dữ liệu bằng cách so
sánh các giá trị hiện tại với các giá trị trước đó hoặc các giá trị mong
muốn), hoặc bằng tri thức (mối liên hệ giữa phương pháp tìm mới và
phương pháp cũ như thế nào). Thường thì độ mới của mẫu được đánh giá
bằng một hàm logic hoặc hàm đo độ mới, độ bất ngờ của mẫu. Ngoài ra,
mẫu phải có khả năng sử dụng tiềm tàng. Các mẫu này sau khi được xử lý
và diễn giải phải dẫn đến những hành động có ích nào đó được đánh giá bởi
một hàm lợi ích.Với các giải thuật và các nhiệm vụ của khai phá dữ liệu rất
12
khác nhau, dạng của mẫu chiết xuất được cũng rất da dạng. Dạng của mẫu
chiết xuất được có thể được phân loại bởi kiểu mẫu dữ liệu mà nó mô tả.
Kỹ thuật khai phá dữ liệu thực chất không có gì mới. Nó là sự kế
thừa, kết hợp và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu từ
trước như học máy, nhận dạng, thống kê (hồi quy, xếp loại, phân cụm), các
mô hình đồ thị, mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên
gia, v.v . . . Tuy nhiên, với sự kết hợp tài tình của khai phá dữ liệu, kỹ thuật
này có ưu thế hơn hẳn các phưng pháp trước đó, đem lại nhiều triển vọng
trong việc ứng dụng phát triển nghiên cứu khoa học cũng như làm tăng
mức lợi nhuận trong các hoạt động kinh doanh.
1.1.5. Nhiệm vụ chính của khai phá dữ liệu [14, 31]
Rõ ràng mục đích của khai phá dữ liệu là các tri thức chiết xuất sẽ
được sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích trong - Phân cụm (Clustering): Là việc mô tả chung để tìm ra các tập xác
định các cụm hay các loại để mô tả dữ liệu (Titterington, Smith & Makov
1985, Jain & Dules 1988). Các cụm có thể tách riêng nhau hoặc phân cấp
hoặc gối lên nhau. Có nghĩa là một dữ liệu có thể vừa thuộc cụm này và
vừa thuộc cụm kia.
14
Hình 1.5 miêu tả các mẫu của quá trình khai phá dữ liệu với nhiệm
vụ phân cụm. Ở đây, các mẫu là các nhóm khách hàng được xếp thành ba
nhóm gối lên nhau. Liên quan chặt chẽ đến việc phân cụm là nhiệm vụ
đánh giá mật độ xác suất, bao gồm các kỹ thuật đánh giá dữ liệu, hàm mật
độ xác suất đa biến liên kết của tất cả các biến/các trường trong cơ sở dữ
liệu (Silvemlan 1986).
- Tổng kết hoá (summarization): Liên quan đến các phương pháp
tìm kiếm một mô tả tóm tắt cho một tập con dữ liệu. Ví dụ như việc lập
bảng các độ lệch chuẩn và trung bình cho tất cả các trường. Các phương
pháp phức tạp hơn liên quan đến nguồn gốc của các luật tổng kết (Agrawal
et al), khai thác mối liên hệ hàm giữa các biến (Zembowicz & Zytkow).
Các kỹ thuật tổng kết thường được áp dụng cho các phân tích dữ liệu tương
tác có tính thăm dò và tạo báo cáo tự động.
- Mô hình hoá phụ thuộc (Dependency Modeling): Bao gồm việc
tìm kiếm một mô hình mô tả sự phụ thuộc đáng kể giữa các biến, các thành
phần, phát hiện sự phụ thuộc giữa các thuộc tính. Các mô hình phụ thuộc
tồn tại dưới hai mức: mức cấu trúc của mô hình xác định (thường ở dạng đồ
hoạ) các biến nào là phụ thuộc cục bộ với nhau, mức định lượng của một
mô hình xác định độ mạnh của sự phụ thuộc theo một độ đo nào đó.
- Phát hiện sự thay đổi và chệch hƣớng (Change and Deviation
, trong đó : C là tập các thuộc tính điều kiện, D là tập các thuộc tính quyết
định.
Với mỗi thuộc tính q A liên kết với một tập Vq các giá trị của nó
được gọi là miền (domain) của thuộc tính q.
Các đối tượng có thể được diễn giải như là các thể hiện, trạng thái,
tiến trình, người bệnh và các quan sát. Các thuộc tính có thể được diễn giải
như là các đặc trưng, các biến, và các điều kiện tiêu biểu. Một trường hợp
đặc biệt của các hệ thống thông tin là bảng quyết định (decision table) hay
bảng giá trị thuộc tính (attribute- value table). Trong một bảng quyết định,
16
các hàng tương ứng với các đối tượng còn các cột tương ứng với các thuộc
tính. Một bảng quyết định có dạng T : (U, A, d), trong đó, d A là thuộc
tính quyết định và A là tập các thuộc tính điều kiện.
1.2.2. Quan hệ không phân biệt được.
Cho một hệ thống thống tin T (U, A), bất kỳ một tập con B của A,
xác định một quan hệ tương đương IND(B) trên U được gọi là quan hệ
không phân biệt được IND(B) : {(x, y) U x U: a B, a(x) = a(y)} a(x)
ký hiệu giá trị thuộc tính a với mỗi phần tử x.
IND(B) được gọi là B-quan hệ không phân biệt được. Nếu (x,y)
IND(B), thì các đối tượng x và y là không phân biệt được với nhau bởi các
thuộc tính trong B.
Quan hệ tương đương IND(B) chia tập vũ trụ thành một họ các lớp
tương đương. Họ này, tức là phân hoạch xác định bởi B, sẽ được ký hiệu
U/IND(B), hay đơn giản là U/B. Các lớp tương đương của B-quan hệ
không biệt được được ký hiệu là [x]
B
hoặc B(x) .
1.2.3. Xấp xỉ tập
Do tính mơ hồ luôn tồn tại trong dữ liệu thế giới thực, luôn có sự
xung đột giữa các đối tượng trong một bảng quyết định, ở đây các đối
X được gọi là B - Vùng biên của X, nó bao gồm những đối tượng mà trên
cơ sở các thuộc tính trong B chúng ta không thể phân lớp vào X. Một tập
được cho là thô (tương ứng với Rõ) đối với B nếu vùng biên BN
B
(X) là
không rỗng (ngược lại là Rõ).
- Các tính chất của xấp xỉ tập [18]
(1). B(X) X B(X)
(2). B() B() = , B(U) = U
(3). B(X Y) = B(X) B(Y)
(4). B (X Y) = B(X) B(Y)
(5). X Y kéo theo B(X) B(Y)và B(X) B(Y)
(6). B (X Y) B(X) B(Y)
(7).
B(X
Y) B(X)
B(Y)
(8). B(-X) = -
B (X)
(9).B(-X) = - B(X) .
(10) B(B(X)) =B(B(X))= B(X)
(11)
B
(
B
(X)) = B (
quyết định một số các phần tử của U thuộc về X, nhng chúng ta không thể
quyết định với bất kỳ phần tử nào của U liệu có thuộc về - X hay không, sử
dụng B.
+ X là B- không định nghĩa được toàn phần, có nghĩa chúng ta
không thể quyết định với bất kỳ phần tử nào của U liệu nó có thuộc về X
hay - X hay không, sử dụng B.
- Độ chính xác của xấp xỉ :
Tập thô còn có thể đặc trưng định lượng bởi hệ số sau:
B
(X)=
)(
)(
XB
XB
được gọi là độ chính xác của xấp xỉ của X bởi B. , ở
đây
X
là ký hiệu lực lượng của tập X và B là tập các thuộc tính.
Rõ ràng 0 <
B
(X) 1. Nếu
B
(X) = 1, thì tập X là rõ (crisp) đối với
tập B (X là chính xác với B). Ngược lại, nếu
B
(X) < 1, X là thô Với tập B
(x là mơ hồ với tập B).
Chất lượng của xấp xỉ [5,13]
Cho T là một hệ thống thống tin T = (U, A), B A và Y = {Y
1.2. 4. Rút gọn và lõi [6, 1 8]
Trong một hệ thống thông tin, có một số thuộc tính có thể dư thừa
với việc phân lớp nhất định. Lý thuyết tập thô đưa ra các khái niệm cho
phép rút gọn các thuộc tính mà không làm giảm khả năng phân lớp.
Cho một hệ thống thông tin T = (U,A), Một rút gọn của T là một tập
tối tiểu các các thuộc tính B A sao cho IND(B) = IND(A), ký hiệu B =
RED(A). Nói cách khác, một rút gọn là một tập tối tiểu các thuộc tính
thuộc A mà vẫn giữ được việc phân lớp đầu tiên định nghĩa bởi tập các
thuộc tính A.
Việc tìm ra một rút gọn tối tiểu là một bài toán Np-hard; người ta có
thể chỉ ra rằng với m bất kỳ, tồn tại một hệ thống thông tin với m thuộc tính
có số các rút gọn là một hàm mũ của m [6]. Tuy vậy, có một kinh nghiệm
tốt để tính toan nhiều rút gọn một cách đầy đủ trong một thời gian chấp
nhận được. Như vậy thì một tập các thuộc tính điều kiện có thể có nhiều
hơn một rút gọn, giao của tất cả các rút gọn được gọi là lõi (core):
CORE(A) = RED(A) .
Cho T là một hệ thống thông tin với n đối tượng, ma trận phân biệt
được của T là một ma trận đối xứng n x n với các thành phần c
ij
như sau.
Mỗi thành phần là một tập các thuộc tính sao cho giá trị những thuộc tính
đó ở trên những đối tượng x
i
và x
j
khác nhau.
c
ij
= {a Aa(x
i
}
với c
ij
*
= {a
*
a
c
ij
}
Tập tất cả các Implicant cực tiểu của ft xác định tập tất cả các rút gọn
của T. Có nghĩa là khi biến đổi hàm phân biệt được sang dạng hội của các
implicant cực tiểu ft =
{ R}, với R = { a
*
khi đó {R} là tập các rút gọn
của hệ thống thông tin T.
Hàm phân biệt được ft mô tả các ràng buộc phải được bảo toàn nếu
như muốn bảo toàn tính phân biệt được giữa tất cả các cặp đối tượng có thể
phân biệt được từ hệ thống thông tin T, điều này yêu cầu giữ lại ít nhất một
thuộc tính trong mỗi thành phần không rỗng của ma trận phân biệt được
(các c
ij
không rỗng), tức là tương ứng với bất kỳ cặp các đối tượng phân
biệt được. Người ta có thể chỉ rằng tập các thuộc tính cực tiểu bảo toàn tính
phân biệt được giữa các đối tượng, có nghĩa là tập các rút gọn tương ứng
với các implicant nguyên tố (prime implicant) [6] .
21
Giá trị của hàm thành viên
x
(X) là một loại xác suất có điều kiện, và
có thể được hiểu như là mức độ chắc chắn mà x thuộc vào X (hay 1 -
x
(X),
như là độ không chắc chắn), sử dụng tri thức trong B.
Hàm thành viên thô, có thể được dùng để định nghĩa các xấp xỉ và
miền biên của một tập, như chỉ ra dưới đây:
B(X) = {x U :
)(x
B
X
=l},
B(X) = {x U :
)(x
B
X
>0},
BN
B
(X) = {x U : 0 <
)(x
B
X
<1},
U
XC
/
)(
Nếu k = 1, Chúng ta nói rằng D phụ thuộc hoàn toàn vào C, và nếu k
< 1, chúng ta nói rằng D phụ thuộc một phần (theo cấp độ k) vào C.
22
Hệ số k diễn tả tỷ lệ các phần tử của tập vũ trụ , có thể được phân lớp
chính xác vào các khối của phân hoạch U/D sử dụng các thuộc tính C và
được gọi là cấp độ phụ thuộc.
Có thể dễ dàng thấy rằng nếu D phụ thuộc hoàn toàn vào C thì
IND(C) IND(D). Điều này có nghĩa, phân hoạch phát sinh bởi C là mịn
hơn (fine) phân hoạch phát sinh bởi D. Khái niệm phụ thuộc đưa ra ở trên
tương ứng với sự phụ thuộc trong cơ sở dữ liệu quan hệ.
Tóm lại: D phụ thuộc hoàn toàn (tương ứng: bộ phận) vào C, nếu tất
cả (tương ứng: có thể một số) các phần tử của tập vũ trụ U có thể phân lớp
duy nhất vào các khối của phân hoạch U/D, sử dụng C.
1.2.7. Luật quyết định (decision rules) [5, 131]
Vấn đề qui nạp những luật quyết định đã được nghiên cứu trong rất
nhiều lĩnh vực, đặc biệt là trong lĩnh vực máy học (Michalski, 1983;
Shavlik and Diettrich, 1990; Weiss and Kulikowski, 1990). Lý thuyết tập
thô cũng có thể áp dụng vào các giai đoạn khác nhau của qui nạp luật và
tiền xử lý dữ liệu. Tuy nhiên, một khía cạnh để phân biệt lý thuyết tập thô
với các hệ thống máy học điển hình là việc lý thuyết tập thô không sửa
chữa hay kết tập tính không nhất quán trong dữ liệu đầu vào, xấp xỉ dưới và
xấp xỉ trên được áp dụng để mô tả tính không nhất quán và do vậy những
luật đơn định và không đơn định được rút ra.
Một luật quyết định có thể được diễn tả như một phát biểu logic
If Hội của những điều kiện cơ sở Then Tuyển của các quyết định cơ
phân tích của việc lựa chọn các mẫu hỗ trợ mỗi lớp có khả năng. Trong
trường hợp sau, lớp được đề xuất được xác nhận bởi một lựa chọn vấn đề
gần nhất đối với đối tượng mới dựa trên quan hệ
24
1.2. 8. KDD và lý thuyết quyết tập thô [l22]
Lý thuyết tập thô khá phù hợp với những vấn đề có thể được phát
biểu như là nhiệm vụ phân lớp và đã được giới khoa học xem như là một
khung (framework) cho KDD.
Theo các bước trong tiến trình KDD như mô tả ở hình 1.2, thì một số
vấn đề sau đây cần được phải chú ý :
- Lựa chọn (Selection): Những khuôn dạng cơ sở cho việc mô tả dữ
liệu trong khung tập thô là các bảng dữ liệu hai chiều, các hàng và các cột
mô tả các đối tượng và các thuộc tính tương ứng. Một bảng quyết định
được thiết lập một cách thích hợp được lựa chọn cho việc phân tích tiếp
theo.
- Tiền xử lý (Pre-processing): Nếu bảng quyết định được lựa chọn
chứa các Ô trống (holes) (thiếu các giá trị), bảng có thể được xử lý theo
nhiều cách khác nhau để đưa ra một bảng đầy đủ.
- Biến đổi (Transformation): Các thuộc tính dạng số và các thuộc
tính có một thứ tự trên chúng có thể được rời rạc hoá, có nghĩa là được
chuyển đổi theo một cách sao cho các khoảng hay các miền (ranges) được
sử dụng thay vì sử dụng chính xác các quan sát đó
- Khai phá dữ liệu (Data mining): Trong các tiếp cận tập thô các luật
“if-then" được đưa ra, điều này được cài đặt trong một tiến trình hai giai
đoạn: Tính toán tập con các thuộc tính tối tiểu (rút gọn) trước khi các mẫu
hay luật được phát sinh từ tập con các thuộc tính tối tiểu này (trích rút luật).
- Diễn giải và đánh giá (Interpretation and evaluation): Các mẫu
riêng rẽ hay các luật có thể được diễn giải và đánh giá bởi các chuyên gia.
Những luật này cũng có thể được sử dụng để phân lớp các trường hợp mới
và đưa ra hiệu quả phân lớp của chúng .