Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
MỤC LỤC
CHƯƠNG I : KHÁI QUÁT VỀ PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ
LIỆU VÀ KHAI PHÁ DỮ LIỆU 3
1.1 Cơ sở tri thức 3
1.2 Phát hiện tri thức từ cơ sở dữ liệu 3
1.3 Khai phá dữ liệu 5
1.4 Kho dữ liệu 5
1.5 Ưu thế của khai phá dữ liệu 7
1.5.1 Máy học 7
1.5.2 Thống kê 8
1.6 Ứng dụng của khai phá dữ liệu 9
CHƯƠNG II : QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 10
2.1. Xác định vấn đề 11
2.2 Chuẩn bị dữ liệu 12
2.2.1 Dạng chuẩn 12
2.2.2 Biến đổi dữ liệu 14
2.2.3 Dữ liệu thiếu 18
2.3 Rút gọn dữ liệu 19
2.3.1 Lựa chọn các thuộc tính 20
2.3.2 Lựa chọn các trường hợp 20
2.4 Xây dựng và đánh giá các mô hình khai phá dữ liệu 23
2.5 Triển khai mô hình và thu thập kết quả 24
CHƯƠNG III : CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU 25
3.1 Cây quyết định 25
3.2 Mạng Nơ ron 30
3.3 Kỹ thuật K- láng giềng gần nhất 33
3.4 Luật quyết định và luật liên kết 35
CHƯƠNG IV: MỘT SỐ GIẢI THUẬT KHAI PHÁ LUẬT LIÊN KẾT 38
4.1 Mô hình hình thức 38
4.1.1 Tìm kiếm các tập phần tử lớn 40
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
CHƯƠNG I : KHÁI QUÁT VỀ PHÁT HIỆN TRI THỨC
TỪ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
1.1 Cơ sở tri thức
Cơ sở tri thức là một tập hợp các thông tin hữu ích về một vấn đề nào
đó. Các thông tin này đã được phân loại, định dạng theo những cách đặc
biệt. Cụ thể hơn, các thông tin được gọi là tri thức là các thông tin được
phân loại theo chủ đề, và đã qua kiểm chứng tính đúng đắn. Với các hệ
chuyên gia, cơ sở tri thức là tập các sự kiện và luật. Trước đây, các tri thức
dạng luật được thu thập từ phát biểu của các nhà chuyên gia. Điều này có
nhược điểm là một quá trình thủ công, dựa nhiều vào kinh nghiệm. Do đó
tính đầy đủ và chính xác của các tri thức phụ thuộc vào ý kiến chủ quan của
con người. Hiện nay, với sự xuất hiện của các kỹ thuật khai phá dữ liệu đã
mở ra một hướng mới trong việc thu thập tri thức. Đó là cách khai thác các
tri thức hữu ích một cách trực tiếp và tự động nhờ các bộ công cụ khai phá
dữ liệu. Nhờ đó, công việc thu thập tri thức trở nên nhanh chóng và hiệu
quả, tri thức thu được mang tính khách quan. Đồng thời cách tiếp cận này
cũng làm giảm đáng kể chi phí về thời gian và nhân lực, hỗ trợ hiệu quả
cho quá trình xây dựng các hệ chuyên gia.
1.2 Phát hiện tri thức từ cơ sở dữ liệu
Với những cơ sở dữ liệu lớn có nhiều trường điều cần thiết là phải có
một phương thức và công cụ để giúp đỡ con người trích xuất những thông
tin hữu ích (tri thức) từ chúng. Các phương thức và công cụ này là chủ đề
của phát hiện tri thức từ cơ sở dữ liệu (KDD).
Ở một mức cụ thể hơn, KDD quan tâm đến việc phát triển các phương
thức và kỹ thuật để xử lý dữ liệu. Vấn đề cơ bản trong KDD là ánh xạ các
dữ liệu mức thấp (có số lượng rất lớn để có thể hiểu và phân loại dễ dàng)
Nguyễn Tiến Thành – Công nghệ phần mềm K44
3
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
liệu lớn là rất cấn thiết cả về mặt kinh tế và khoa học. Các nhà kinh doanh
sử dụng dữ liệu để giành lợi thế trong cạnh tranh, tăng mức độ hiệu quả và
cung cấp thêm các dịch vụ có lợi cho người tiêu dùng. Những dữ liệu thu
thập được về môi trường là căn cứ cơ sở để chúng ta hình thành khái niệm
về thế giới hiện tại. Do máy tính cho phép con người có thể thu thập nhiều
Nguyễn Tiến Thành – Công nghệ phần mềm K44
4
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
dữ liệu hơn khả năng phân tích của con người nên rất cần có những kỹ
thuật tính toán để trợ giúp trong việc khai phá các mẫu và cấu trúc từ những
tập dữ liệu cực lớn. Do đó KDD là một giải pháp cho vấn đề của thời đại
thông tin số : quá tải dữ liệu.
1.3 Khai phá dữ liệu
KDD là một quy trình tổng thể nhằm phát hiện các tri thức hữu ích từ
dữ liệu, và khai phá dữ liệu là một bước đặc biệt của quy trình đó. Nó bao
gồm một việc phân tích dữ liệu và sử dụng các kỹ thuật nhằm tìm ra các
mẫu, các mô hình tổng thể từ dữ liệu. Mục đích của khai phá dữ liệu phụ
thuộc vào cách sử dụng hệ thống. Có hai loại mục đích chính là: dự đoán và
mô tả. Dự đoán là cách hệ thống tìm kiếm các mẫu để dự đoán hành vi của
một số thực thể trong tương lai. Mô tả là công việc của hệ thống tìm kiếm
các mẫu để biểu diễn dưới dạng dễ hiểu đối với người sử dụng.
Khai phá dữ liệu bao gồm các mô hình thích hợp nhằm xác định dạng
của mẫu và khảo sát dữ liệu. Các mô hình này đóng vai trò suy luận tri
thức: khi mô hình cho thấy các thông tin tri thức là hữu ích, các quy trình
khác của KDD sẽ được áp dụng. Có hai dạng mô hình toán học được sử
dụng : dạng thống kê và dạng logic. Hầu hết các phuơng pháp khai phá dữ
liệu đều dựa trên kỹ thuật thử và kiểm tra có trong máy học, nhận dạng mẫu
và thống kê : phân loại, gộp nhóm, hồi quy Số lượng các thuật toán khác
nhau trong mỗi loại kỹ thuật là rất nhiều, tuy nhiên chúng đều tuân theo
những nguyên tắc cơ bản của kỹ thuật.
miêu tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến có
khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai
• Cơ sở cho khai phá dữ liệu : Thông thường, các dữ liệu để khai
phá được trích rút từ một kho dữ liệu chính vào một cơ sở dữ liệu
hoặc một tập hợp dữ liệu theo chủ đề (Data mart). Nếu như dữ liệu
để khai phá là một phần của kho dữ liệu thì sẽ tạo thuận lợi lớn, do
việc làm sạch dữ liệu của kho dữ liệu và của khai phá dữ liệu là
Nguyễn Tiến Thành – Công nghệ phần mềm K44
6
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
khá giống nhau. Nếu như dữ liệu cần khai phá là dữ liệu từ kho dữ
liệu đã được làm sạch thì không cần phải thực hiện quá trình làm
sạch một lần nữa. Ngoài ra, các vấn đề về hợp nhất dữ liệu cũng
được chỉ ra và được đặt vào quy trình bảo trì. Mối quan hệ giữa
nguồn dữ liệu với kho dữ liệu và dữ liệu cho khai phá dữ liệu được
thể hiện trong hình 1.1
Hình 1.1 Quan hệ giữa nguồn dữ liệu và kho dữ liệu
1.5 Ưu thế của khai phá dữ liệu
Trước khi khai phá dữ liệu xuất hiện, đã có những phương pháp khác
nhằm khai thác các thông tin có ích từ cơ sở dữ liệu như máy học, thống kê.
Tuy nhiên, khai phá dữ liệu có những ưu thế hơn hẳn chúng. Các phân tích
dưới đây sẽ giải thích điều này.
1.5.1 Máy học
Mặc dù đã có những cố gắng nhằm cải tiến các phương pháp máy học
để cho phù hợp với mục đích khai phá dữ liệu nhưng sự khác biệt giữa cách
thiết kế, các đặc điểm của cơ sở dữ liệu làm cho phương pháp máy học trở
nên kém hiệu quả với mục đích này.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
7
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
8
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu
trúc trong cơ sở dữ liệu. Ngoài ra với một cơ sở dữ liệu lớn với nhiều
trường, ví dụ như cơ sở dữ liệu bảng điểm của sinh viên thì các kết quả của
phân tích thống kê sẽ rất lớn, do đó rất khó có thể khai thác có hiệu quả.
Mặt khác, các kết quả này đòi hỏi phải có những chuyên gia phân tích trong
từng lĩnh vực, tiêu tốn nhiều nhân lực với chi phí lớn và hiệu quả không
cao.
Khác với thống kê cổ điển, khai phá dữ liệu có ưu điểm tự động hóa quá
trình thống kê một cách có hiệu quả , làm giảm khối lượng công việc của
người dùng đầu cuối. Công việc phân tích cũng được thực hiện một cách tự
động, khiến cho độ chính xác được nâng cao và rút ngắn thời gian phân
tích, đồng thời tiết kiệm chi phí nhân lực bỏ ra.
1.6 Ứng dụng của khai phá dữ liệu
Hiện nay có khá nhiều các ứng dụng của khai phá dữ liệu và KDD được
triển khai, đem lại hiệu quả cao trong thực tế, phục vụ cho sản xuất kinh
doanh và nghiên cứu khoa học.
Trong khoa học, một trong những ngành ứng dụng chính là thiên văn
học. Hệ thống SKICAT dùng để phân tích ảnh, phân loại và xếp nhóm các
vật thể không gian từ các ảnh quan sát vũ trụ. Hệ thống này được dùng để
xử lý 3 terabytes dữ liệu ảnh từ Đài thiên văn Palomar, với khoảng 1 tỉ vật
thể không gian phát hiện được. SKICAT có thể làm được những công việc
tính toán cực lớn trong việc phân loại các ảnh vật thể không rõ ràng[7]
Trong kinh doanh, các ứng dụng chính của KDD bao gồm tiếp thị, tài
chính (đặc biệt là đầu tư), phát hiện gian lận, sản xuất, viễn thông và các
Internet agent (tác tử).
Tiếp thị: ứng dụng chính là hệ thống CSDL tiếp thị, phân tích các dữ
liệu khách hàng để phân loại các nhóm khách hàng khác nhau và dự báo về
sở thích của họ.
liệu khách hàng vay nợ của một ngân hàng, trong trường hợp dự
đoán phân loại, kết quả trả về là khách hàng có khả năng trả nợ
hay không; còn với trường hợp dự đoán giá trị, kết quả trả về là
mức độ lợi nhuận hay thua lỗ của khoản nợ trên. Chuỗi thời gian
là một vấn đề đặc biệt của dự đoán, với các giá trị của một thuộc
tính được thu thập theo thời gian, ví dụ như số tiền trả nợ hằng
tháng được ghi nhận và khảo sát.
• Luật liên kết và phân tích các mối liên hệ : Ngôn ngữ của các cơ
sở dữ liệu là một dạng logic với các mệnh đề ở dạng đúng-sai. Ví
dụ, tìm các bản ghi trong đó tiền nợ đã được thanh toán, và biểu
diễn kết quả ở dạng logic, chẳng hạn “Tiền nợ được thanh toán với
độ tin cậy 90% khi khách hàng có thu nhập cao và có việc làm ổn
định”. Đây là các mối liên hệ dưới dạng luật quyết định.
• Gộp nhóm : được dùng để tìm ra các tập hợp các bản ghi tương tự
nhau trong dữ liệu mà không có điều kiện gì hạn chế. Trên thực tế,
gộp nhóm thường được dùng để xác định các nhóm khách hàng
chưa được nhận biết trước đây. Ví dụ như xác định các điểm tương
Nguyễn Tiến Thành – Công nghệ phần mềm K44
11
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
đồng của thói quen sử dụng internet, để nghĩ ra một loại hình dịch
vụ internet mới.
2.2 Chuẩn bị dữ liệu
Giai đoạn chuẩn bị dữ liệu là bước thứ hai của quá trình khai phá dữ
liệu. Hai mục tiêu chính của giai đoạn này là :
- Tổ chức lại dữ liệu vào một dạng chuẩn, tạo nguồn dữ liệu cho
chương trình khai phá dữ liệu xử lý .
- Chuẩn bị các thông tin cần thiết sao cho phù hợp với mục tiêu của
quá trình khai phá dữ liệu
2.2.1 Dạng chuẩn
V
i,1
V
i,k
C
n
V
n,1
V
n,k
Hình 2.1 Định dạng dữ liệu bảng
2.2.1.1 Các giá trị chuẩn
Dạng bảng ở hình 2.1 là một dạng chuẩn khi các thuộc tính được hạn
chế ở những kiểu nhất định. Các giá trị của mỗi trường hợp phải phù hợp
với các kiểu giá trị đã định trước. Có hai kiểu giá trị, đều được mã hóa dưới
dạng số, do đó tất cả các giá trị V
i,j
đều là con số.
• Giá trị đúng-sai (true or false) : Các giá trị này được mã hóa bằng số
1 cho giá trị true và số 0 cho giá trị false. Ví dụ như với một bảng
các hợp đồng làm ăn của một công ty, trường hợp công ty X, cột i là
thuộc tính “thanh toán”, nhận giá trị 1 nếu hợp đồng đã được thanh
toán, giá trị 0 nếu chưa được thanh toán.
• Giá trị phân loại : Các giá trị có ý nghĩa với việc phân loại dạng
X>Y. Một giá trị có thể là số tự nhiên, số thực như số năm kinh
doanh, hay số điểm của một môn học, nhiệt độ của một ngày.
Các giá trị dạng đúng-sai mô tả sự kiện khi một trong hai tình huống đối
lập xảy ra. Tuy nhiên trên thực tế, có thể có một số sự kiện có nhiều hơn 2
V
1,k
V
1,k+1
C
i
V
i,1
V
i,k
V
i,k+1
C
n
V
n,1
V
n,k
V
n,k+1
Hình 2.2 Dạng chuẩn
2.2.2 Biến đổi dữ liệu
Nhiệm vụ trung tâm của quá trình chuẩn bị dữ liệu là biến đổi các dữ
liệu thô sang dạng chuẩn. Đôi khi dữ liệu trong kho dữ liệu đã ở dạng
chuẩn, tuy nhiên với trường hợp dữ liệu này chưa ở dạng chuẩn thì cần phải
thực hiện bước định dạng dữ liệu để chuyển sang dạng chuẩn. Nhìn chung,
trong quá trình này cần thực hiện 2 công việc : chọn các thuộc tính và biến
đổi các thuộc tính. Quá trình biến đổi dữ liệu sang dạng chuẩn được mô tả
iv
10
)(
)('
=
(2.1)
Trong đó v(i) là giá trị thuộc tính v của trường hợp i, k là số nguyên
nhỏ nhất sao cho max(|v’(i)|) <1. Cách phân lớp này giữ cho giá trị
trong khoảng [-1,1]. Đầu tiên, tìm giá trị lớn nhất của v(i) trong dữ
liệu, từ đó xác định số chia 10
k
sao cho giá trị v’(i) luôn nhỏ hơn 1.
Số chia này sẽ được áp dụng với tất cả các v(i) trong dữ liệu. Ví dụ,
nếu giá trị lớn nhất là 903 thì sẽ được chuyển thành 0.903 và số chia
cho tất cả v(i) là 1000.
- Độ lệch tiêu chuẩn : giá trị mới v’(i) được tính theo công thức sau:
σ
)()(
)('
vEiv
iv
−
=
(2.2)
Trong đó E(v) là giá trị trung bình của v, σ là độ lệch tiêu chuẩn.
Các giá trị này được tính từ tập dữ liệu bằng phương pháp xác xuất
thống kê.
2.2.2.2 Làm mịn dữ liệu
Với một thuộc tính dạng số có thể nhận những giá trị khác xa nhau, đôi
khi mỗi trường hợp(bản ghi) có một giá trị. Trong hầu hết các ứng dụng, sự
i
}
Repeat
num := số giá trị đơn trong {v
i
}
If num ≤ max then ra khỏi vòng lặp
s := s+1
For each giá trị trong tập {v
i
}
If là giá trị âm then nhân với –1
Làm tròn bằng công thức (2.3) với k = s
Chuyển thành giá trị âm nếu cần thiết;
Next giá trị tiếp
Forever
Đưa ra tập giá trị đã được làm tròn {v
i
}
Phương pháp phân lớp:
Các giá trị được sắp xếp theo thứ tự từ nhỏ đến lớn, được phân vào các
“thùng chứa”. Tiếp đó, các giá trị ở mỗi thùng sẽ được làm mịn bằng giá trị
trung bình hoặc bằng giá trị biên. Ví dụ ta có dãy các giá trị như sau
P= {1, 1, 2, 3, 3, 3, 4, 4, 5, 7}
Các giá trị này được đưa vào 3 “thùng chứa”:
Nguyễn Tiến Thành – Công nghệ phần mềm K44
17
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
,7 ,4 4,4
2.2.3 Dữ liệu thiếu
Dạng chuẩn là một bảng các giá trị dạng số, do đó có thể có một số giá
trị bị thiếu. Đặc biệt với những dữ liệu lớn, số bản ghi bị thiếu giá trị
thường tương đối lớn. Do đó, vấn đề ở đây là phải bố sung các giá trị thiếu
này bằng phương pháp dự đoán. Có hai giải pháp cho vấn đề này
Phương pháp thứ nhất là phương pháp toán học, sử dụng kỹ thuật ngoại
suy các giá trị thiếu, có thể chọn một trong ba cách sau:
- Thay thế giá trị thiếu bằng một hằng số chuẩn
- Thay thế giá trị thiếu bằng giá trị trung bình cùng thuộc tính
- Thay thế giá trị thiếu bằng giá trị trung bình cùng thuộc tính và lớp
Phương pháp này có ưu điểm là đơn giản, nhưng có hạn chế là giá trị thay
thế không phải giá trị đúng hoàn toàn. Nếu thay thế giá trị thiếu bằng một
hằng số hoặc một vài giá trị định trước sẽ làm cho dữ liệu mất tính khách
quan. Ví dụ nếu giá trị thiếu được thay thế bằng trung bình của thuộc tính
cùng lớp sẽ làm cho các giá trị này hội tụ vào một tập tương ứng với lớp có
số trường hợp bị thiếu lớn nhất. Cụ thể với dữ liệu khám bệnh, có trường
hợp không cần thực hiện một loại xét nghiệm vì đã có chẩn đoán bệnh.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
18
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
Nhưng điều này không dẫn tới việc luôn chẩn đoán bệnh nhân mắc chứng
bệnh đó vì thiếu xét nghiệm trên.
Phương pháp thứ hai là phương pháp logic, thường sử dụng các kỹ thuật
cây quyết định hoặc luật quyết định. Phương pháp này tỏ ra có ưu thế hơn
phương pháp toán học do tập luật được xây dựng trên dữ liệu thực, vì thế
kết quả có độ tin cậy cao hơn.
2.3 Rút gọn dữ liệu
Sau quá trình chuẩn bị, dữ liệu đã được chuyển về dạng bảng chuẩn.
Với các tập dữ liệu có kích thước vừa phải thì dữ liệu này đã sẵn sàng cho
tương đối nhanh và làm giảm đáng kể kích thước tập dữ liệu cần xử lý.
Mục đích của việc lựa chọn thuộc tính là tìm ra tập các thuộc tính có
khả năng dự đoán tốt nhất. Để thực hiện, có thể sử dụng một số phương
pháp sau :
• Lựa chọn thuộc tính từ giá trị trung bình : Các trường hợp thuộc
những lớp khác nhau được khảo sát. Giá trị trung bình của thuộc tính
cần xem xét sẽ được so sánh. Nếu giá trị này khác xa nhau thì thuộc
tính được coi là có ý nghĩa phân loại giữa các lớp và được lựa chọn.
Nhưng nếu các giá trị này tương đương thì ý nghĩa phân loại của
thuộc tính là kém, do đó thuộc tính đó sẽ bị loại bỏ.[4]
• Lựa chọn thuộc tính dùng cây quyết định : Sử dụng cây quyết định
để phân loại các thuộc tính. Các thuộc tính nằm trong cấu trúc cây
quyết định sẽ được lựa chọn. Thuộc tính nào không được đưa vào
cây quyết định sẽ bị loại bỏ, do thuộc tính đó có ảnh hưởng không
lớn đến kết quả.
2.3.2 Lựa chọn các trường hợp
Cách tiếp cận chính để làm giảm số trường hợp cần xử lý là lấy mẫu
ngẫu nhiên. Thay vì tiến hành khai phá trên tập toàn bộ các trường hợp, các
mẫu ngẫu nhiên được thu thập. Có hai cách để lấy mẫu :
Nguyễn Tiến Thành – Công nghệ phần mềm K44
20
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
- Mẫu tăng dần
- Mẫu trung bình
2.3.2.1 Mẫu tăng dần
Phương pháp này tiến thử nghiệm với một tập mẫu lấy từ dữ liệu nguồn,
dùng mẫu này để đánh giá hiệu quả. Tiếp theo lấy các mẫu với số lượng
trường hợp tăng dần và so sánh độ hiệu quả với tập mẫu trước đó. Nếu hiệu
quả được cải thiện thì tiếp tục quá trình lấy mẫu, ngược lại quá trình sẽ
dừng. Ví dụ các tập mẫu tăng dần có thể là 10%, 20%, 33%, 50%, 67%
Tăng
Tăng
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
Hình 2.4 Lấy mẫu tăng dần và khai phá dữ liệu
2.3.2.2 Mẫu trung bình
Một kho dữ liệu có thể chứa rất nhiều trường hợp, đến mức vượt quá
khả năng xử lý của chương trình khai phá. Giải pháp ở đây là nếu chương
trình chỉ có khả năng xử lý N trường hợp thì không tiến hành khai phá với
một mẫu có N trường hợp mà sẽ lấy k mẫu, mỗi mẫu có N trường hợp để
xử lý. Từ k kết quả thu được, lấy trung bình hoặc lựa chọn để có kết quả
cuối cùng. Hình 2.5 mô tả quá trình kết hợp các kết quả từ các mẫu khác
nhau.
Hình 2.5 Kết hợp các kết quả từ các mẫu khác nhau
Nguyễn Tiến Thành – Công nghệ phần mềm K44
22
.
.
.
Mẫu
1
Mẫu
2
Mẫu
k
Xử lý
Kết quả
1
Kết quả
1
Kết quả
không sử dụng các dữ liệu xây dựng và kiểm thử khác nhau, độ chính xác
của mô hình sẽ bị đánh giá quá cao. Sau khi mô hình được xây dựng và
kiểm thử, sự chênh lệch của giữa các kết quả là thước đo đánh giá mức độ
hiệu quả của mô hình với các dữ liệu mới có những điểm tương đồng với
dữ liệu hiện tại.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
23
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
2.5 Triển khai mô hình và thu thập kết quả
Sau khi mô hình đã được xây dựng và kiểm tra, nó sẽ được sử dụng để
tìm ra các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa
đó. Các mẫu này phải có khả năng sử dụng tiềm tàng, tức là sau khi xử lý
phải dẫn đến những hành động có ích nào đó, được đánh giá bởi một hàm
lợi ích. Ví dụ như trong dữ liệu các khoản vay, hàm lợi ích đánh giá khả
năng tăng lợi nhuận từ các khoản vay. Mẫu khai thác được phải có giá trị
với các dữ liệu mới với độ chính xác nào đó.
Với các giải thuật và các nhiệm vụ của khai phá dữ liệu rất khác nhau,
các mẫu chiết xuất được cũng rất đa dạng. Mẫu chiết xuất được có thể là
một mô tả xu hướng, một hành động ví dụ yêu cầu người dùng làm gì với
kết quả khai thác từ dữ liệu. Dạng của mẫu chiết xuất được có thể được
phân loại bởi kiểu mẫu dữ liệu mà nó mô tả. Các mẫu có thể liên quan đến
các giá trị của các trường trong cùng một bản ghi, ví dụ: Nếu độ ẩm >85%
thì dự báo= trời mưa. Các mẫu cũng có thể liên quan đến các giá trị tổng
hợp từ một nhóm các bản ghi ví dụ như các khách hàng lớn tuổi thường
thích mua quần áo mầu xám, hoặc xác định những phần có ích ví dụ nhóm
các mặt hàng kinh doanh có lãi.
Mặc dù các mẫu có thể được chiết xuất từ bất kỳ cơ sở dữ liệu nào
nhưng chỉ có những mẫu mới, có ích là đáng được xem xét.
Sau khi ứng dụng mô hình cần phải đánh giá độ hiệu quả của nó. Mặc
dù mô hình có thể làm việc tốt với những dữ liệu hiện tại nhưng vẫn phải