Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định - Pdf 25

2
Mục lục
Mục lục 2
Mở đầu 4
Chương 1 Tổng quan về công nghệ khai phá tri thức và kho dữ liệu 5
1.1 Công nghệ khai phá tri thức và khai phá dữ liệu 5
1.1.1 Khai phá tri thức và khai phá dữ liệu. 5
1.1.2 Quá trình khai phá tri thức 6
1.1.3 Nhiệm vụ khai phá dữ liệu 7
1.2 Kho dữ liệu 13
1.2.1 Kho dữ liệu và một số đặc điểm 13
1.2.2 Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu tác nghiệp 15
1.2.3 Kiến trúc chung của kho dữ liệu 19
Chương 2 Tiền xử lý dữ liệu, một công đoạn quan trọng trong quá trình KDD 25
2.1 Giới thiệu 25
2.2 Làm sạch dữ liệu 26
2.2.1 Giá trị bị mất 26
2.2.2 Dữ liệu bị nhiễu 27
2.2.3 Dữ liệu không nhất quán 29
2.3 Tích hợp và chuyển đổi dữ liệu 29
2.3.1 Tích hợp dữ liệu 29
2.3.2 Chuyển đổi dữ liệu 31
2.4 Thu gọn dữ liệu 32
2.4.1 Kết hợp khối dữ liệu. 32
2.4.2 Thu gọn các chiều 34
2.4.3 Nén dữ liệu 36
2.4.4 Giảm bớt số lượng 36
2.5 Rời rạc hóa và tổng quát hóa bậc khái niệm. 37
2.5.1 Tổng quát hóa và rời rạc hóa bậc khái niệm cho dữ liệu kiểu số 37

5.2 Mô tả dữ liệu nghiệp vụ. 79
5.2.1 Chuẩn bị dữ liệu cho ứng dụng 79
5.2.2 Lựa chọn dữ liệu cho ứng dụng 80
5.3 Các tham số xây dựng mô hình cho thuật toán cây quyết định 82
5.4 Xây dựng mô hình 83
5.4.1 Xây dựng và kiểm thử mô hình 83
5.4.2 Nhận xét 88
Kết luận 89
1. Kết quả đạt được của luận văn 89
2. Phương hướng nghiên cứu tiếp theo 89
Tài liệu tham khảo 91 4

Mở đầu
Trong vài thập niên trở lại đây, với sự phát triển mạnh mẽ của công nghệ phần
cứng, đã tạo ra những máy tính có năng lực xử lý nhanh, khả năng lưu trữ lớn. Cùng
với việc tin học hóa mạnh mẽ trong hầu hết các lĩnh vực của đời sống xã hội nên
các tổ chức đã thu thập được một khối lượng dữ liệu lớn. Nhiều hệ quản trị cơ sở dữ
liệu đi cùng với các giải pháp lưu trữ và các công cụ phân tích dữ liệu mạnh đã giúp
chúng ta khai thác một cách hiệu quả nguồn tài nguyên dữ liệu quý báu đã thu thập
được.
Tuy nhiên, vấn đề mà chúng ta đang gặp phải là dữ liệu được thu thập và lưu trữ

các thuật toán khai phá dữ liệu cụ thể, có thể thực hiện được với khả năng có hạn
của máy tính, để tìm ra các mẫu hay mô hình trong dữ liệu. Nói một cách khác, mục
tiêu chung của KDD và DM là tìm ra các mẫu, các mô hình mà ta quan tâm, tồn tại
trong cơ sở dữ liệu nhưng đang bị che lấp.
KDD được phát triển nhanh chóng cùng với các lĩnh vực có liên quan như quản
trị cơ sở dữ liệu, thống kê, học máy và tính toán song song và hiệu năng cao, thu
nhận tri thức cho các hệ chuyên gia, trực quan hóa dữ liệu. Các lĩnh vực này đều có
một mục đích chung là chắt lọc (extract) tri thức từ dữ liệu trong các cơ sở dữ liệu
lớn.
Các lĩnh vực học máy, nhận dạng mẫu và KDD đều có cùng mục đích nghiên
cứu lý thuyết và giải thuật cho các hệ thống nhằm tìm ra các mẫu và các mô hình
bên trong dữ liệu (là những phương pháp khai phá dữ liệu chính). Khai phá tri thức
tập trung vào việc mở rộng lý thuyết và giải thuật cho những bài toán tìm kiếm mẫu
đặc biệt (có thể được hiểu theo nghĩa tri thức có ích hay được quan tâm) trong
những tập dữ liệu lớn của thế giới thực.
KDD cũng có nhiều điểm chung với các phương pháp thống kê, đặc biệt là
phân tích dữ liệu có tính chất thăm giò (EDA). Những hệ thống KDD thường được
nhúng vào bên trong những thủ tục thống kê một cách riêng biệt, để mô hình hóa dữ 6
liệu và kiểm soát nhiễu, những thủ tục này đóng vai trò là một thành phần trong kết
cấu tổng thể của hệ khám phá tri thức.
1.1.2 Quá trình khai phá tri thức
Quá trình khai phá tri thức thông thường gồm có một số bước cơ bản [3], như hình
1.1:
- Tìm hiểu ứng dụng và hình thành bài toán. Bước này hiển nhiên là điều kiện
đầu tiên đối với việc chắt lọc các tri thức hữu dụng và để lựa chọn phương
pháp khai phá dữ liệu thích hợp ở bước thứ ba phù hợp với mục tiêu của ứng
dụng và bản chất của dữ liệu.
Hình 1.1 Quá trình khai phá tri thức.

Có một điều cần phải lưu ý là không gian các mẫu thường là vô hạn, và để
liệt kê ra được các mẫu cần phải có một số hình thức nghiên cứu trong không gian
này. Hiệu quả của sự tính toán bị ràng buộc bởi việc giới hạn không gian con tìm
kiếm mà có thể thực hiện được bằng thuật toán.
1.1.3 Nhiệm vụ khai phá dữ liệu
Để nhiệm vụ khai phá dữ liệu được thực hiện một cách thuận lợi, hiệu quả và
thành công người ta phải luôn quan tâm đến một số các yếu tố, bao gồm: các đặc tả
về một phần của cơ sở dữ liệu hay một tập dữ liệu mà người sử dụng quan tâm; loại
tri thức để khai phá; các tri thức nền giúp ích cho việc định hướng quá trình khai
Nhận dạng và
định nghĩa vấn đề
Thu nhận và
tiền xử lý dữ liệu
KHAI PHÁ DỮ LIỆU
Chắt lọc tri thức
Giải thích và
đánh giá kết quả
Sử dụng tri thức đã
khai phá được 8
phá; đánh giá sự quan tâm với mẫu tìm được…Dưới đây chúng ta sẽ xem xét một số
những yếu tố đó [4].
1.1.3.1 Dữ liệu liên quan đến nhiệm vụ khai phá.
Yếu tố đầu tiên là đặc tả về dữ liệu mà chúng ta thực hiện khai phá trên nó.

liệu thô được kiểm soát ở mức độ trừu tượng cao và khái quát hơn. Quá trình khái
quát dữ liệu được thực hiện bằng cách thay thế dữ liệu gốc bằng dữ liệu có mức
khái niệm cao hơn. Điều này cho phép người sử dụng quan sát dữ liệu với ý nghĩa
đầy đủ hơn, minh bạch hơn và làm cho những mẫu tìm được dễ hiểu hơn.
Những thứ bậc khái niệm này có thể được cung cấp bởi những người sử dụng
hệ thống, các chuyên gia lĩnh vực, hoặc các kỹ sư tri thức. Chúng còn có thể tự
động được khai phá hoặc cải tiến một cách linh hoạt dựa vào phân tích thống kê
phân bố của dữ liệu.
1.1.3.4 Độ đo sự lôi quấn
Việc chỉ rõ dữ liệu liên quan và loại tri thức sẽ khai phá về cơ bản đã làm
giảm số lượng của những mẫu sinh ra. Tuy nhiên, quá trình khai phá dữ liệu vẫn
sinh ra một số lượng lớn các mẫu. Thông thường, chỉ có một phần nhỏ trong những
mẫu này thực sự được quan tâm bởi những người sử dụng cụ thể. Vì thế, người sử
dụng cần phải hạn chế hơn nữa số lượng của những mẫu không được quan tâm sinh
ra quá trình khai phá. Điều này thu được bằng cách chỉ ra độ đo sự lôi quấn để đánh
giá tính dễ hiểu, sự chắc chắn, sự có lợi và tính mới lạ của những mẫu thu được.
Thông thường, mỗi độ đo được kết hợp với một ngưỡng, và người sử dụng có thể
điều chỉnh được ngưỡng này, những luật không phù hợp với ngưỡng được xem là
không đáng chú ý. Dưới đây chúng ta sẽ xem khái quát về một số độ đo mục tiêu
này.
Tính dễ hiểu: Một nhân tố góp phần vào sự quan tâm của một mẫu là làm
cho con người nhận thức được các mẫu một cách dễ dàng. Tính dễ hiểu được định
nghĩa dưới dạng kích thước của các mẫu tính bằng bit, hoặc số lượng các thuộc tính
hay các toán hạng xuất hiện trong mẫu. Ví dụ, một mẫu có cấu trúc phức tạp hơn thì
sẽ khó hiểu hơn vì thế nó kém lôi quấn hơn.
Độ chắc chắn: Mỗi một mẫu đã được tìm ra đều có một độ đo về sự chắc
chắn gắn liền với chúng. Độ đo này đánh giá tính hiệu lực hay tính đáng tin cậy của 10

Ví dụ: Cho một tập các bản ghi về dữ liệu bán hàng của một công ty máy
tính. luật kết hợp có sự ủng hộ là 30% nghĩa là có 30% trong tổng số các khách
hàng mua cả máy tính và phần mềm.
1.1.3.5 Biểu diễn các mẫu đã tìm ra.
Để việc khai phá dữ liệu thêm hiệu quả, hệ thống khai phá dữ liệu nên có khả
năng thể hiện những mẫu đã được phát hiện dưới nhiều hình thức khác nhau, như
các luật, các bảng tổng hợp, biểu đồ, cây quyết định hay các biểu diễn trực quan
khác. Việc cho phép thể hiện các mẫu đã được phát hiện dưới nhiều hình thức khác
nhau giúp người sử dụng với những kinh nghiệm khác nhau nhận ra các mẫu đáng
quan tâm và để tác động hay định hướng cho hệ thống trong những lần khai phá tiếp 11
sau. Một người sử dụng cũng có thể chỉ rõ hình thức thể hiện sẽ được sử dụng cho
việc hiển thị những mẫu đã được phát hiện.
Sự cần thiết phải có KDD
Có rất nhiều lý do khiến chúng ta cần phải có KDD, một số lý do tiêu biểu đó là
[3]:
- Nhiều tổ chức, trong một thời gian dài đã thu thập được một lượng lớn dữ
liệu, họ phải làm gì với những dữ liệu này.
- Người ta thu thập và lưu trữ dữ liệu vì nghĩ rằng có thể thu được những
thông tin có giá trị từ những dữ liệu này.
- Trong kinh doanh, thu giữ các dữ liệu về thị trường, đối thủ cạnh tranh và về
khách hàng. Trong các ngành sản xuất, thu giữ các dữ liệu về hiệu suất, tối
ưu hóa các cơ hội, cũng như nguyên tắc cải tiến các quy trình và các rắc rối
gặp phải.
- Chỉ có một lượng nhỏ dữ liệu đã thu thập được phân tích.
- Với ý nghĩ tiếp tục thu thập dữ liệu để không bỏ qua điều gì đó quan trọng,
mà dữ liệu này lại không được phân tích gây ra tốn kém.
- Các phương thức phân tích dữ liệu cổ điển tỏ ra không còn mấy phù hợp khi

được chọn trong một ứng dụng cơ sở dữ liệu cụ thể có thể bị thay đổi, bị xóa,
hay được thêm vào. Giải pháp có thể sử dụng là tăng cường phương thức cho
việc cập nhật các mô hình và xem sự thay đổi như là một cơ hội cho việc
khám phá bằng cách sử dụng chúng một cách thích hợp để chỉ tìm phải kiếm
lại cho các mô hình bị thay đổi.
- Dữ liệu bị nhiễu và bị mất: Vấn đề này đặc biệt hay xảy ra trong các cơ sở
dữ liệu thương mại, dữ liệu của các thuộc tính quan trọng có thể bị mất nếu
cơ sở dữ liệu không được thiết kế để dành cho mục đích khai phá. Để giải
quyết vấn đề này chúng ta phải tăng cường sử dụng những chiến lược thống
kê phức tạp để phát hiện ra những trường thông tin ẩn và sự phụ thuộc giữa
chúng. 13
- Các trường có quan hệ phức tạp: Cấu trúc phân cấp của các thuộc tính, giá
trị, quan hệ giữa các thuộc tính và nhiều phương thức phức tạp để biểu diễn
tri thức về nội dung của cơ sở dữ liệu đòi hỏi thuật toán phải sử dụng thông
tin có hiệu quả. Trước đây, các thuật toán về khai phá dữ liệu được phát triển
cho những thuộc tính có giá trị đơn, gần đây những kỹ thuật xuất phát từ các
quan hệ giữa các thuộc tính cũng đã được phát triển.
- Tính hiểu được của các mô hình: Trong rất nhiều ứng dụng, việc tìm ra được
điều gì dễ hiểu hơn đối với con người là rất quan trọng. Có thể biểu diễn
bằng đồ thị, ngôn ngữ tự nhiên, và các kỹ thuật cho việc trực quan hóa dữ
liệu và tri thức.
- Tương tác người sử dụng và tri thức ưu tiên: Rất nhiều công cụ và phương
pháp KDD hiện tại không thực sự tương tác và không thể dễ dàng với tri thức
ưu tiên của về một vấn đề ngoại trừ cách đơn giản sau: Việc sử dụng miền tri
thức là rất quan trọng trong tất cả các bước của quá trình KDD.
- Tương tác với các hệ thống khác: Một hệ thống khai phá đứng một mình có
thể không thực sự hữu ích, thông thường vấn đề tích hợp bao gồm tích hợp

không có ích trong qúa trình hỗ trợ ra quyết định.
 Được tích hợp: Một kho dữ liệu thường được xây dựng bằng cách tích hợp từ
nhiều nguồn hỗn tạp, như cơ sở dữ liệu quan hệ, tệp dữ liệu, các bản ghi giao
dịch trực tuyến. Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng để
đảm bảo tính nhất quán trong các quy ước đặt tên, cấu trúc mã hóa, độ đo
thuộc tính vv vv.
 Khác nhau về thời gian: Dữ liệu được lưu trữ để cung cấp thông tin từ một
bối cảnh mang tính lịch sử (ví dụ đã xảy ra từ 5 đến 10 năm). Tất cả các cấu
trúc then chốt trong kho dữ liệu đều mang yếu tố thời gian một cách rõ ràng
hoặc không rõ ràng.
 Không hay thay đổi: Dữ liệu đã được biến đổi trong kho dữ liệu luôn được
lưu trữ một cách độc lập vật lý với những dữ liệu ứng dụng tìm thấy trong
môi trường tác nghiệp. Chính tại sự phân tách ấy, một kho dữ liệu không đòi
hỏi phải xử lý giao dịch, khôi phục và các cơ chế điều khiển tương tranh. Nó 15
chỉ thường yêu cầu hai thao tác trong truy nhập dữ liệu đó là: khởi tạo nạp dữ
liệu và truy nhập dữ liệu.
Như vậy, một kho dữ liệu có thể được xem như là một kiến trúc, được xây dựng
bằng việc tích hợp dữ liệu từ nhiều nguồn khác nhau để hỗ trợ các cấu trúc và/hoặc
những truy vấn đặc biệt, báo cáo phân tích và ra quyết định.
Vậy chúng ta sử dụng thông tin của những kho dữ liệu này như thế nào? Có rất
nhiều tổ chức sử dụng những thông tin này để hỗ trợ cho hoạt động ra quyết định
kinh doanh bao gồm: tăng sự tập trung vào khách hàng; lưu trữ các sản phẩm, quản
lý danh mục các sản phẩm bằng cách so sánh năng suất bán hàng theo tháng, quý
hay năm…; Phân tích hiệu quả và tìm kiếm các nguồn lợi; Quản lý quan hệ với
khách hàng, tạo ra môi trường bền vững, quản lý giá trị các tài sản liên doanh….
Kho dữ liệu đồng thời cũng rất hữu ích khi xét từ khía cạnh nó được tích hợp từ
nhiều nguồn dữ liệu khác nhau. Các tổ chức thường tập hợp nhiều loại dữ liệu và

lượng lớn những dữ liệu trước đây, cung cấp một phương tiện dễ dàng để kết
hợp, tổng kết, lưu trữ và quản lý thông tin ở những mức khác nhau. Đó chính
là những đặc điểm làm cho dữ liệu dễ dàng được sử dụng vào việc ra quyết
định.
- Thiết kế cơ sở dữ liệu : Hệ OLTP thường được thiết kế theo một mô hình
dữ liệu quan hệ thực thể và một thiết kế cơ sở dữ liệu hướng ứng dụng. Hệ
OLAP thường theo mô hình hình sao (star) hay bông tuyết (snowflake) và
thiết kế cơ sở dữ liệu hướng chủ đề.
- Loại dữ liệu: Một hệ thống OLTP tập trung chủ yếu vào dữ liệu hiện hành
bên trong một xí nghiệp hay một phòng ban, mà không tham chiếu đến dữ
liệu trong quá khứ hay dữ liệu của các tổ chức khác. Ngược lại, hệ thống
OLAP thường được mở rộng bằng nhiều phiên bản của một lược đồ cơ sở dữ
liệu nhờ có tiến trình phát triển của tổ chức. Hệ thống OLAP đồng thời cũng
xử lý được những thông tin bắt nguồn từ những tổ chức khác, tích hợp thông
tin từ nhiều nguồn lưu trữ dữ liệu. Bởi vì kích thước rất lớn của nó, dữ liệu
của hệ OLAP thường được lưu trữ trên nhiều phương tiện lưu trữ khác nhau.
- Kiểu truy nhập: Kiểu truy nhập của hệ thống OLTP chủ yếu bao gồm
những giao dịch ngắn và nguyên tố (nhỏ nhất, không thể phân chia được 17
nữa), nên nó đòi hỏi cơ chế điều khiển tương tranh và khôi phục. Tuy nhiên,
truy nhập trong hệ thống OLAP hầu hết là các thao tác chỉ đọc (bởi vì kho dữ
liệu lưu trữ những dữ liệu trước đây mà không lưu những thông tin hiện
hành), nhưng có thể có rất nhiều những truy vấn phức tạp.
Một số những đặc điểm khác dùng để phân biệt OLTP và OLAP được tổng kết ở
bảng sau: 18

Sự tổng kết
Nguyên bản, chi tiết cao
Được tóm tắt và hợp nhất
Đơn vị công việc
Giao dịch đơn giản, ngắn
gọn
Truy vấn phức tạp
Truy nhập
Đọc/ghi
Hầu hết chỉ đọc
Tập trung
Dữ liệu vào
Thông tin ra
Thao tác
Sắp xếp chỉ số trên khóa
chính
Duyệt trên rất nhiều dữ liệu
Số lượng truy nhập bản
ghi
Khoảng 10
Hàng triệu
Số lượng người sử dụng
Hàng nghìn
Hàng trăm
Cỡ của cơ sở dữ liệu
Từ 100 MB đến GB
Từ 100 GB đến TB
Sự ưu tiên
Hiệu năng, tính sẵn sàng cao
Tính mềm dẻo cao, người dùng

không thuần nhất, mang lại dữ liệu có chất lượng cao, được tính hợp và làm sạch.
Ngược lại cơ sở dữ liệu tác nghiệp chỉ lưu chữ dữ liệu dạng thô, và rất chi tiết, nên
cần thiết phải hợp nhất trước khi phân tích. Từ những lý do này chúng ta thấy hai hệ
thống có chức năng hoàn toàn khác nhau nên yêu cầu những loại dữ liệu khác nhau,
nó thể hiện việc cần thiết phải duy trì cơ sở dữ liệu riêng biệt. Tuy nhiên nhiều nhà
cung cấp các hệ quản trị cơ sở dữ liệu tác nghiệp bắt đầu tập trung vào việc tối ưu
hệ thống này cho các truy vấn OLAP, như Oracle là một ví dụ điển hình, chúng ta
sẽ nghiên cứu những đặc điểm của cơ sở dữ liệu này trong Chương 4.

1.2.3 Kiến trúc chung của kho dữ liệu
Trong phần này chúng ta sẽ thảo luận một vài vấn đề có tính khái quát xoay
quanh kiến trúc của một kho dữ liệu. Từ việc thiết kế, xây dựng và mô hình kiến
trúc của kho dữ liệu [4]. 20
1.2.3.1 Các bước cho việc thiết kế và xây dựng kho dữ liệu
Để thiết kế một kho dữ liệu hiệu quả, chúng ta phải phân tích, hiểu những
nghiệp vụ cần thiết và xây dựng một cơ chế phân tích nghiệp vụ. Việc xây dựng
một hệ thống thông tin lớn và phức tạp có thể được xem như xây dựng một tòa nhà
lớn và phức tạp, trong đó chủ đầu tư, nhà thiết kế và nhà xây dựng đều có cái nhìn
khác nhau. Chính những điều này kết hợp lại tạo nên một cơ chế phức tạp để biểu
diễn cái nhìn từ dưới lên, từ trên xuống hay cái nhìn của nhà triển khai về một hệ
thống thông tin.
Có bốn cách nhìn cần phải xem xét khi thiết kế một kho dữ liệu [4], đó là:
 Cách nhìn từ trên xuống (top-down) cho phép lựa chọn những thông tin liên
quan cần thiết cho kho dữ liệu. Những thông tin này phù hợp với nhu cầu
công việc hiện tại và tương lai.
 Cách nhìn về nguồn dữ liệu cho thấy những thông tin thu được, lưu trữ và
quản lý bởi các hệ thống tác nghiệp. Những thông tin này có thể được cung

thiết kế tổng thể. Nó có ích trong trường chúng ta hợp thuần thục về mặt công nghệ
cũng như phải giải quyết một cách rõ ràng và có hiểu biết tốt về vấn đề nghiệp vụ.
Cách tiếp cận từ dưới lên bắt đầu với thử nghiệm và bản mẫu. Nó hữu ích trong giai
đoạn đầu của mô hình hóa nghiệp vụ và phát triển công nghệ. Nó cho phép một tổ
chức phát triển với chi phí thấp nhất và để đánh lợi ích mà công nghệ mang lại
trước khi đi đến những giao ước quan trọng. Cách tiếp cận mà kết hợp cả hai
phương pháp trên, một tổ chức có thể khai thác những kế hoạch và chiến lược theo
cách tiếp cận từ trên xuống trong khi vẫn duy trì việc triển khai nhanh chóng và cơ
hội ứng dụng theo cách tiếp cận từ dưới lên.
Xét từ khía cạnh của kỹ nghệ phần mềm, việc thiết kế và xây dựng một kho dữ
liệu có thể có nhiều bước như sau: Lập kế hoạch, nghiên cứu các yêu cầu, phân tích
vấn đề, thiết kế kho, kiểm thử và kết hợp dữ liệu, và cuối cùng là triển khai kho dữ
liệu.
1.2.3.2 Kiến trúc ba lớp của kho dữ liệu
Kho dữ liệu thường chấp nhận kiến trúc ba lớp, được trình bày ở hình 1.1[4]:
1. Lớp dưới là kho cơ sở dữ liệu phục vụ, thường là một hệ quản trị cơ sở dữ
liệu quan hệ. “Dữ liệu được chắt lọc như thế nào từ lớp này để tạo ra kho dữ
liệu?”. Dữ liệu từ cơ sở dữ liệu tác nghiệp và những nguồn khác được chắt 22
lọc bằng một giao diện ứng dụng được gọi là một cổng (gateway). Các cổng
này được hỗ trợ bởi hệ quản trị cơ sở dữ liệu ở bên dưới và cho phép chương
trình chạy trên máy khách sinh ra những câu lệnh SQL được thực hiện trên
một máy chủ, các cổng đó có thể bao gồm ODBC, OLE-DB, JDBC…
2. Lớp giữa là một máy phục vụ OLAP, khi triển khai thường sử dụng một
trong những loại sau: mô hình OLAP quan hệ hay còn gọi là ROLAP, nó là
phần mở rộng của hệ quản trị cơ sở dữ liệu quan hệ, dùng để ánh xạ những
thao tác trên dữ liệu nhiều chiều thành những thao tác theo chuẩn quan hệ;
Mô hình OLAP nhiều chiều, là một mô hình phục vụ với mục đích riêng biệt,

Phục vụ xử lý phân tích
trực tuyến (OLAP)
Lớp dưới:
Phục vụ kho dữ liệu
Giám sát
Quản trị
Kho dữ liệu
Data mart
Chắt lọc
Làm sạch
chuyển đổi
nạp
Làm tươi
Cơ sở dữ liệu tác nghiệp
Nguồn dữ liệu mở rộng
Dữ Liệu
Data mart thường được triển khai với chi phí thấp, máy chủ chạy trên nền
UNIX hoặc Windows. Đơn vị thời gian để triển khai data mart có thể tính
bằng tuần. Tuy nhiên, sau này rất khó khăn trong việc tích hợp nếu nó
không được hoạch định và thiết kế là một kho dữ liệu cấp xí nghiệp.
Tùy thuộc vào nguồn dữ liệu mà data mart được chia làm hai loại: Phụ
thuộc hay độc lập. Loại data mart độc lập bắt nguồn từ việc dữ liệu được
thu thập từ một hay nhiều hệ tác nghiệp hay các nguồn cung cấp thông tin
ở bên ngoài, hoặc từ dữ liệu được sản ra cục bộ bên trong một đơn vị hay
một vùng địa lý cụ thể. Loại data mart phụ thuộc bắt nguồn trực tiếp từ
kho dữ liệu cấp xí nghiệp.
 Kho dữ liệu ảo: Một kho dữ liệu ảo là một tập các view trên cơ sở dữ liệu
tác nghiệp. Để đạt hiệu quả khi xử lý truy vấn, chỉ một số các view thích
hợp mới được sử dụng, Kho dữ liệu ảo được xây dựng dễ dàng nhưng đòi
hỏi những máy chủ cơ sở dữ liệu tác nghiệp phải có khả năng vượt trội.
25 Chương 2 Tiền xử lý dữ liệu, một công đoạn quan trọng
trong quá trình KDD
2.1 Giới thiệu
Trong thực tế, không phải lúc nào dữ liệu mà chúng ta muốn phân tích bằng
những kỹ thuật khai phá dữ liệu cũng được đáp ứng một cách đầy đủ. Dữ liệu không
đầy đủ, nhiễu và không nhất quán là những vấn đề thường thấy của cơ sở dữ liệu
lớn. Dữ liệu không đầy đủ xảy ra bởi một số lý do, thuộc tính mà ta quan tâm không
phải lúc nào cũng có sẵn, một số dữ liệu được coi là không quan trọng trong quá
trình thu nhận thông tin, những dữ liệu liên quan không được ghi nhận do hiểu sai
vấn đề, hay bởi vì thiết bị thu nhận dữ liệu gặp sự cố….Dữ liệu không nhất quán
xảy ra khi có một số dữ liệu khác bị xóa hay bị thay đổi. Chúng ta phải thực hiện
việc xử lý dữ liệu ra sao để có thể cải thiện chất lượng của dữ liệu, tăng tính, hiệu
quả cũng như sự dễ dàng trong quá trình khai phá. Đây là một công đoạn chiếm
phần lớn thời gian trong quá trình khai phá dữ liệu.
Hiện nay có một số kỹ thuật tiền xử lý dữ liệu cơ bản đó là [4]: Làm sạch dữ
liệu được dùng để loại bỏ dữ liệu nhiễu và hiệu chỉnh dữ liệu không nhất quán; Tích
hợp dữ liệu để trộn dữ liệu ở từ nhiều nguồn khác nhau thành một lưu trữ dữ liệu
thống nhất, như kho dữ liệu là một ví dụ; Biến đổi dữ liệu dùng để chuẩn hóa dữ
liệu. Lấy ví dụ, chuẩn hóa làm tăng độ chính xác và hiệu quả của thuật toán khai
phá; Thu gọn dữ liệu dùng để làm giảm kích thước dữ liệu bằng cách kết hợp, loại
trừ những đặc điểm dư thừa…Những kỹ thuật xử lý dữ liệu này được đem áp dụng
trước quá trình khai phá dữ liệu sẽ làm tăng chất lượng của các mẫu tìm thấy và làm
giảm thời gian đòi hỏi khi khai phá dữ liệu thực sự.
Dưới đây chúng ta sẽ lần lượt thảo luận kỹ hơn về những kỹ thuật này.

được dùng với phương pháp hồi quy, những công cụ dựa vào suy luận sử dụng
quy nạp cây quyết định Ví dụ, sử dụng những thuộc tính khác trong tập dữ

Trích đoạn Giới thiệu công cụ khai phá dữ liệu Oracle Quá trình khai phá dữ liệu của Oracle Các thuật toán học có giám sát Các thuật toán học không giám sát Lựa chọn phương pháp phân lớp

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định - Pdf 25

Tài liệu, ebook tham khảo khác

Học thêm