Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam - Pdf 28

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THẾ VINH

ÁP DỤNG LUẬT KẾT HỢP TRONG KHAI PHÁ
DỮ LIỆU CHO DỮ LIỆU NGÂN HÀNG ĐẦU TƯ
VÀ PHÁT TRIỂN VIỆT NAM Ngành : CÔNG NGHỆ THÔNG TIN
Mã số : 1.01.10
LUẬN VĂN THẠC SỸ
Người hướng dẫn khoa học: PGS. TS. NGÔ QUỐC TẠO
LỜI MỞ ĐẦU 5
CHƯƠNG 1 KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 7
1.1 Khai phá dữ liệu 7
1.1.1 Tổng quan về khai phá dữ liệu 7
1.1.2 Nhiệm vụ chính của khai phá dữ liệu 8
1.1.3 Các dạng dữ liệu có thể khai phá 9
1.1.4 Kiến trúc hệ thống khai phá dữ liệu 10
1.1.5 Quá trình khai phá dữ liệu 10
1.1.6 Các thành phần khai phá dữ liệu 11
1.1.7 Một số phương pháp khai phá dữ liệu 12
1.1.9 Các ứng dụng của khai phá dữ liệu 18
1.1.10 Phân loại các hệ thống khai phá dữ liệu 18
1.1.11 Những khó khăn trong việc khai phá dữ liệu 19
2.2. Công nghệ khám phá tri thức (KDD). 20
2.2.1. Khám phá tri thức là gì? 20
2.2.2. Vai trò và các mục tiêu chính của KDD. 22
2.2.3. Quá trình phát hiện tri thức 23
CHƯƠNG 2 LUẬT KẾT HỢP 26
2.1 Một số định nghĩa về luật và luật kết hợp 26
2.2 Tính chất của luật kết hợp 28
2.2.1 Tính chất của tập mục phổ biến. 28
2.2.2 Các tính chất của luật kết hợp 28
2.3 Những đặc trƣng cơ bản của luật 29
2.3.1 Không gian tìm kiếm 29
2.3.2 Độ hỗ trợ 31
2.4 Những hƣớng tiếp cận chính 32
CHƯƠNG 3 MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU THEO PHƯƠNG PHÁP LUẬT KẾT
HỢP 35
3.1 Khai phá luật kết hợp boolean đơn chiều và đơn mức 35
3.1 .1 Thuật toán Apriori 35

Từ viết tắt
Cơ sở dữ liệu
Database
CSDL
Công nghệ thông tin
Information Technology
CNTT
Cở sở tri thức

CSTT
Khai phá tri thức trong dữ liệu
Knowledge Discovery in Data
KDD
Khai phá dữ liệu
Data Mining
KPDL
Khám phá tri thức
Knowledge Discovery
KPTT
Ngân hàng Đầu tư và Phát triển
Việt Nam
Bank for Investment and
Development of Viet Nam
BIDV

Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN

Bảng 2: Rời rạc hoá thuộc tính số rời rạc hữu hạn hoặc thuộc tính hạng mục 55
Bảng 3: Rời rạc hoá thuộc tính số “Lượng cholesterol trong máu” và “Tuổi” 55
Bảng 4: CSDL về khám và chuẩn đoán bệnh tim mạch của 13 bệnh nhân 57
Bảng 5: Bảng các ký hiệu sử dụng trong thuật toán khai phá luật kết hợp mờ 61
Bảng 6: TF -giá trị các thuộc tính tại các bản ghi đã được mờ hoá 63
Bảng 7: C1 - tập tất cả các tập thuộc tính có lực lượng bằng 1 64
Bảng 8: F2 - tập thuộc tính phổ biến có lực lượng bằng 2 65
Bảng 9: Các luật mờ được sinh ra từ CSDL trong bảng 4 66
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
5
LỜI MỞ ĐẦU

Trong những thập kỷ gần đây, với sự phát triển mạnh mẽ của công nghệ điện
tử, sự ra đời của các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ
thống mạng viễn thông. Người ta xây dựng các hệ thống thông tin nhằm tự động
hoá mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng
lên không ngừng vì ngay từ những giao dịch đơn giản nhất như một cuộc gọi điện
thoại, kiểm tra sức khoẻ, sử dụng thẻ tín dụng,v.v đều được ghi vào trong máy
tính. Cho đến nay, con số này đã trở lên khổng lồ bao gồm các cơ sở dữ liệu lớn cỡ
gigabytes và thậm chí terabytes lưu trữ các dữ liệu kinh doanh ví dụ dữ liệu thông
tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài
khoản, các khoản vay, sử dụng vốn,v.v Nhiều hệ quản trị cơ sở dữ liệu (CSDL)
mạnh với các công cụ phong phú và thuận tiện đã giúp cho con người khai thác có
hiệu quả các nguồn tài nguyên dữ liệu.
Cùng với chức năng khai thác có tính chất tác nghiệp, việc khai thác các
CSDL phục vụ các yêu cầu trợ giúp quyết định ngày càng có ý nghĩa quan trọng và
là nhu cầu to lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý. Dữ liệu được
thu thập và dữ liệu ngày càng nhiều nhưng người ra quyết định trong quản lý kinh
doanh lại cần những thông tin bổ ích, những “tri thức” rút ra từ những nguồn dữ

được một khối lượng kiến thức khổng lồ nhưng tổ chức cơ sở dữ liệu đó thành một
hệ thống để phân tích đưa ra những thông tin cần thiết trên cơ sở dữ liệu đã được
tập hợp là một vấn đề rất phức tạp.
Các hệ thống tồn tại một cách chồng chéo khiến các thông tin thừa xảy ra
nhiều và vấn đề xử lý số liệu lớn và rất phức tạp. Có một nghịch lý là chúng ta thu
thập thông tin nhanh hơn rất nhiều việc xử lý thông tin.
Cuối thế kỷ 20, phương pháp phân tích số liệu một cách trí tuệ (là phương
pháp khai thác thông tin trực tiếp từ dữ liệu thô) đã thu hút được sự quan tâm của
các nhà khoa học. Những thử nghiệm đã được áp dụng trong nhiều lĩnh vực như
phân tích thị trường tài chính, ngân hàng, đánh giá khả năng cho vay, phân tích
đánh giá những mạo hiểm trong đầu tư được tiến hành rất nhiều. Đây là vấn đề đặc
biệt khó khi ta có một lượng thông tin khổng lồ. Bài toán cần giải quyết ở đây là
phân tích số liệu ra sao? Con người và máy tính sẽ kết hợp với nhau như thế nào,
con người sẽ làm những gì và những gì giao cho máy móc. Dự đoán các vấn đề trên
trong tương lai là rất khó nhưng quan trong nhất là hiểu được giới hạn con người và
giới hạn của các thiết bị máy móc. Theo John Neumal thì số lượng neural của một
người là 10
20
bit mặc dù chúng ta không sử dụng hết số lượng này. Một số nhà bác
học đã mô phỏng các hành vi nhận dạng của não bộ (ví dụ mạng Hopfield) cho
chúng ta khả năng nhận dạng tương tự như não người. Các mẫu đã được huấn luyện
để nhận dạng sẽ kích thích ở một vùng đã được xác định trước. Người ta đã tính
được rằng nếu một hệ thống được thiết lập từ 10
20
Neural thì ghi nhận được 5.10
18

mẫu khác nhau bằng 5% số lượng Neural. Đây cũng chính là số lượng mẫu lớn nhất
mà con người có thể nhớ được. Đó là con số khổng lồ mà thiết bị điện tử không có
khả năng đạt được. Tuy nhiên, tốc độ của các Neural sinh học quá chậm do với các

Trong mọi hoạt động sản xuất - kinh doanh - quản lý thì yếu tốt thành công
luôn gắn liền với việc nắm bắt, thống kê và khai thác thông tin hiệu quả. Giờ đây
KPDL đã và đang trở thành một trong những hướng nghiên cứu chính của lĩnh vực
khoa học máy tính và công nghệ tri thức. Do đó có thể coi mục đích chính của quá
trình KPDL là một tả và dự đoán mà các mẫu KPDL phát hiện được đều nhắm vào
mục đích này.
Để đạt được hai mục đích chính trên, nhiệm vụ chính của KPDL bao gồm:
Phân lớp: là việc học một hàm ánh xạ (hay phân loại) từ một mẫu dữ liệu
vào một trong số các lớp đã được xác định trước.
Hồi quy: là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giá trị thực.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
9
Phân nhóm: là việc mô tả chung để tìm ra các tập dữ liệu xác định hay các
nhóm để mô tả dữ liệu. Các nhóm có thể tách riêng, phân cấp hoặc chồng lên nhau.
Có nghĩa là dữ liệu có thể vừa thuộc nhóm này vừa thuộc nhóm kia.
Tóm tắt: liên quan đến các phương pháp tìm kiếm một mô tả cho một tập con
dữ liệu. Các kỹ thuật tóm tắt thường được áp dụng cho các phân tích dữ liệu tương
tác có tính thăm dò và tạo báo cáo tự động.
Mô hình phụ thuộc: là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa
các biến. Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu trúc của mô hình
xác định các biến nào là phụ thuộc cục bộ vào nhau và mức định lượng của một mô
hình xác định độ mạnh của sự phụ thuộc theo một thước đo nào đó.
Dò tìm biến đổi và phát hiện độ lệch: tập trung vào khai thác những thay đổi
đáng kể nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó.
1.1.3 Các dạng dữ liệu có thể khai phá
Do KPDL được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau
được chấp nhập trong KPDL. Dưới đây là một số kiểu dữ liệu điển hình:
CSDL quan hệ: là các CSDL tác nghiệp được tổ chức theo mô hình dữ liệu

các mẫu kết quả tìm được.
Kỹ thuật khai phá: là các công cụ để thực hiện các nhiệm vụ như: mô tả, kết
hợp, phân lớp, phân nhóm dữ liệu
Công cụ đánh giá mẫu: gồm một số modul sử dụng các độ đo và tương tác
với các modul KPDL để tập trung vào các thuộc tính cần quan tâm.
Giao diện đồ họa: xây dựng modul cho phép giao tiếp giữa người dùng và hệ
thống KPDL.
Hình 1.1 Kiến trúc hệ thống khai phá dữ liệu
1.1.5 Quá trình khai phá dữ liệu
Quá trình KPDL là công việc khảo sát thăm dò thông tin dữ liệu, trích chọn
tri thức, thu thập thông tin, thậm chí là duyệt và tìm kiếm dữ liệu. Tuy nhiên, các
nhà thống kê thì có quan điểm cho rằng KPDL là một quá trình phân tích và đánh
Lọc
Làm sạch dữ liệu
Tích hợp dữ liệu
Giao diện đồ hoạ
Đánh giá mẫu
Kỹ thuật khai phá
CSDL, kho dữ liệu
CSDL
Kho dữ liệu

dữ liệu làm sao cho con người có thể hiểu được. Muốn làm được tốt các công việc
đó chúng ta dựa vào một số công việc sau:
Biểu diễn mô hình: là việc dùng một ngôn ngữ L nào đó để mô tả các mẫu
hay mô hình có thể khai phá được. Nếu mô tả quá hạn chế thì sẽ không thể học
được hoặc sẽ không thể có các mẫu tạo ra được mô hình chính xác cho dữ liệu.
Nhưng nếu mô hình quá lớn thì càng làm tăng mức độ nguy hiểm do bị học quá và
Xác định
nhiệm vụ
Xác định
dữ liệu
liên quan
Thu thập và
tiền xử lý
DL
Thống kê
Tóm tắt
Dữ liệu
trực tiếp
Giải thuật
khai phá DL

Mẫu
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
12
làm giảm khả năng dự đoán các dữ liệu chưa biết. Như thế sẽ làm cho việc tìm kiếm
càng trở nên phức tạp hơn cũng như việc hiểu được mô hình càng khó khăn hơn.
Đánh giá mô hình: là việc đánh giá, ước lượng các mô hình chi tiết có thể
đáp ứng được các tiêu chuẩn của quá trình xử lý và phát hiện tri thức, có dự báo
chính xác hay không, có thoả mãn cơ sở logic hay không. Việc đánh giá độ chính

tìm được trong CSDL. Trong KPDL quy nạp được sử dụng để tạo cây quyết định và
luật.
Cây quyết định: ở đây ta quan tâm đến cây quyết định quy nạp được dùng
trong việc “học” tri thức thông qua phân tích cây. Cây quyết định là một mô tả tri
thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định.
Các nút của cây được gắn nhãn là tên các thuộc tính, các cạnh được gắn các giá trị
có thể của các thuộc tính, các lá miêu tả các lớp khác nhau. Các đối tượng được
phân theo lớp các đường đi trên cây, qua các cạnh tương ứng với giá trị của thuộc
tính. Hình 1.3 Ví dụ về cây quyết định

Ví dụ về cây quyết định( X=sự kiện nào đó có thể xảy ra theo viễn cảnh được xây
dựng trong cây quyết định)
Quá trình xây dựng cây quyết định là quá trình phát hiện ra các luật phân
chia tập dữ liệu đã cho thành các lớp đã được định nghĩa trước. Trong thực tế tập
các cây quyết định có thể có đối với bài toán này rất lớn và rất khó có thể duyệt hết
được một cách tường tận.
Một cây quyết định là một cấu trúc hình cây, trong đó:
 Mỗi đỉnh trong (đỉnh có thể khai triển được) biểu thị cho một phép thử

14
 Các đỉnh lá (các đỉnh không khai triển được) biểu thị các lớp hoặc các
phân bổ lớp.
 Đỉnh trên cùng trong một cây được gọi là gốc.
Việc sinh cây quyết định bao gồm hai giai đoạn:
 Xây dựng cây.
+ Tại thời điểm khởi đầu, tất cả các ca (case) dữ liệu học đều nằm tại gốc.
+ Các ca dữ liệu được phân chia đệ quy trên cơ sở các thuộc tính được
chọn.
 Rút gọn cây
+ Phát hiện và bỏ đi các nhánh chứa các điểm dị thường và nhiều trong
dữ liệu.
Luật kết hợp: là luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý
nghĩa về mặt thống kê. Các luật có dạng: Nếu P thì Q; với P là mệnh đề đúng với
một miền dữ liệu nào đó trong kho dữ liệu và Q là mệnh đề sẽ dự đoán. Phương
pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần trong CSDL. Mẫu
đầu ra của thuật toán KPDL là tập luật kết hợp tìm được.
Cho một lược đồ R={A
1
,A
2
, ,A
p
} với các thuộc tính có miền giá trị {0,1}
và một quan hệ r trên R. Một luật kết hợp trên quan hệ r được mô tả như sau: X=>B
với X  R và B  R\X. Cho W  R, đặt s(W,r) là tần số xuất hiện của W trong r
được tính bằng tỷ lệ giữa các hàng trong r có giá trị 1 tại mỗi cột. Khi đó tần số xuất
hiện và độ tin cậy của luật X =>B trong r được định nghĩa như sau:
Tần số xuất hiện  =s(X  {B},r).
Độ tin cậy  =s(X  {B},r)\s(X,r).

thuộc tính giống nhau vào một lớp chung. Công việc này giống việc phân loại
nhưng có điểm khác biệt là chưa có sự định nghĩa các lớp từ trước. Các phương
pháp này rất có ích trong giai đoạn đầu của quá trình nghiên cứu khi ta biết rất ít về
đối tượng cần nghiên cứu, nó là tiền đề để tiến hành các phương pháp khác về
KDD.
Nhiệm vụ của phân lớp là tìm ra được một hàm để ghép một đối tượng dữ
liệu vào một lớp trong một số lớp nào đó. Ta thấy rằng rất khó để tách lớp một cách
hoàn toàn bằng một đường biên rạch ròi có dạng đường thẳng. Ngân hàng rất muốn
sử dụng các miền đã được phân lớp để có thể đi đến quyết định một cách tự động về
việc liệu có tiếp tục cho khách tiếp tục vay nữa hay không.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
16
Có nhiều phương pháp phân lớp, phương pháp nổi tiếng nhất là phương
pháp K lân cận. Giả sử muốn chia các đối tượng ban đầu thành K lớp. Lựa chọn K
trung tâm ngẫu nhiên bất kỳ trong không gian các đối tượng. Sau đó tiến hành:
- Chia các dữ liệu thành K nhóm gần nhất với một trong các trung tâm.
Khoảng cách giữa các điểm với các trung tâm sẽ xác định chúng có thuộc K hay
không.
- Xác định lại các trung tâm mới bằng cách tính lại giá trị trung bình của các
biến phụ thuộc, tất nhiên các trung tâm mới sẽ khác trung tâm cũ. Phương pháp K
lân cận sẽ làm việc tốt nếu bản chất của dữ liệu là có thể phân loại. Tuy nhiên nó
khó áp dụng với một số tình huống phức tạp, ví dụ như: Phân bố hai hình xoắn
ngược chiều nhau.
Phương pháp dựa trên mẫu: là việc sử dụng các mẫu miêu tả từ cơ sở dữ liệu
tạo nên một mô hình dự đoán các mẫu mới bằng cách rút ra các thuộc tính tương tự
như các mẫu đã biết trong mô hình. Các kỹ thuật bao gồm phân lớp theo láng giềng
lân cận, các giải thuật hồi quy (Dasarathy 1991) và các hệ thống suy diễn dựa trên
tình huống (case - based reasoning) (Kolodner 1993).
Mô hình phụ thuộc dựa trên đồ thị xác suất: Các mô hình xác định sự phụ

đầu quá trình học như các kỹ thuật khác. Tuy nhiên để có thể sử dụng mạng neural
có hiệu quả cần phải xác định các yếu tố khi thiết kế mạng như:
- Mô hình mạng là gì?
- Mạng cần có bao nhiêu nút?
- Khi nào thì việc học dừng?
Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữ liệu
trước khi đưa vào mạng neural để mạng có thể hiểu được.
Mạng neural được đóng gói với những thông tin trợ giúp của các chuyên gia
đáng tin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt. Sau khi
học mạng được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học
Giải thuật di truyền: Đây là phương pháp không chỉ phục vụ KPDL mà còn
phục vụ nhiều bài toán khác, ví dụ như bài toán tối ưu hoặc lập lịch. Tư tưởng của
thuật toán là áp dụng quy luật của sự chọn lọc tự nhiên. Người ta mô phỏng tập hợp
giữ liệu ban đầu bằng ký tự nhị phân và gọi là những quần thể xuất phát, bằng các
thao tác lai ghép, đột biến chúng ta biến đổi quần thể gene trong quần thể là không
thay đổi. Một hàm thích nghi được xây dựng để xác định mức độ thích nghi của
quần thể theo các giai đoạn. Quá trình tiến hoá làm cho các quần thể thích nghi
ngày càng cao. Về mặt lý thuyết giải thuật di truyền cho người ta lời giải tối ưu toàn
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
18
cục (khác với phương pháp mạng Neural). Tuy nhiên, người ta cũng hạn chế lời giải
với một mức độ thích nghi nào đó để hạn chế số lượng các bước xây dựng các quần
thể.
Nói theo nghĩa rộng thì giải thuật di truyền mô phỏng lại hệ thống tiến hoá
trong tự nhiên, chính xác hơn là các giải thuật chỉ ra tập các cá thể được hình thành,
được ước lượng và biến đổi như thế nào. Ví dụ như xác định xem làm thế nào để
lựa chọn các cá thể tạo giống và lựa chọn các cá thể nào sẽ bị loại bỏ.
Giải thuật di truyền là một giải thuật tối ưu hoá. Nó được sử dụng nó được sử
dụng rất rộng rãi trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu trong đó có kỹ

quan của các mô hình dữ liệu chưa đầy đủ, nhiễu, thông tin hỗn tạp và tác động của
con người và từ đó có thể cung cấp giải pháp xấp xỉ nhanh hơn. Mạng nơron có khả
năng tổng quát, không giới hạn, mạnh và học tốt trong môi trường dữ liệu giàu.
Thuật toán di truyền cũng cung cấp khả năng tìm các thuật toán để chọn mẫu từ các
dữ liệu hỗn tạp dựa trên một số hàm tiêu chuẩn/mục tiêu thường dùng. Tập thô thì
lại phù hợp cho việc tìm ra các mẫu khác nhau của tình trạng không rõ ràng trong
dữ liệu. Một số yêu cầu khai thác dữ liệu cần phải áp dụng phương pháp tính toán
mềm( tính toán mềm là sự kết hợp của các phương pháp logic mờ, thuật toán di
truyền, khám phá tri thức, mạng nơron, tính toán nơron mờ, tập thô, rút ra luật, )
1.1.11 Những khó khăn trong việc khai phá dữ liệu
Những thách thức cơ bản: hiện nay thách thức lớn nhất đối với con người là
nhu cầu sử dụng thông tin. Nếu thông tin luôn đáp ứng và làm thoả mãn nhu cầu
của con người trong mọi lúc mọi nơi thì xu thế phát triển xã hội, kinh tế, chính trị,
công nghệ sẽ là mong muốn lớn nhất của loài người. Thế nhưng, trên thực tế con
người thường gặp trở ngại khách quan lẫn chủ quan. Một trong những thách thức cơ
bản mà cần phải vượt qua đó là: các CSDL lớn (ví dụ 10
6
–10
12
bản ghi); số chiều
lớn (ví dụ 10
2
– 10
3
thuộc tính); các vấn đề nảy sinh: hiệu suất, kích cỡ, chất lượng,
hiệu quả; dữ liệu và tri thức không ngừng thay đổi, khi thay đổi dữ liệu và tri thức
có thể làm cho các mẫu đã phát hiện không còn phù hợp nữa. Tương tác người- máy
và hiển thị; dữ liệu bị thiếu hoặc nhiễu; quan hệ giữa các trường phức tạp; giao tiếp
với người sử dụng và kết hợp với các tri thức đã có; đối phó với độ phức tạp tính
toán; tích hợp các hệ thống khác

một mục đích chung là rút ra tri thức từ dữ liệu của cơ sở dữ liệu lớn.
Những lĩnh vực học máy và nhận dạng có cùng với KDD mục đích nghiên
cứu những lý thuyết và giải thuật nhằm lấy ra các mẫu và mô hình từ các dữ liệu (là
những kĩ thuật khai phá dữ liệu), hướng tới việc mở rộng những lý thuyết và giải
thuật này để có thể tìm kiếm được những mẫu đặc biệt (những thứ mà có thể được
gọi là tri thức hữu ích hoặc thú vị) trong những tập hợp lớn dữ liệu của thế giới thực
tế.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
21
KDD cũng có nhiều điểm chung so với phương pháp thống kê, phân tích dữ
liệu. KDD thường được nhúng vào bên trong những thủ tục thống kê đặc biệt để mô
hình hoá dữ liệu và quản lý nhiễu, những thủ tục này đóng vai trò như một thành
phần trong kết cấu tổng thể của hệ khám phá tri thức.
Một lĩnh vực liên quan khác đến KDD là kho dữ liệu, đóng vai trò thu thập
và làm sạch dữ liệu, tạo ra một kho dữ liệu có đầy đủ tính năng sẵn sàng và trực
tuyến. Cách tiếp cận thông thường để phân tích kho dữ liệu được gọi là OLAP (xử
lý phân tích trực tuyến). Những công cụ OLAP cung cấp khả năng phân tích dữ liệu
đa chiều/ đa khía cạnh (multi-dimensional), đây là công cụ cấp cao hơn so với ngôn
ngữ truy vấn chuẩn SQL trong việc tóm lược tính toán theo nhiều chiều dữ liệu.
Một câu hỏi rất hay được đặt ra là phân biệt giữa công cụ KDD và OLAP.
Công cụ phân tích trực tuyến (OLAP) cũng là công nghệ hỗ trợ cho quá trình ra
quyết định. Một sự khác biệt giữa KDD và OLAP là OLAP cho ta câu trả lời với
các tình huống mà người đặt câu hỏi đã chuẩn bị trước. Còn KDD thì khác hẳn, nó
tự phát hiện ra các quy luật để từ đó người nghiên cứu rút ra các kết luận cần thiết.
Ngoài ra KDD đưa ra các giả thiết mới có thể dùng công cụ OLAP để xác nhận
hoặc loại bỏ. Như vậy KDD và OLAP có quan hệ tương hỗ, hỗ trợ nhau. Chúng ta
có thể coi cả công nghệ khám phá tri thức lẫn OLAP là những khía cạnh quan trọng
để tạo ra những công cụ thông minh có thể trích rút và quản lý thông tin.
Như ta đã biết, KDD là sự tổng hợp của các lĩnh vực kiến thức rất khác

bỏ qua.
* Lượng dữ liệu quá lớn đối với cách thức phân tích cổ điển. Đôi khi, ta
không thể xem được hoặc chứa được tất cả trong bộ nhớ.
- Cung cấp công cụ cho những người sử dụng không chuyên về thống kê.
- Cần phải nhanh chóng phát hiện và đưa ra quyết định trong các tình huống
khẩn cấp trong môi trường cạnh tranh.
- Khi các cơ sở dữ liệu càng ngày càng to lên thì khả năng hỗ trợ phân tích
và ra quyết định bằng cách hỏi đáp truyền thống (kiểu SQL) sẽ không thể thực hiện
được hoặc nhiều yêu cầu mà người sử dụng quan tâm rất khó có thể mô tả được
bằng một ngôn ngữ hỏi đáp. Chẳng hạn như “hãy tìm cho tôi tất cả các bản ghi
chứng tỏ rằng có sự gian lận trong đó” hoặc “hãy tìm tất cả những bản ghi tương tự
như các bản ghi trong bảng X”.

Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
23
2.2.3. Quá trình phát hiện tri thức
Quá trình phát hiện tri thức bao gồm một số bước như sau:
Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán. Bước
này rõ ràng là một điều tiên quyết cho việc rút ra được các tri thức hữu ích và cho
việc chọn các phương pháp khai thác dữ liệu thích hợp trong bước ba sao cho phù
hợp với mục đích ứng dụng và bản chất của dữ liệu.
Bước thứ hai là thu thập và xử lý thô, hay còn gọi là tiền xử lý dữ liệu nhằm
loại bỏ nhiễu hoặc dị dạng, xử lý việc thiếu dữ liệu, tiến hành các phép biến đổi
(nếu cần thiết) và rút gọn dữ liệu. Bước này thường chiếm hầu hết thời gian cần
thiết cho toàn bộ quy trình KDD.
Bước thứ ba là khai phá dữ liệu, tức là trích ra các mẫu hoặc/và các mô hình
ẩn dưới các dữ liệu. Một mô hình có thể được xem như “một biểu diễn tổng thể của
một cấu trúc nhằm tóm lược thành phần mang tính hệ thống ngụ trong dữ liệu hoặc
mô tả tập dữ liệu này có thể sinh sôi nảy nở ra sao”. Trái lại một mẫu là một cấu


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status