Nghiên cứu chung về khai phá dữ liệu - Pdf 37

MỤC LỤC
MỞ ĐẦU............................................................................................................2
NỘI DUNG ĐỀ TÀI GỒM ...............................................................................3
CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU..............................3
CHƯƠNG II: KHAI PHA DỮ LIỆU BẰNG LUẬT KẾT HỢP.................3
CHƯƠNG III: ỨNG DỤNG LUẬT KẾT HỢP TRONG BÀI TOÁN DỮ
LIỆU MÔ PHỎNG GIAO DỊCH BÁN HÀNG TRONG SIÊU THỊ TÔN
MÙI................................................................................................................3
CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU..................................4
1.1. Khái niệm cơ bản....................................................................................4
1.1.1. Mục tiêu của khai phá dữ liệu............................................................4
1.1.2. Định nghĩa khai phá dữ liệu...............................................................5
1.1.3. Các dạng dữ liệu có thể khai phá. ......................................................5
1.1.4. Quá trình khai phá dữ liệu .................................................................6
1.1.5. Các hướng tiếp cận cơ bản và kỹ thuật áp dụng. ...............................8
1.1.6. Các lĩnh vực ứng dụng của khai phá dữ liệu ......................................8
1.2. Phương pháp khai phá dữ liệu...............................................................9
1.2.1. Một số phương pháp khai phá dữ liệu phổ biến .................................9
1.2.2. Lựa chọn các kỹ thuật khai phá .......................................................14
CHƯƠNG II: KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP...................16
2.1. Ý nghĩa của luật kết hợp .....................................................................16
2.2. Bài toán khai phá dữ liệu bằng luật kết hợp. ...........................................17
2.2.1. Phát biểu bài toán và các pha thực hiện. ..........................................17
2.2.2. Ví dụ ...............................................................................................20
2.3. Một số tính chất của tập mục phổ biến và luật kết hợp......................22
2.3.1. Một số tính chất với tập mục phổ biến:............................................22
2.3.2. Một số tính chất với luật kết hợp: ....................................................23
2.3.3. Các loại luật kết hợp........................................................................24
2.4. Các thuật toán khai phá dữ liệu nhờ luật kết hợp. .............................26
2.4.1. Khai phá luật kết hợp Boolean đơn chiều từ cơ sở dữ liệu tác vụ .....26
2.4.2. Khai phá luật kết hợp định lượng....................................................52

2

NỘI DUNG ĐỀ TÀI GỒM
CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Chương này trình bày những nét khái quát nhất về khai phá dữ liệu, khai
phá dữ liệu trong quá trình phát hiện tri thức; Các hướng tiếp cận; Các kỹ thuật
áp dụng trong khai phá dữ liệu; Các lĩnh vực ứng dụng chính.
CHƯƠNG II: KHAI PHA DỮ LIỆU BẰNG LUẬT KẾT HỢP
Trong chương này trình bày các phương pháp khai phá dữ liệu bằng luật
kết hợp từ thuật toán đầu tiên – Thuật toán Apriori và các hướng cải tiến của
thuật toán này nhằm nâng cao hiệu quả của quá trình tính toán. Đồng thời cũng
trình bày một số hướng nghiên cứu về luật kết hợp đa mức, định lượng, đóng.
CHƯƠNG III: ỨNG DỤNG LUẬT KẾT HỢP TRONG BÀI TOÁN DỮ
LIỆU MÔ PHỎNG GIAO DỊCH BÁN HÀNG TRONG SIÊU THỊ TÔN
MÙI
Chương này trình bày bài toán và qua bài toán xác định rõ nhiệm vụ khai
phá dữ liệu, phân tích và thiết kế các môdul chương trình đồng thời thiết kế các
giao diện sao cho thuận lợi và thân thiết với người sử dụng nhưng dễ theo dõi và
kiểm tra. Chương trình được xây dựng với mục đích thử nghiệm để đánh giá kết
quả.

3

CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. Khái niệm cơ bản.
1.1.1. Mục tiêu của khai phá dữ liệu.
Gần ba thập niên trở lại đây, lượng thông tin được lưu trữ trên các thiết bị

nay, khai phá dữ liệu đã được ứng dụng rộng rãi trong các lĩnh vực khác như: Tin
sinh học, điều trị y học, viễn thông, giáo dục, ...
1.1.2. Định nghĩa khai phá dữ liệu.
Qua những nội dung đã trình bày ở trên, chúng ta có thể hiểu một cách sơ
lược rằng khai phá dữ liệu là quá trình tìm kiếm thông tin hữu ích, tiềm ẩn và
mang tính dự báo trong các cơ sở dữ liệu lớn. Như vậy, nên chăng gọi quá trình
này là khám phá tri thức thay vì là khai phá dữ liệu. Tuy nhiên một số nhà khoa
học đồng ý với nhau rằng hai thuật ngữ trên là tương đương và có thể thay thế
cho nhau. Họ lí giải rằng mục đích chính của quá trình khám phá tri thức và
thông tin và tri thức có ích, nhưng đối tượng mà chúng ta phải xử lí rất nhiều
trong quá trình đó lại chính là dữ liệu. Mặt khác, khi chia các bước trong khá
trình khám phá tri thức, nhiều nhà khoa học khác lại cho rằng khai phá dữ liệu
chỉ là một bước trong quá trình khám phá tri thức1. Như vậy, khi xét ở mức
không thật chi tiết thì hai thuật ngữ này được xem là đồng nghĩa nhưng khi xét cụ
thể thì khai phá dữ liệu lại là một bước trong quá trình khám phá tri thức.
1.1.3. Các dạng dữ liệu có thể khai phá.
Khai phá dữ liệu được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu
khác nhau được chấp nhận để khai phá 2. Sau đây là một số loại điển hình:
Cơ sở dữ liệu quan hệ (relational databases): là các cơ sở dữ liệu tác nghiệp được
tổ chức theo mô hình dữ liệu quan hệ. Hầu hết các hệ quản trị cơ sở dữ liệu đều
hỗ trợ dạng cơ sở dữ liệu này như: Oracle, IBM DB2, MS SQL Server, MS
Access, ...
Cơ sở dữ liệu đa chiều (multimensional structures, data warehouses, data mart):
là các kho dữ liệu được tập hợp, chọn lọc từ nhiều nguồn dữ liệu khác nhau.
Dạng dữ liệu này mang tính lịch sử (tức có tính thời gian) và chủ yếu phục vụ
cho quá trình phân tích cũng như là khai phá tri thức nhằm hỗ trợ cho việc ra
quyết định.

5

- Biểu diễn mô hình.
- Đánh giá mô hình.
- Tìm kiếm mô hình.


Biểu diễn mô hình: Mô hình được biểu diễn bằng một ngôn ngữ
sao cho có thể khai phá được. Nếu mô hình có sự mô tả hạn chế thì
sẽ không thể học được hoặc sẽ không thể có các mẫu tạo ra. Nếu
diễn tả mô hình càng lớn thì càng làm tăng mức độ nguy hiểm do
bị học quá nhiều và làm giảm đi khả năng dự đoán các dữ liệu chưa
biết. Hơn nữa, việc tìm kiếm sẽ càng trở nên phức tạp hơn và việc
giải thích mô hình cũng khó khăn hơn.



Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng được các
tiêu chuẩn của quá trình phát hiện tri thức hay không. Việc đánh
giá mô hình được thực hiện thông qua kiểm tra dữ liệu, đối với
nhiệm vụ dự đoán thì việc đánh giá mô hình ngoài kiểm tra dữ liệu
còn dựa trên độ chính xác dự đoán mà việc đánh giá độ chính xác
dự đoán dựa trên đánh giá chéo.



Tìm kiếm mô hình: Bao gồm 2 thành phần: tìm kiếm tham số và
tìm kiếm mô hình.
- Tìm kiếm tham số: Giải thuật cần tìm các tham số để tối ưu hoá
các tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát được và
với một miêu tả mô hình đã định.

Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường
chứng khoán bởi chúng có tính dự báo cáo.
Mô tả khái niệm (concept desccription & summarization): lớp bài toán này thiên
về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản.
1.1.6. Các lĩnh vực ứng dụng của khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực mới phát triển nhưng thu hút được nhiều
nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó. Sau đây là một số lĩnh
vực ứng dụng điển hình:
-

Phân tích dữ liệu và hỗ trợ ra quyết định.

8

-

Điều trị trong y học: Mỗi liên hệ giữa triệu chứng, chuẩn đoán và
phương pháp điều trị.

-

Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang WEB.

-

Tin sinh học: tìm kiếm, đối sánh các hệ gene và thông tin di truyền,
mối liên hệ giữa một số hệ gene và một số bệnh di truyền, ...

-

Cây quyết định: Cây quyết định là một phương pháp mô tả tri thức dạng
đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút
của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể
của các thuộc tính, các lá miêu tả các lớp khác nhau. Các đối tượng được phân
lớp theo các đường đi trên cây, qua các cạnh tương ứng với giá trị của các thuộc
tính của đối tượng tới lá.

9

Tạo luật: Các luật được tạo ra nhằm suy diễn cho một số mẫu dữ liệu có ý
nghĩa về mặt thống kê. Các luật có dạng nếu P thì Q, trong đó P là mệnh đề đúng
với một phần dữ liệu trong cơ sở dữ liệu và Q là mệnh đề dự đoán.
Ví dụ: Ta có mẫu phát hiện được bằng phương pháp tạo luật “Nếu giảm ngưỡng
chỉ cần học đủ số trình là 120 sẽ được phát chứng nhận tốt nghiệp giai đoạn I thì
số lượng sinh viên đăng ký tăng lên 30%.
Cây quyết định là phương pháp dùng trong các bài toán phân loại dữ liệu
theo một tiêu chuẩn nào đó dựa trên mức độ khác nhau của thuộc tính. Cây quyết
định và luật có ưu điểm là hình thức miêu tả đơn giản, mô hình suy diễn khá dễ
hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là miêu tả cây và luật chỉ
có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn cả về độ chính
xác của mô hình.
1.2.1.3. Phát hiện các luật kết hợp.
Các luật kết hợp là một dạng biểu diễn tri thức, hay chính xác là dạng mẫu
của hình thành tri thức. Phương pháp này nhằm phát hiện ra các luật kết hợp giữa
các thành phần dữ liệu trong cơ sở dữ liệu. Một đầu ra của giải thuật khai phá dữ
liệu là tập các luật kết hợp tìm được.
Cho một lược đồ R = { A1, A2,...., Ap} với các thuộc tính có miền giá trị
{0,1} và một quan hệ r trên R. Ta gọi một luật kết hợp trên quan hệ r được mô tả
như sau: XB với X  R và B  R\X. Cho WR, đặt s(W,r) là tần số xuất hiện

chúng thoả mãn cả hai ngưỡng độ hỗ trợ cực tiểu và độ tin cậy cực tiểu. Những
ngưỡng này thường do người dùng hoặc các chuyên gia trong lĩnh vực xác định.
Nhược điểm cơ bản của của phương pháp này là sự gia tăng nhanh chóng
khối lượng tính toán và các thông số. Tuy nhiên với sự phát triển nhanh chóng và
mạnh mẽ của phần cứng thì vấn đề này cũng được khắc phục.
1.2.1.4. Phân nhóm và phân đoạn
Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao
cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan

11

hệ thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành
viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm.
Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính
của các thành phần như là hàm của các tham số của các thành phần. Kỹ thuật này
được gọi là kỹ thuật phân hoạch tối ưu.
Một trong những ứng dụng của kỹ thuật phân nhóm theo độ giống nhau là
cơ sở dữ liệu khách hàng để phân nhóm khách hàng theo các tham số và các
nhóm thuế tối ưu có được khi thiết lập biểu thuế bảo hiểm.
Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập
mẫu chứa dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ
liệu. Khi các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ
liệu dễ hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động
cũng như công việc phân tích. Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm
này là rất quan trọng.
1.2.1.5. Mạng neural.
Mạng neural là một phương pháp khai phá dữ liệu phát triển dữ liệu trên
cấu trúc toán học với khả năng học trên mô hình hệ thần kinh con người.
Mạng neural có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính

hợp dữ liệu ban đầu bằng kí tự nhị phân và gọi là những quần thể xuất phát. Bằng
các thao tác lai ghép, đột biến chúng ta biến đổi quần thể gene ban đầu và loại bỏ
đi một số gene làm cho số lượng gene trong quần thể là không thay đổi. Một hàm
thích nghi được xây dựng để xác định mức độ thích nghi của quần thể theo các
giai đoạn. Quá trình tiến hóa làm cho các quần thể thích nghi ngày càng cao. Về
mặt lý thuyết giải thuật di truyền cho ta lời giải tối ưu toàn cục (khác với phương
pháp mạng neural). Tuy nhiên, người ta cũng hạn chế lời giải với một mức độ
thích nghi nào đó để hạn chế số lượng các bước xây dựng quần thể.
Nói theo nghĩa rộng thì giải thuật di truyền mô phỏng lại hệ thống tiến hóa
trong tự nhiên, chính xác hơn là các giải thuật chỉ ra tập các cá thể được hình
thành, được ước lượng và biến đổi như thế nào. Ví dụ như xác định xem làm thế
nào để lựa chọn các cá thể tạo giống và lựa chọn các cá thể nào để loại bỏ.

13

Giải thuật di truyền là một giải thuật tối ưu hóa, nó được sử dụng rất rộng
rãi trong việc tối ưu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng
neural. Sự liên hệ của nó với các giải thuật khai phá dữ liệu là ở chỗ tối ưu hóa là
cần thiết để xác định các giá trị tham số nào tạo ra các luật tốt nhất.
1.2.2. Lựa chọn các kỹ thuật khai phá
Các giải thuật khai phá dữ liệu tự động mới chỉ ở giai đoạn phát triển ban
đầu. Hiện nay người ta vẫn chưa đưa ra được một tiêu chuẩn nào trong việc quyết
định sử dụng phương pháp nào vào trong trường hợp nào thì hiểu quả.
Hầu hết các kỹ thuật về khai phá dữ liệu đều là mới trong các lĩnh vực.
Hơn nữa lại có rất nhiều kỹ thuật được sử dụng cho nhiều bài toán khác nhau. Vì
vậy câu hỏi dùng kỹ thuật nào để khai phá không phải là đơn giản. Mỗi phương
pháp đều có những điểm mạnh và điểm yếu riêng của nó, nhưng đa số các điểm
yếu đều có thể khắc phục được.
Vậy phải làm như thế nào để áp dụng kỹ thuật một cách đơn giản nhất, dễ

o

Hợp lệ hoặc dữ liệu được kiểm tra với độ chắc chắn nào đó.

o

Có khả năng (tiềm năng) hữu ích.

o

Mới lạ.

Mẫu cũng là đáng quan tâm nếu nó là giả thiết hợp lệ được người dùng
xác nhận. Mẫu quan tâm luôn chứa đựng sự hiểu biết (tri thức).
Có vài độ đo cho các mẫu quan tâm. Nó dựa trên cấu trúc của mẫu đã khai
phá và thống kê chúng. Chẳng hạn độ đo của luật kết hợp dạng XY là độ hỗ
trợ và độ tin cậy của luật. Cụ thể người ta định nghĩa là xác suất P(X U Y) và xác
suất P(X/Y).
Nhìn chung các độ đo này có thể được người dùng điều khiển.
Đối với câu hỏi thứ 2: Có thể tạo ra được tất cả các mẫu đáng quan tâm
không? Vấn đề này liên quan đến tính hoàn thiện của thuật toán khai phá. Nó
thường không thực hiện được và không có khả năng đối với cá hệ thống khai phá
dữ liệu để sinh ra tất cả các mẫu có thể có, có thể tồn tại. Thay cho điều đó người
ta tập trung vào mục tiêu tìm kiếm. Khai phá luật kết hợp là một ví dụ, ở đó
người ta sử dụng các độ đo có thể đảm bảo khai phá trọn vẹn, có nghĩa là với
ngưỡng độ hỗ trợ và độ tin cậy nhỏ nhất xác định trước thì có thể tìm được.
Đối với câu hỏi thứ ba: Hệ thống khai phá có thể chỉ sinh ra các mẫu cần
quan tâm không? Đây chính là vấn đề tối ưu trong khai phá dữ liệu. Vấn đề này
còn là thách thức rất lớn đối với các nhà khoa học trong lĩnh vực khai phá dữ
liệu.

16

Tuy luật kết hợp là dạng luật khá đơn giản nhưng lại mang rất nhiều ý
nghĩa. Thông tin mà dạng luật này đem lại là rất đáng kể và hỗ trợ không nhỏ
trong quá trình ra quyết định. Tìm kiếm được những luật kết hợp “quý hiếm” và
mang nhiều thông tin từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp
cận chính của lĩnh vực khai phá dữ liệu. Đây chính là một động lực không nhỏ
thúc đẩy việc tập trung nghiên cứu của nhiều nhà tin học.
2.2. Bài toán khai phá dữ liệu bằng luật kết hợp.
2.2.1. Phát biểu bài toán và các pha thực hiện.
Cho I={i1, i2, ... , in} là tập gồm n mục (thuộc tính).
T={t1, t2, ... ,tm} là tập gồm m giao dịch (bản ghi). Mỗi giao dịch được
định danh bởi TID (Transaction Identification).
Cho  là một quan hệ nhị phân trên I và T (hay   IxT ).
Nếu mục i xuất hiện trong giao dịch t thì ta viết (i,t) .
Một cơ sở dữ liệu D, về mặt hình thức chính là một quan hệ nhị phân 
như trên. Về ý nghĩa, một cơ sở dữ liệu là một tập các giao dịch, mỗi giao dịch t
là một tập mục: t  2 I (với 2I là tập các tập con của I)4
Sau đây là một ví dụ về cơ sở dữ liệu quan hệ (dạng giao dịch):
I = {A, C, D, T, W}, T = {1, 2, 3, 4, 5, 6 } Với thông tin về các giao dịch cho ở
bảng sau:

17

X I được gọi là tập mục (itemset). Độ hỗ trợ (support) của một tập mục X được
ký hiệu s(X) – là phần trăm số giao dịch trong cơ sở dữ liệu chứa X. Một tập mục
X được gọi là tập mục phổ biến nếu độ hỗ trợ của nó lớn hơn hoặc bằng một

mục X trong tập các tác vụ D, kí hiệu: supp(X) là tỉ số giữa số các tác
vụ T (của D) chứa X và tổng số các tác vụ của D (hay số phần trăm của
các tác vụ trong D có chứa X).

sup p( X ) 

T  D T  X 
D

Độ hỗ trợ của một tập mục có giá trị giữa 0 và 1, tức là 0supp(X)1 với
mọi tập mục X.

18

 Tập mục phổ biến (frequent itemset): Tập mục X mà thỏa điều kiện:
supp(X)  minsup ( với minsup là một giá trị cho trước) được gọi là tập
mục phổ biến với độ hỗ trợ cực tiểu minsup.
 Độ hỗ trợ của một luật: Cho luật r = XY, đỗ hỗ trợ của luật r kí hiệu
là supp(r) được xác định như sau: supp(r) = supp(XY).
 Độ tin cậy của một luật (confidence): Luật r = XY có độ tin cậy c
trong D nếu c là số phần trăm các tác vụ trong D mà chứa X thì cũng
chứa Y. Hay đó chính là xác xuất có điều kiện P(Y/X). Ta kí hiệu độ tin
cậy của luật r là conf(f). Độ tin cậy của một luật cũng có giá trị giữa 0
và 1.
Supp(XY) = P(XY)
Conf(XY) = P(Y/X) = supp(XY) /supp(X)
 Luật kết hợp mạnh (strong): Các luật thỏa mãn cả hai ngưỡng là độ hỗ
trợ cực tiểu và độ tin cậy cực tiểu được gọi là luật kết hợp mạnh, tức là:
Supp(XY) = P(XY)  minsup

Tập mục

(TID)

(itemset)

T1

A

T2
T3

C

D

B
A

B

T4

B

T5

B

20

Sau đây là bảng minh họa độ hỗ trợ của các tập mục đối với dữ liệu ở
bảng 2.3.
Bảng 2.4 - Độ hỗ trợ của các tập mục đối với CSDL ở bảng 2.3.
Tập Mục

Số tác vụ chứa mục

Độ hỗ trợ

A

2

40%

B

4

80%

C

2

40%

B,D

1

20%

C,D

1

20%

A,B,C

1

20%

A,B,E

1

20%

A,C,D

1

20%

Độ tin cậy

AC

100%

AB

50%

BD

25%

CD

50%

A,B  C

100%

A ,C B

50%

C,B  A

100%

Ví dụ: Trường hợp Z có mặt trong một tác vụ chỉ khi cả hai X và Y cũng
có mặt, tức là supp(X Y)=supp(Z), nếu độ hỗ trợ của X và Y đủ lớn hơn
supp(XY) hay supp(X)>supp(XY) và supp(Y)>supp(XY) thì hai luật
riêng biệt sẽ không đủ độ tin cậy
Tuy nhiên, đảo lại: X  Y  Z  X  Y  X  Z
(3) Tính chất 3- Các luật kết hợp không có tính chất bắc cầu.
Nếu X  Y và Y  Z chúng ta không thể suy ra X  Z.
Ví dụ: Giả sử T(X)T(Y)T(Z) tương ứng là tập các tác vụ chứa X,Y,Z
và độ tin cậy cực tiểu là minconf,
conf(XY)=conf(YZ)=minconf

23

thế thì: conf(XZ)=minconf2
Luật kết hợp định lượng: Là luật miêu tả sự quan hệ giữa các thuộc

tính hoặc các mục định lượng . Trong các luật này, các giá trị định lượng của
các mục hoặc các thuộc tính là được phân chia thành các khoảng. Luật sau là
một ví dụ luật kết hợp định lượng, ở đó X là biến biểu diễn khách hàng:
Tuổi( X, “30...40”)Thunhập(X, “42T...50T”)Mua(X, “Ô tô”)(R2)
ở đây thuộc tính định lượng là tuổi và thu nhập.


Luật kết hợp đơn chiều: là luật dựa trên chiều của dữ liệu chứa

trong luật. Cụ thể là nếu các mục hoặc các thuộc tính trong luật kết hợp tham
chiếu đến chỉ một chiều.
Ví dụ: Luật (R1) ở trên có thể viết lại:
Mua(X, “Máy tính”)Mua(X, “Phần mềm quản lý tài chính”) (R3)
Luật này là luật kết hợp đơn chiều vì nó chỉ đề cập đến một chiều đó là
Mua.
 Luật kết hợp đa chiều: là luật kết hợp dựa trên chiều của dữ liệu chứa
trong luật. Nếu luật tham chiếu đến nhiều hơn một chiều như là Mua, Loại
khách hàng,.... thì được gọi là luật kết hợp đa chiều.
Ví dụ: Luật (R2) ở trên có thể coi là luật kết hợp đa chiều vì nó chứa ba
chiều là tuổi, thu nhập, mua.
 Luật kết hợp với các mức trừu tượng khác nhau: Là các luật kết hợp
dựa trên mức độ trừu tượng chứa trong luật. Một số phương pháp khai phá luật
kết hợp có thể tìm các luật với các mức độ trừu tượng khác nhau.
Ví dụ: Giả sử rằng tập các luật khai phá được bao gồm các luật sau:
Tuổi(X, “30...39”)Mua(X, “máy tính xách tay”) (R4)
Tuổi(X, “30...39”)Mua(X, “máy tính ”)

(R5)

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu chung về khai phá dữ liệu - Pdf 37

Tài liệu, ebook tham khảo khác

Học thêm