HVKTQS
!"#$"%
Hc viên thc hin:
&'()*+
1
2
3
4
!"#$%&'(
5
)
',' '/)
Trong thời đại bùng nổ công ngh thông tin, các công ngh lưu
trữ dữ liu ngày càng phát triển nhanh chóng tạo điều kin cho
các đơn vị thu thập dữ liu nhiều hơn và tốt hơn.
0123-4)56768-69:1
Kết quả đạt được
*+,-.%/#'%012
3#4567
*+,,&01283
2,94:;%!2<)=1
2>#?##03./'%/
Hướng phát triển
@8&-,&012
83,%$#;A1#,B8
C2="
,
.;*<,=(><'/)
Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các lớp C= {C1,…,Cm}, bài
toán phân lớp được phát biểu như sau: Xác định ánh xạ
f : D
C sao cho với mỗi ti được quy về một lớp Cj.
Về mặt thc chất, bài toán phân lớp chính là chia D thành các lớp tương
đương.
-
Vic phân lớp được thc hin da trên khoảng cách Euclidean nhỏ nhất
giữa đối tượng đến phần tử trung tâm của các lớp/nhóm.
Phần tử trung tâm của nhóm được xác định bằng giá trị trung bình các
phần tử trong nhóm
0
E*.2.@5*+101.F)1<'(BC*
A = {a1, a2 an} - Tập n đối tượng
aj=(xj1, xj2, xjm) j=1 n - phần tử thứ j cần phân loại
xjs s=1 m - thuộc tính của đối tượng
ci=(ci1, ci2, cim) i=1 k - phần tử trung tâm nhóm i
cis s=1 m - thuộc tính của phần tử trung tâm i
1("2&3
"3'45"36
78#"'
9'
∑
=
−=∂
m
s
isjsij
cx
E
A
FG
:;
E*.<8'-@86&-;G1HCIJ*+
IAJ*$,P#2!;%δQ
IRJ@'%S$;(#>GAF
,33(#T,P#2=&U$2=!%#
$3
)
LM6N2.O'1HC )?--@0*ABC*D
Data input:
- n objects
- k clusters
Start
Initial k cluster centers
calculate
δ objects-centers
grouping based on
the δmin
No object
move group
recomput c
i
T
F
End
*
&=.P1-8=1HC )?--@0*
Số ô nhớ cần dùng để lưu trữ các đối tượng là O(mn) trong đó m là số
đối tượng còn n là số chiều (hay số thuộc tính) của các đối tượng
Còn độ phức tạp về thời gian của giải thuật K-MEANS là O(I*K*m*n)
trong đó I là số bước lặp cần thiết để giải thuật dừng (hội tụ), K là số
gi là một item. Gi D là một CSDL, trong đó mỗi bản ghi T là
một giao dịch và chứa các tập item, T
⊆
I.
Định nghĩa 1: Một luật kết hợp là một quan h có dạng X
⇒
Y,
trong đó X, Y
⊂
I là các tập item gi là itemsets và X
∩
Y=
φ
. Ở
đây X được gi là tiền đề, Y là mnh đề kết quả.
Hai thông số quan trng của luật kết hợp là độ hỗ trợ (s) và độ
tin cậy (c).
Định nghĩa 2: Độ hỗ trợ (support) của luật kết hợp X
⇒
Y là tỷ
l % các giao dịch có chứa X, Y với tổng số các giao dịch có
trong cơ sở dữ liu.
Định nghĩa 3: Độ tin cậy (confidence) của luật là tỷ l % của số
giao dịch có chứa X, Y với số giao dịch có chứa X.
-
)?-23-.:=
Một số khái nim liên quan
@3;2$3;
@;aC2;$,bS1
%=C#!
@;3G>#cF2;-
,V;Vd$2;aC3(#
Các thuật toán tìm luật kết hợp
@<ef
@fM@Y
@<
@M%
/
.)?--@0*$=R'@R'
Ý tưởng: Tạo ra các tập phổ biến có 1 item, tập 2 items tạo từ
tập 1_item,……tập k items tạo từ tập k-1 items. Xây dng
luật từ tập phổ biến k items tìm được.
Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và độ
tin cậy.
Tính chất: mi tập item phổ biến thì tất cả các tập item con
tại vòng (k-1) sử dụng hàm Apriori_gen(). Sau khi
xác định được các tập ứng cử viên, thuật toán quét
từng giao dịch trong CSDL để xác định độ hỗ trợ
của các tập ứng cử viên. Quá trình xác định các tập
item phổ biến sẽ kết thúc khi không xác định được
thêm tập item phổ biến nào nữa.
.)?--@0*$=R'@R'
1.2. Nội dung hàm Apriori_gen()
+ F
k-1
được kết nối với chính nó thu được C
k
+ Apriori_gen() xoá tất cả các tập item từ kết quả kết nối mà
có 1 số tập con (k-1) không có trong F
k-1
. Sau đó nó trả về tập
item phổ biến kích thước k còn lại.
g?J
F
R
OZZEXAXRWXZEXAX[WXZEXRX[WX
ZEXRX]WXZAXRX[WW
<h;N
C
[
OZZEXAXRX[WXZEXRX[X]WW
<h;#J
G33&E
H3%
R;
R
RC
A%
fe;!;
I#&G&'E&E
C
%;
%
;
C;
%C
e;!;
G33&E
;
C;
C
%;
%
%C
e;!;
A
E
A
A
R
E
f
Với mỗi tập con h tìm được, ta xuất ra luật dạng (h)
⇒
(f-h) nếu tỉ l
support(f)/support(h)
≥
mincof.