BÁO CÁO LUẬN VĂN THẠC SỸ
NGHIÊN CỨU MỘT SỐ KỸ THUẬT
KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG
Học viên: Hoàng Hà
Người hướng dẫn: TS. Nguyễn Công Hào
Nghiên cứu một số kỹ thuật khai phá
luật kết hợp mờ
Lý thuyết tập mờ
Đại số gia tử
2
Tìm hiểu các vấn đề trong khai phá luật kết hợp đối với
thuộc tính số, ĐSGT
Tìm hiểu thuật toán khai phá luật kết hợp mờ tổng quát
Nghiên cứu thuật toán khai phá luật kết hợp mờ tổng quát
theo hướng tiếp cận ĐSGT
3
Tìm hiểu các kiến thức liên quan
Thuật toán khai phá luật kết hợp mờ tổng quát theo hướng
lý thuyết tập mờ
Thuật toán khai phá luật kết hợp mờ tổng quát theo hướng
ĐSGT
Cài đặt thuật toán
Đánh giá thuật toán
>, <A:start
p
end
p
>
: p lớn
<A:start
i
end
i
>
bằng true nếu bản ghi tại thuộc tính A ban
đầu nằm trong khoảng <A:start
i
end
i
>
Ví dụ 2
7
Khi rời rạc hóa theo khoảng đưa đến các vấn đề
Suy luận
Không đủ độ hỗ trợ, bỏ sót 1 số khoảng thú vị
Nhấn mạnh tầm quan trọng của một khoảng nào đó
Với biến ngôn ngữ X chứa các giá trị ngôn ngữ mang một
thông tin mờ nhất định gọi độ mờ của giá trị ngôn ngữ được
xác định thông qua hàm fm: X
[0,1] và x X ∀ ∈ đặt fm(x)
= |I(x)| [0,1] với I⊆
k
(x) được xem là khoảng mờ mức k của
giá trị ngôn ngữ x, với k là độ dài của x.
Dựa vào các khoảng mờ mức k, ta đưa ra cách biểu diễn
khoảng cho các giá trị ngôn ngữ như sau:
Gọi O
min,k
(x) là một lân cận tối thiểu mức k của x chứa giá trị
tương thích nhất ngữ nghĩa của x với |x| = j, được tính theo
công thức:
O
min,k
(x) = I
k+1
(h
-1
x)
∪
I
k+1
(h
Suy ra, một biểu diễn khoảng cho x là:
IRP(x) = {O
min,k
(x)|1≤k≤k
*
}
Ví dụ 3: Cho ĐSGT của biến ngôn ngữ chiều cao là AX =
(X, G, H,
≤
)
G = {thấp,cao }
H
-
= {gần, ít}
H
+
= {khá, rất,} với rất> khá và ít > gần; fm(thấp) = 0.42,
fm(cao) = 0.58,
µ
(gần) = 0.27,
µ
(ít) = 0.25,
µ
(khá) = 0.28,
µ
(rất) = 0.20,
Từ giả thiết trên ta có
α
= 0.52,
Đầu vào: CSDL n giao tác số
Tập mờ và các hàm thành viên
Phân cấp được định nghĩa trước,
minsup và minconf
Đầu ra: Tập các luật kết hợp tổng quát mờ
Phương pháp:
◦
Bước 1: Thêm các ance
◦
Bước 2: Chuyển các giá trị số v
ij
về dạng
f
ij1
/R
j1
+ f
ij2
/R
j2
+…+ f
ijh
/R
jh
14
◦
1
, s
2
)
Tính toán lấy giá trị vùng mờ f
is
= min(f
is1
, f
is2
).
Tính toán bản số vô hướng s trong CSDL giao tác
count
s
=
Nếu count
s
≥ α thì đưa s vào L
2
15
◦
Bước 8: Nếu L
2
≠ϴ thực hiện bước tiếp theo
◦
Bước 9: Đặt r = 2
Đặt vấn đề:
◦
Việc xây dựng hàm thuộc cho các tập mờ
◦
Hướng tiếp cận theo ĐSGT
Đầu vào: CSDL n giao tác số
Phân cấp được định nghĩa trước,
minsup và minconf
Đầu ra: Tập các luật kết hợp tổng quát mờ
17
Phương pháp:
Cách chuyển các giá trị số về đoạn [0,1] bằng công thức
(3.1) như sau:
Xác định các vùng mờ:
Dựa trên độ đo mờ gia tử dương, âm, và các phần tử sinh,
tính
các độ đo mờ của các gia tử tác động lên giá trị ngôn ngữ và
các phân hoạch giá trị ngôn ngữ:
fm (h
e
c
-
), fm(h
e
c
c
-
) =
[
∂
p
w,
∂
p
w+
∂
p-1
w),…., I(h
-q
c
-
) = [
∂
-q+1
w,
∂
-q+1
w+
∂
-q
w).
Đặt
∂
=
∂
(1-
w)+∂
-q+1
(1-w)+ +∂
p
, 1];
◦
Xác định các giá trị ngôn ngữ x
◦
Tính toán các giá trị ngôn ngữ ở các mức k khác nhau sẽ
thu được các luật kết hợp mờ khác nhau bằng cách tính
lân cận tối thiểu mức k của x theo công thức (1) (2) (3)
◦
k: hữu hạn (k = 3)
◦
k=1, xác định các H(hx) để tính các lân cận tối thiểu
◦
H(hx) là tập các giá trị ngôn ngữ có kích thước khác
nhau chứa x
19
Các bước thực hiện như đối với thuật toán tương tự như đối
với thuật toán đã trình bày ở trên
Khác biệt:
Bước 14 có 2 trường hợp xảy ra như sau:
Trường hợp thứ 1:Tìm ra được luật
Xét xem các giá trị độ tin cậy tìm ra được của luật tương
ứng với giá trị ngôn ngữ thuộc vùng mờ nào.Sau đó gán
k=k+1, quay lại bước 2
số lượng
= {khả năng, ít}
rất > hơn, ít > khả năng
Đặt fm(thấp) = 0.7, fm(cao) = 0.3,
µ
(rất) = 0.11,
µ
(hơn) =
0.2,
µ
(khả năng) = 0.3,
µ
(ít) = 0.4
Dom(số lượng) = {2, 3, 4, 5, 7, 8,9, 10,12}
Chuyển các giá trị này về đoạn [0,1]
vì rất thấp < hơn thấp < thấp < khả năng thấp < ít thấp nên
I(rất thấp) = [0, 0.07), I(hơn thấp) = [0.07, 0.21), I(khả năng thấp) =
[0.21, 0.455), I(ít thấp) = [0.455, 0.7).
I(ít cao) = [0.7, 0.805), I(khả năng cao) = [0.805, 0.91), I(hơn cao) =
[0.91, 0.97), I(rất cao) = [0.97, 1].
Xét k = 1
O
O
min, 1
(ít cao) = I (ít cao) = [0.7, 0.805)
O
min, 1
(khả năng cao) = I (khả năng cao)=[0.805, 0.91)
O
min, 1
(hơn cao) = I (hơn cao) = [0.91, 0.97)
O
min, 1
(rất cao) = I (rất cao) = [0.97, 1]
Với k = 2 ta lần lượt tính các O
min,2
(x) với k = j = 2
O
min, 2
(rất cao), O
min,2
(hơn cao), O
min, 2
(khả năng cao), O
min,2
(ít
cao)…
O
min, 2