Các tập mục thường xuyên trong khai phá dữ liệu và ứng dụng - pdf 25

Link tải luận văn miễn phí cho ae

Sự phát triển nhanh chóng các ứng dụng CNTT và Internet vào nhiều lĩnh
vực đời sống, xã hội, quản lý kinh tế, khoa học kỹ thuật,… đã tạo ra nhiều cơ sở
dữ liệu khổng lồ. Để khai thác hiệu quả nguồn thông tin từ các cơ sở dữ liệu
lớn, hỗ trợ tiến trình ra quyết định, bên cạnh các phương pháp khai thác thông
tin truyền thống, các nhà nghiên cứu đã phát triển các phương pháp, kỹ thuật và
phần mềm mới hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin.
Khai phá dữ liệu và khám phá tri thức (Data mining and knowledge
discovery) là một lĩnh vực quan trọng của ngành Công nghệ thông tin. Đây là
lĩnh vực đã thu hút đông đảo các nhà khoa học trên thế giới và trong nước tham
gia nghiên cứu. Khai phá tập mục thường xuyên được biết đến như một bài toán
con của khai phá luật kết hợp được giới thiệu bởi Agrawal vào năm 1993 khi
phân tích cơ sở dữ liệu bán hàng của siêu thị, phân tích sở thích mua của khách
hàng bằng cách tìm ra những mặt hàng khác nhau được khách hàng mua trong
cùng một lần mua. Những thông tin như vậy giúp người quản lý kinh doanh tiếp
thị chọn lọc và thu xếp không gian bày hàng hợp lý hơn, giúp cho việc kinh
doanh hiệu quả hơn.
Khai phá tập mục thường xuyên gặp khó khăn khi xử lý cơ sở dữ liệu lớn.
Vì thế đã có nhiều nghiên cứu về cách thức mở rộng, ứng dụng. Rất nhiều kết
quả nghiên cứu đã được công bố nhưng vấn đề khai phá tập mục thường xuyên
vẫn được coi là bài toán khó.
Với mục đích đóng góp vào lĩnh vực sôi động này, tác giả tìm hiểu và
nghiên cứu về các thuật toán khai phá tập mục thường xuyên phổ biến nhất,
đem lại một cái nhìn tổng quát về khai phá tập mục thường xuyên và luật kết
hợp.I. KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN
I.1. Mở đầu
Khai phá tập mục thường xuyên đóng vai trò quan trọng trong nhiều nhiệm
vụ khai phá dữ liệu. Khai phá tập mục thường xuyên xuất hiện như bài toán con
của nhiều lĩnh vực khai phá dữ liệu như khám phá luật kết hợp, khám phá mẫu
tuần tự, phân tích tương quan, phân lớp, phân cụm dữ liệu, khai phá Web,… Bài
toán khai phá tập mục thường xuyên được giới thiệu lần đầu bởi Agrawal vào
năm 1993 khi phân tích cơ sở dữ liệu bán hàng của siêu thị [9] trong mô hình
của bài toán khai phá luật kết hợp. Khai phá luật kết hợp là phát hiện những mối
quan hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu, các mối quan hệ đó chính là
các luật kết hợp.
Khai phá luật kết hợp có hai bước: bước thứ nhất, tìm các tập mục thường
xuyên thỏa mãn ngưỡng độ tối thiểu minsup cho trước, bước thứ hai, từ các tập
mục thường xuyên tìm được, sinh ra các luật kết hợp thỏa mãn ngưỡng độ tin
cậy minconf cho trước. Mọi khó khăn của bài toán khai phá luật kết hợp tập
trung ở bước thứ nhất, đó là khai phá tập mục thường xuyên thỏa mãn ngưỡng
độ hỗ trợ cho trước.
Kể từ khi Agrawa đề xuất, khai phá tập mục thường xuyên đã thu hút được
sự quan tâm của nhiều nhà nghiên cứu, đã có hàng trăm kết quả nghiên cứu
được công bố giới thiệu các thuật toán mới hay đề xuất các giải pháp nâng cao
hiệu quả các thuật toán đã có. Tập mục thường xuyên đã có vai trò quan trọng
trong nhiều ứng dụng thực tế như quản lý quan hệ khách hàng, nâng cao hiệu
quả của thương mại điện tử, trong lĩnh vực tin sinh học, phân tích cấu trúc
Protein và DNA, mở rộng truy vấn, phát hiện xâm nhập mạng…[13, 14, 15, 16].
Mô hình khai phá tập mục thường xuyên cơ bản có nhiều ứng dụng trong
thực tế nhưng có những hạn chế, không đáp ứng đầy đủ yêu cầu của người sử
dụng. Ràng buộc về độ hỗ trợ và độ tin cậy của luật kết hợp chỉ mang ngữ nghĩa
thống kê, không phản ánh được vai trò khác nhau của các thuộc tính cũng như
đặc tính dữ liệu vốn có của chúng trong cơ sở dữ liệu.




Mh1dX40oF2WymqN
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status