KHAI PHÁ LUẬT KẾT HỢP CHO CƠ SỞ DỮ LIỆU GIA TĂNG - Pdf 23

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
PHÙNG QUANG TIẾN
KHAI PHÁ LUẬT KẾT HỢP CHO
CƠ SỞ DỮ LIỆU GIA TĂNG
CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH

MÃ SỐ : 60.48.01

TÓM TẮT LUẬN VĂN THẠC SĨ



Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

1
MỞ ĐẦU
Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin đã làm
cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng lên một cách
nhanh chóng. Bên cạnh đó, việc tin học hóa một cách ồ ạt và nhanh chóng các hoạt động sản
xuất, kinh doanh cũng như nhiều lĩnh vực khác đã tạo ra cho chúng ta một lượng dữ liệu cần
lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu được sử dụng trong các hoạt động sản xuất, kinh
doanh, quản lý, , trong đó có nhiều cơ sở dữ liệu cực lớn cỡ Gigabyte, thậm chí Terabyte.
Trong các lĩnh vực kinh doanh và đời sống như: marketing, tài chính, ngân hàng, bảo
hiểm, khoa học, y tế, giáo dục, an ninh, internet các tập dữ liệu luôn luôn được bổ sung và
gia tăng theo thời gian, do vậy các tập thường xuyên và các luật kết hợp đã được tính toán
không còn giá trị trên tập dữ liệu mới. Ngoài ra, với một cơ sở dữ liệu ổn định, khi cần tìm
các tập dữ liệu thường xuyên với độ hỗ trợ khác, công việc phải tính lại từ đầu do vậy rất
mật thơi gian và tốn kém.
Để cố gắng tìm ra được những phương pháp để làm giảm đi độ phực tạp và đỡ tốn
kém thời gian, chi phí cho quá trình khai phá dữ liệu đối với những hệ cơ sở dữ liệu lơn,
thường xuyên thay đổi nên tôi chọn đề tài “Khai phá luật kết hợp cho cơ sở dữ liệu gia
tăng”.
Luận văn gồm 3 chương, với các nội dung:
Chương 1: Trình bày tổng quan về khám phá tri thức và khai phá dữ liệu, trong đó có đề
cập đến khái niệm tri thức, dữ liệu, quá trình khám phá tri thức, nhiệm vụ và các kỹ thuật
khám phá tri thức.
Chương 2: Trình bày về luật kết hợp, trong đó trình bày về các khái niệm, định nghĩa, tính


Target
Data
Gatherin
g

Data Mining

Selection

Transformat
ion

Cleansing Pre-
processing
Preparation Envalution of
Rule
Internet,

CHƯƠNG 1
TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC
VÀ KHAI PHÁ DỮ LIỆU
1.1. Giơi thiệu khám phá tri thức và khai phá dữ liệu
Trong thời đại bùng nổ thông tin, các công nghệ lưu trữ dữ liệu hiện nay càng được


3
Hình 1.1 Quá trình khám phá tri thức từ cơ sở dữ liệu
- Gom dữ liệu ( Gathering)
- Trích lọc dữ liệu ( Selection)
- Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu ( cleansing, Pre-processing and
Preparation)
- Chuyển đổi dữ liệu (Transformation)
- Phát hiện và trích mẫu dữ liệu ( Pattern Extraction and Discovery)
- Đánh giá kết quả mẫu (Evaluation of Result)

1.2.1. Xác định vấn đề
1.2.2. Thu thập và tiền xử lý dữ liệu
1.2.3. Khai thác dữ liệu
1.2.4. Minh họa và đánh giá
1.2.5. Đưa kết quả vào thực tế
1.3. Khai phá dữ liệu
1.3.1 Các quan niệm về khai phá dữ liệu
Sau đây là một số quan niệm về khai phá dữ liệu:
Khai phá dữ liệu là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ
kho dữ liệu khổng lồ.
Khai phá dữ liệu giống như quá trình tìm ra và mô tả mẫu dữ liệu. Dữ liệu như là một
tập hợp của các vật hay sự kiện, còn đầu ra của quá trình khai phá dữ liệu như là những dự
báo của các vật hay sự kiện mới.
Như vậy, mục đích của khám phá tri thức và khai phá dữ liệu là tìm ra các mẫu hoặc
mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị khuất bởi một số lượng dữ
liệu khổng lồ.

hàng, từ đó đánh giá hiệu quả của việc tiếp thị qua Web và cải thiện hoạt động của các
Website; Trang Web mua bán qua mạng Amazon cũng tăng doanh thu nhờ áp dụng khai
phá dữ liệu trong việc phân tích sở thích mua bán của khách hàng.
1.3.5. Các kỹ thuật khai phá dữ liệu
Thường được chia thành hai nhóm chính:
- Kỹ thuật khai phá dữ liệu mô tả: gồm có
Phân cụm (clustering), tóm tắt (summarization), trực quan hóa (visualiztation), phân tích
sự phát triển và độ lệch (evolution and deviation analyst), phân tích luật kết hợp
(association rules)…
- Kỹ thuật khai phá dữ liệu dự đoán: gồm có
Phân lớp (classification), hồi quy (regession)…
Tuy nhiên, chỉ có một số phương pháp thông dụng nhất là: Phân cụm dữ liệu, phân
lớp dữ liệu, phương pháp hồi quy và khai phá luật kết hợp.
1.3.6. Kiến thức của hệ thống khai phá dữ liệu
Như đã trình bày ở trên, khai phá dữ liệu là một giai đoạn trong quá trình phát hiện
tri thức từ số lượng lớn dữ liệu lưu trữ trong các cơ sở dữ liệu, kho dữ liệu hoặc các nơi lưu
trữ khác. Bước này có thể tương tác lẫn nhau giữa người sử dụng hoặc cơ sở tri thức, những
mẫu đáng quan tâm được đưa cho người dùng hoặc lưu trữ như là một tri thức mới trong cơ
sở tri thức.
5


liệu để tập trung vào tìm các mẫu quan tâm.
- Giao diện người dùng: Đây là modul giữa người dùng và hệ thống khai phá dữ liệu. Cho
phép người dùng tương tác với hệ thống trên cơ sở những truy vấn hay tác vụ, cung cấp
thông tin cho việc tìm kiếm.
1.3.7. Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu (Hình 1.3) bắt đầu bằng cách xác định chính xác vấn đề giải
quyết. Tiếp đến là xác định dữ liệu liên quan dùng để xây dựng giải pháp. Bước tiếp theo là
thu thập các dữ liệu liên quan và xử lý chúng thành dạng sao cho thuật toán khai phá có thể
hiểu được.

Giao diện người dùng
Đánh giá mẫu
Mô tả khai phá dữ liệu
CSDL hay kho dữ liệu
phục vụ
Cơ sở tri thức
Cơ sở dữ liệu
Kho dữ liệu
6
- Sự tương tác với người sử dụng các tri thức sẵn có
Xác định
nhiệm vụ
Xác đinh
dữ liệu liên
quan
Thu thập
và tiền xử
lý dữ liệu
Thuật toán
khai phá
dữ liệu
Dữ liệu trực tiếp


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status