March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 3
1
Bài giảng môn học
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Chương 3: Giới thiệu chung về Kho dữ liệu
Tài liệu này sử dụng một phần
Bài giảng ”Data Mining: Concepts and Techniques” — Slides for Textbook —
©Jiawei Han and Micheline Kamber
Department of Computer Science
University of Illinois at Urbana-Champaign
www.cs.uiuc.edu/~hanj
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 3
2
Nội dung
Khái niệm kho dữ liệu
Mô hình dữ liệu đa chiều
Kiến trúc kho dữ liệu
Thi hành kho dữ liệu
Từ xây dựng kho dữ liệu tới KPDL
Sự phát triển mới của công nghệ khối dữ liệu
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
3
tích hợp
,
có tính thời gian
và
không
thay đổi
[Inm02] W. H. Inmon (2002).
Building the Data Warehouse (Third Edition)
. John Wiley & Sons, Inc.
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
4
Kho dữ liệu: khái niệm
Kho dữ liệu là một môi trường thông tin [Pon01]:
Cung cấp một khung nhìn tích hợp và tổng thể về doanh nghiệp
Tạo sự sẵn có thông tin hiện tại và lịch sử của doanh nghiệp để
thuận lợi ra quyết định
Tạo khả năng giao dịch hỗ trợ quyết định mà không cản trở hệ
thống tác nghiệp
Cung cấp tính nhất quán thông tin doanh nghiệp
Trình diễn nguồn thông tin chiến lược linh hoạt và tương tác được
Bổ sung đặc trưng thứ năm là “kết hạt dữ liệu - Data Granularity”
[Pon01] Paulraj Ponniah,
Data warehousing fundamentals
quyết định
; không phái quá trình tác nghiệp hoặc giao dịch
hàng này.
Cung cấp một
khung nhìn đơn giản và ngắn gọn
về các đề
tài thuộc chủ đề cụ thể nhờ loại bỏ các dữ liệu vô dụng
trong quá trình ra quyết định.
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
8
Ứng dụng tác nghiệp chủ đề KDL
KDL — đặc trưng hướng chủ đề
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
9
KDL - đặc trưng tích hợp
KDL đươc xây dựng từ việc tích hợp các nguồn dữ liệu
phức, không đồng nhất
CSDL quan hệ, CSDL file phẳng (flat files: mã hóa
CSDL sang dạng đặc biệt như .txt hoặc .ini), các bản
ghi giao dịch trực tuyến
Sử dụng các kỹ thuật làm sạch dữ liệu và tích hợp dữ
liệu.
Đảm bảo tính nhất quán quy ước đặt tên, cấu trúc mã
Mọi cấu trúc cốt lõi trong KDL
Chứa yếu tố thời gian, hiện hoặc ẩn
Nhưng cốt lõi của dữ liệu tác nghiệp có thể chứa hoặc
không chứa “yếu tố thời gian”.
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
14
KDL - đặc trưng thời gian
•
Chiều thời gian 5=10 năm
•
Anbum ảnh chụp dữ liệu
•
Cấu trúc chính chứa yếu tố thời gian
•
Chiều thời gian hiện thời tới 60-
90 ngày
•
Cập nhật hồ sơ
•
Cấu trúc chính chứa / không
chứa yếu tố thời gian
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
15
KDL - đặc trưng không thay đổi
nhất
Tiếp cận theo truy vấn
Khi một truy vấn được đưa đến CSDL cục bộ: dùng một siêu
từ điển để dịch truy vấn thành các truy vấn phù hợp với các
CSDL cục bộ riêng rẽ và kết quả được tích hợp thành một tập
trả lời toàn cục
Phức tạp lọc thông tin, cạnh tranh tài nguyên
KDL: định hướng cập nhật, hiệu năng cao
Thông tin từ các nguồn không đồng nhất được tích hợp trước và
lưu trữ trong KDL để truy vấn và xử lý trực tiếp
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
18
KDL và Hệ QTCSDL tác nghiệp
OLTP (xử lý giao dịch trực tuyến / on-line transaction processing)
Bài toán chính của Hệ QT CSDL quan hệ truyền thống
Tác nghiệp hàng ngày: thu mua, lưu kho, ngân hàng, sản xuất,
tiền lương, đăng ký, kế toán, vv
OLAP (xử lý phân tích trực tuyến/ on-line analytical processing)
Bài toand chính của hệ thống KDL
Chức năng khác nhau và dữ liệu khác nhau:
Thiếu dữ liệu: Hỗ trợ quyết định cần dữ liệu lịch sử mà CSDL tác
nghiệp thường không duy trì
Hợp nhất dữ liệu: Hỗ trợ quyết định đòi hỏi hợp nhất (tổng hợp,
tóm tắt) của dữ liệu từ các nguồn không đồng nhất
Chất lượng dữ liệu: nguồn khác nhau sử dụng trình diễn, mã hóa
và khuôn dạng dữ liệu không nhất quán (cần phải hòa hợp)
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
21
Kho dữ liệu riêng biệt
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
22
Từ các bảng và bảng tính tới khối dữ liệu
Một KDL dựa trên một
mô hình dữ liệu đa chiều
với khung nhìn dữ
liệu dưới dạng các khối dữ liệu
Một khối dữ liệu, như sales, cho phép dữ liệu được mô hình hóa và
được nhìn theo đa chiều
Bảng chiều, như item (item_name, brand, type), hoặc time(day,
week, month, quarter, year)
Kho dữ liệu và khai phá dữ liệu: Chương 3
24
Chương 3: Cơ sở về kho dữ liệu
Khái niệm kho dữ liệu
Mô hình dữ liệu đa chiều
Kiến trúc kho dữ liệu
Thi hành kho dữ liệu
Từ xây dựng kho dữ liệu tới KPDL
Sự phát triển mới của công nghệ khối dữ liệu
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
25
Mô hình khái niệm của KDL
Mô hình KDL: chiều và giá trị đo
Sơ đồ hình sao (star schema): Một bảng sự kiện ở
trung tâm được kết nối với một tập các bảng chiều
Sơ đồi bông tuyết (Snowflake schema): Một mở rộng
của sơ đồ hình sao trong đó một vài cấu trúc chiều
được chuẩn hóa thành một tập các bảng chiều nhỏ
hơn, hình thức tương tự như bông tuyết.