1
ĐẠI HỌC QUỐC GIA HÀ NỘI
***
TRẦN THỊ THÚY NGA XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP
VÀ ỨNG DỤNG TRONG KHAI THÁC KHO DỮ LIỆU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Chuyên ngành:
Mã số: 1 .01 .10
Hướng dẫn khoa học: PGS.TS Đoàn Văn Ban
1.2.3 SIÊU DỮ LIỆU (METADATA ) 19
1.3 KIẾN TRÚC DỮ LIỆU DW 20
1.3.1 KIẾN TRÚC THAM CHIẾU CƠ BẢN VÀ MỘT SỐ NGUYÊN LÝ
HOẠT ĐỘNG CỦA KHO DỮ LIỆU 20
1.3.1.1 KHỐI CÁC NGUỒN DỮ LIỆU 21
1.3.1.2 KHỐI TẠO DỰNG KHO DỮ LIỆU 21
1.3.1.3 KHỐI TẠO DỰNG DATA MART 22
1.3.1.4 KHỐI TRUY NHẬP VÀ SỬ DỤNG 22
1.3.1.5 LỚP QUẢN LÝ DỮ LIỆU 23
1.3.1.6 LỚP QUẢN LÝ SIÊU DỮ LIỆU 23
1.3.1.7 LỚP CHUYỂN TẢI DỮ LIỆU 23
1.3.1.8 LỚP KẾT CẤU HẠ TẦNG 23
1.3.2 KIẾN TRÚC LOGIC CỦA DW 24
1.4 MÔ HÌNH DỮ LIỆU 25
1.4.1 NỀN TẢNG CỦA VIỆC HÌNH THÀNH MÔ HÌNH 25
1.4.2 SƠ ĐỒ HÌNH SAO - STAR SCHEMA 26
1.4.3 SƠ ĐỒ HÌNH TUYẾT RƠI - SNOWFLAKE 28
1.4.4 SƠ ĐỒ KẾT HỢP 29
1.5 KẾT LUẬN CHƯƠNG 1 29
CHƯƠNG 2 31
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 31 - 3 -
2.1 TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 31
2.2 ĐỊNH NGHĨA OLAP 32
2.3 MÔ HÌNH CƠ SỞ DỮ LIỆU DẠNG KHỐI 33
2.3.1 TỔNG QUAN 33
2.3.2 ĐỊNH NGHĨA KHỐI 34
2.3.3 LÁT CẮT 34
3.3.2 BỘ CÔNG CỤ MICROSOFT SQL SERVER 54
3.3.3 NGÔN NGỮ TRUY VẤN ĐA CHIỀU MDX 54
3.3.3.1 KHÁI QUÁT CHUNG 54
3.3.3.2 SO SÁNH SỰ KHÁC NHAU GIỮA NGÔN NGỮ SQL VÀ
NGÔN NGỮ MDX 56
3.4 PHÂN TÍCH, THIẾT KẾ KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ 57
3.4.1 NHÌN LẠI HỆ THỐNG THIẾT KẾ OLTP 57 - 4 -
3.4.1.1 PHÂN TÍCH DỊCH VỤ MUA BÁN HÀNG HOÁ HỮU HÌNH
VÀ PHI VẬT THỂ 59
3.4.1.2 PHÂN TÍCH DỊCH VỤ MUA BÁN MỘT SỐ DỊCH VỤ DU
LỊCH 61
3.4.2 PHÂN TÍCH HỆ THỐNG KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ
62
3.4.2.1 PHÂN TÍCH CÁC CHỨC NĂNG 63
3.4.2.2 PHÂN TÍCH VỀ DỮ LIỆU 65
3.4.2.3 XÁC ĐỊNH CÁC BẢNG SỰ KIỆN (FACT TABLE -FT) VÀ
CÁC BẢNG CHIỀU (DIMENSION TABLE) CỦA KHO DỮ LIỆU 66
3.4.3 THIẾT KẾ HỆ THỐNG 67
3.5 KẾT LUẬN CHƯƠNG 3 72
CHƯƠNG 4 74
XÂY DỰNG KHO DỮ LIỆU TMĐT VÀ 74
GIẢI PHÁP XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 74
4.1 TRÍCH CHỌN, XỬ LÝ, NẠP DỮ LIỆU VÀO KHO 74
4.1.1 TỔ CHỨC HỆ THỐNG 74
4.1.2 THU THẬP VÀ TẠO LẬP DỮ LIỆU CHO KHO DỮ LIỆU 75
4.1.2.1 TRÍCH CHỌN, CHUYỂN TẢI VÀ NẠP DỮ LIỆU 75
4.1.2.2 LỌC, TINH CHẾ DỮ LIỆU 75
Giải nghĩa
BD
Business Data
Dữ liệu nghiệp vụ
BIW
Business Information Warehouse
Kho thông tin tác nghiệp
CNTT
Công nghệ thông tin
DB
Database
Cơ sở dữ liệu
DM
DataMart
Kho dữ liệu cục bộ
DSS
Decision Support System
Hệ hỗ trợ quyết định
DW
DataWarehouse
Kho dữ liệu
EDM
Enterprise Data Model
Mô hình dữ liệu mức xí nghiệp
FT
Fact Table
Bảng thực
HQT
Vùng chủ đề
TMĐT
Thương mại điện tử
VDW
Virtual Data Warehouse
Kho dữ liệu ảo - 6 -
MỞ ĐẦU
1. Đặt vấn đề
Trong thời đại của nền kinh tế tri thức mà chúng ta đang sống, mọi hoạt
động của chúng ta muốn đạt hiệu quả cao thì nhất thiết phải có được thông tin,
tri thức cần thiết một cách nhanh chóng và chính xác. Thông tin có thể có được
ở mọi nơi, mọi thời điểm và từ nhiều dạng khác nhau.
Mục tiêu của các tổ chức, các xí nghiệp là phải phục vụ tốt theo yêu cầu
của khách hàng, giành được ưu thế trong cạnh tranh để phát triển. Để có thể
quản lý được các hoạt động của xí nghiệp, người quản lý không chỉ cần biết cái
gì đang xảy ra mà còn phải biết được lý do tại sao. Trong giai đoạn xử lý dữ liệu
tự động nhờ những kỹ thuật của công nghệ thông tin, các xí nghiệp đã xây dựng
được nhiều ứng dụng để trả lời nhanh các câu hỏi "Những cái gì đã xảy ra?".
Các hệ thống thông tin hiện tại sẽ giúp cho các nhà quản lý hiểu được "tại sao
những điều đó lại xảy ra?" và để giành được lợi thế trong cạnh tranh, đáp ứng
yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán
biết được "Những gì có thể sẽ xảy ra tiếp theo?". Để có thể trả lời những câu hỏi
trên thì cần có các phương pháp, công cụ để tổ chức, xử lý khai thác tốt dữ liệu.
Những mục tiêu trên không dễ gì có được bởi vì dữ liệu ngày một nhiều,
lưu trữ ở nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng
phi cấu trúc. Người sử dụng thường xuyên gặp phải những khó khăn như:
dụng công cụ xử lý phân tích trực tuyến OLAP để khai thác thông tin một cách
có hiệu quả và nhanh chóng, trợ giúp các nhà quản lý, các nhà lãnh đạo đưa ra
những quyết định đúng đắn, kịp thời cho các chiến lược phát triển của họ.
2. Mục tiêu của luận văn
Mục tiêu của đề tài là nghiên cứu công nghệ kho dữ liệu và xử lý phân
tích trực tuyến OLAP để khai thác kho nhằm cung cấp thông tin nhanh chóng và
chính xác cho các nhà lãnh đạo và quản lý, bao gồm các vấn đề chính sau đây:
- Nghiên cứu công nghệ kho dữ liệu, giải pháp tích hợp và tận dụng các
nguồn dữ liệu có sẵn để tạo thành kho, các khái niệm cơ bản của kho dữ liệu,
các kiểu dữ liệu, mô hình và kiến trúc kho dữ liệu.
- Nghiên cứu một phương pháp khai thác kho dữ liệu - xử lý phân tích
trực tuyến OLAP, sử dụng mô hình khối dữ liệu đa chiều để xây dựng và lưu trữ
dữ liệu đã được tổng hợp phục vụ cho việc khai thác được nhanh chóng và thuận
tiện. - 8 -
- Ứng dụng lý thuyết đã nghiên cứu để xây dựng kho dữ liệu thương mại
điện tử và các khối dữ liệu đa chiều để phân tích, xử lý và lưu trữ các dữ liệu
tổng hợp, phục vụ cho việc khai thác thông tin nhanh chóng và hiệu quả.
- Nghiên cứu cách khai thác thông tin trong khối dữ liệu đa chiều bằng
cách tạo lập và thực hiện truy vấn trên khối; hiển thị kết quả phân tích dưới
nhiều hình thức trực quan, sinh động, uyển chuyển nhằm hỗ trợ có hiệu quả cho
công tác quản lý, điều hành của ban lãnh đạo.
3. Bố cục của luận văn
Luận văn gồm 4 chương:
Chƣơng 1: Trình bày khái quát chung về công nghệ kho dữ liệu: các khái
niệm cơ bản, các kiểu dữ liệu, kiến trúc và mô hình kho dữ liệu.
Chƣơng 2: Trình bày một công cụ khai thác kho dữ liệu - xử lý phân tích
trực tuyến OLAP: khái niệm chung về OLAP, mô hình và kiến trúc khối OLAP,
cũng thay đổi theo. Trong thế giới thực, các ranh giới luôn biến đổi, bị xoá bỏ
và xây dựng lại. Trước kia mục tiêu chính là phân lớp, cấu trúc thì ngày nay là
tính năng động, chuyển đổi.
Cùng với sự phát triển của công nghệ thông tin, các hệ thống tác nghiệp
ngày càng phát triển cả về chất lượng và số lượng, hỗ trợ đắc lực trong công tác
quản lý và điều hành trên từng lĩnh vực khác nhau. Mỗi hệ thống được xây dựng
độc lập trên một lĩnh vực, phục vụ một mục đích nào đó của người sử dụng.
Trong các hệ thống đó, đa phần cơ sở dữ liệu (CSDL) được lưu trữ dưới dạng
mô hình CSDL quan hệ và dữ liệu không được lưu trữ dưới dạng tổng hợp.
Một thực tế đặt ra và cũng là một bức xúc của người lãnh đạo là khi lượng
thông tin lưu trữ ngày càng lớn nhưng sự phát triển lại theo những chủ đề,
những lĩnh vực rất khác nhau nên gây ra nhiều khó khăn trong công tác phân
tích, tổng hợp số liệu hỗ trợ kịp thời trong công tác quản lý và điều hành. Thông - 10 -
tin quản lý cung cấp đến lãnh đạo từ nhiều nguồn khác nhau, có khi cùng một
chỉ tiêu qua mỗi bộ phận xử lý lại cho những kết quả hoàn toàn trái ngược nhau
gây khó khăn cho các nhà lãnh đạo trong việc đưa ra các quyết định một cách
kịp thời.
Dữ liệu lưu trữ trong các CSDL thường theo hạn định nên thường không
có tính lịch sử, gây ra nhiều khó khăn trong việc đối chiếu, so sánh số liệu, từ đó
đưa ra các đánh giá đúng sự phát triển và kịp thời để có những điều chỉnh hoặc
bổ sung kế hoạch.
Như vậy, vấn đề đặt ra đòi hỏi phải có một mô hình dữ liệu nào đó cho
phép lưu trữ dữ liệu lớn có tính lịch sử và theo thời gian; đồng thời, cung cấp
phương pháp truy nhập nhanh, phân tích dữ liệu theo nhiều chiều khác nhau sẵn
sàng đáp ứng những câu hỏi theo bất kỳ tình huống nào của người lãnh đạo.
Việc xây dựng lại từ đầu một ứng dụng để đáp ứng được yêu cầu trên là
không đơn giản và khó chấp nhận vì dữ liệu hiện tại đã có và đang trợ giúp hoạt
cạnh về cách thức người dùng thực thi nhiệm vụ của mình.
-Thế kỷ 21 - kỷ nguyên của quản lý dựa trên thông tin.
Ngày nay, chúng ta chờ đợi và dự đoán tương lai dựa trên những phác
thảo quá khứ. Điểm mấu chốt của sự dự đoán này là nhu cầu tăng lợi thế cạnh
tranh đã khiến nền tảng hỗ trợ việc ra quyết định chuyển từ dữ liệu sang thông
tin. Định hướng này có thể được mô tả bởi thuật ngữ quản lý dựa trên thông tin
(information-based management).
1.1.2 Kho dữ liệu là gì?
Có thể gói gọn ngành tin học trong ba từ là lưu trữ, xử lý và khai thác
thông tin. Về mặt lưu trữ, các hệ quản trị cơ sở dữ liệu đều thực hiện rất tốt. Tuy
nhiên, khi lượng thông tin cần lưu trữ và khai thác trở nên khổng lồ đặc biệt
trong những ngành như ngân hàng, tài chính, đã làm nảy sinh khái niệm
DataWarehouse hay kho dữ liệu.
Kho dữ liệu là tuyển tập các CSDL tích hợp, hướng chủ đề, được thiết kế
để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên
quan tới một khoảng thời gian cụ thể [1].
Nói cách khác, kho dữ liệu là một tập hợp các CSDL rất lớn tới hàng trăm
GB hay thậm chí hàng Terabyte dữ liệu từ nhiều phân hệ của hệ thống, lưu trữ
và phân tích phục vụ cho việc cung cấp các dịch vụ thông tin liên quan tới
nghiệp vụ hệ thống. - 12 -
Mục tiêu chính của kho dữ liệu là giải quyết những vấn đề cơ bản sau:
1. Tích hợp dữ liệu và các siêu dữ liệu từ những nguồn khác nhau.
2. Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và
tinh lọc dữ liệu theo những hướng chủ đề nhất định.
3. Tổng hợp và kết nối dữ liệu.
4. Đồng bộ hoá các nguồn dữ liệu với DW.
5. Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như
khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó. Tính
tích hợp trong DW được chia theo nhiều cách phù hợp với quy ước về tên gọi,
số đo, cấu trúc mã hoá và những thuộc tính vật lý của dữ liệu Các tên gọi, biến,
thuộc tính có thể được mô tả khác nhau trong các ứng dụng, song chúng sẽ
được tích hợp lại trong kho dữ liệu ở dạng chung nhất.
Như vậy, tính tích hợp trong kho thể hiện ở chỗ: dữ liệu tập hợp trong kho
dữ liệu được thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể
thống nhất.
2. Hướng chủ đề
Dữ liệu trong DW được tổ chức theo các chủ đề phục vụ cho những tổ
chức dễ dàng xác định được những thông tin cần thiết trong từng hoạt động của
mình. Do đó, cách tổ chức của kho dữ liệu dựa vào dữ liệu là chính. DW không
lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ
chủ yếu cho quá trình phân tích để trợ giúp quyết định.
3. Dữ liệu có tính lịch sử
Dữ liệu trong hệ thống tác nghiệp cần phải chính xác ở chính thời điểm
truy cập, còn ở DW chỉ cần có hiệu lực trong khoảng thời gian nào đó. Dữ liệu
của CSDL tác nghiệp thường sau một khoảng thời gian nhất định thì sẽ trở thành
dữ liệu lịch sử và chúng sẽ được chuyển thành kho dữ liệu. Đó chính là những
dữ liệu hợp lý về những chủ điểm cần lưu trữ.
4. Dữ liệu gắn thời gian
Một kho dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử. Các dữ liệu
này chỉ cần chính xác trong khoảng thời gian nào đó, không yêu cầu phải chính
xác tại thời điểm truy nhập. Dữ liệu trong kho dữ liệu khi đã chính xác thì được
ghi lưu lại, không cho phép cập nhật và nó được sử dụng như bức ảnh chụp. Do - 14 -
vậy, nó cho phép khôi phục lại lịch sử và so sánh một cách chính xác các giai
đoạn khác nhau. Yếu tố thời gian đóng vai trò như một phần của khoá để bảo
- 15 -
- CSDL phục vụ xử lý giao dịch, cập nhật. DW thường chỉ đọc, phục vụ cho
những nhu cầu báo cáo, ra quyết định.
- DW lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQL
server thậm chí cả File thông thường rồi làm sạch chúng và đưa vào cấu
trúc của nó - đó là VLDB (Very Large Database). Dữ liệu từ CSDL tác
nghiệp được chắt lọc và tổng hợp lại để chuyển sang môi trường kho dữ liệu.
Rất nhiều dữ liệu khác không được chuyển về kho dữ liệu, chỉ những dữ liệu
cần thiết cho công tác quản lý hay trợ giúp quyết định mới được chuyển sang
kho dữ liệu.
- Kho dữ liệu phải được xác định theo hướng chủ đề. Nó được thực hiện
theo ý đồ của người sử dụng đầu cuối trong khi các hệ CSDL tác nghiệp
dùng để phục vụ các mục đích áp dụng chung. Kho dữ liệu rất lớn nên muốn
cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác
thông tin dễ dàng thì bản thân kho dữ liệu phải được chuyên hoá, phân ra
thành những chủ đề. Những chủ đề chuyên môn hóa đó tạo thành một CSDL
chuyên biệt - đó là Data Mart (DM).
- Một điểm quan trọng là CSDL thường được chuẩn hóa để tiện cho việc
khai thác. DW thì lại phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo
giản đồ hình sao trong DM, nghĩa là kho dữ liệu sẽ trùng lặp thông tin. Điều
này là hiển nhiên vì mục đích của chuẩn hoá nhằm tránh sự trùng lặp dữ
liệu, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa. Trong khi đó,
DW là CSDL rất lớn phục vụ chủ yếu cho báo cáo truy vấn chỉ đọc nên việc
trùng lặp thông tin sẽ giúp tìm kiếm nhanh hơn.
1.1.6 Một số khái niệm cơ bản
1.1.6.1 Kho dữ liệu cục bộ - Datamart
Kho dữ liệu cục bộ (DataMart -DM) là CSDL có những đặc điểm giống
với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực,
một chuyên ngành. DM là kho dữ liệu hướng chủ đề. Các DM có thể được hình
thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng
tác nghiệp biến động thường xuyên khi những dữ liệu liên quan trong các hệ
thống tác nghiệp có sự thay đổi. Kho dữ liệu tác nghiệp cung cấp một sự lựa
chọn cho các ứng dụng trợ giúp quyết định tác nghiệp, truy nhập dữ liệu một
cách trực tiếp từ các hệ thống xử lý các giao dịch trực tuyến.
Kho dữ liệu tác nghiệp cần phải được xây dựng riêng biệt và là một phần
của kho dữ liệu.
ODS
A
B
DW
DSS
EIS - 17 -
Một trong những sự khác nhau cơ bản và quan trọng nhất là ở nội dung và
các cấu trúc dữ liệu được lưu trữ. Kho dữ liệu tác nghiệp chứa những dữ liệu có
giá trị hiện thời hoặc gần với dữ liệu hiện thời, còn kho dữ liệu chứa những dữ
liệu lịch sử, có giá trị trong một quá khứ gần. Kho dữ liệu tác nghiệp có thể cập
nhật còn kho dữ liệu không cập nhật được [1].
Một sự khác nhau nữa là công nghệ hỗ trợ cho hai hệ thống đó. Kho dữ
liệu tác nghiệp đòi hỏi phải là môi trường được phép cập nhật, ghi, thay đổi
VDW là một kho dữ liệu logic mà ở đó NSD được quyền truy nhập trực
tiếp vào nhiều nguồn dữ liệu thao tác khác nhau thông qua những công cụ trung
gian.
VDW được sử dụng để nâng cấp khả năng của mạng đối với mọi công cụ
của NSD, ở mọi nơi trên mạng đều có thể truy cập vào các dữ liệu thời gian thực
và các dữ liệu dẫn xuất cần thiết.
1.2 CÁC KIỂU DỮ LIỆU
1.2.1 Dữ liệu nghiệp vụ
Dữ liệu nghiệp vụ (Business Data – BD) là dữ liệu dùng để vận hành và
quản lý một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt động của
doanh nghiệp và những đối tượng trong thế giới thực như là khách hàng, địa
điểm, sản phẩm,v.v Nó được tạo ra và sử dụng bởi các hệ thống xử lý giao tác
cũng như các hệ thống hỗ trợ quyết định (DSS).
Dựa trên dữ liệu có cấu trúc, dữ liệu nghiệp vụ được chia làm 3 loại sau:
Dữ liệu thời gian thực (real- time data): Dữ liệu chi tiết, tức thời, dùng
để vận hành công việc và được truy xuất theo chế độ đọc/ghi thông qua
các giao dịch đã được xác định trước.
Dữ liệu thời gian thực được tạo lập, thao tác và sử dụng dụng trong các
ứng dụng thao tác hay sản xuất. Chúng có thể tổ chức thành các files hay
CSDL. - 19 -
Dữ liệu dẫn xuất (derived data): Dữ liệu xác định theo thời điểm hoặc
dữ liệu định kỳ, ở mức chi tiết hoặc tổng hợp, thuộc chế độ chỉ đọc, nhận
được từ việc xử lý dữ liệu thời gian thực và dùng để quản lý công việc
nghiệp vụ.
Dữ liệu tƣơng hợp, hoà hợp (reconciled data): Dữ liệu tương hợp là
một loại dữ liệu dẫn xuất đặc biệt, sinh ra bởi một tiến trình được thiết kế
nhằm bảo đảm sự vững chắc nội tại của dữ liệu kết quả, tiến trình này
Mô tả cốt lõi, khả năng tạo cơ sở dữ liệu đích (tạo ra bảng và
thông tin dưới dạng liệt kê), thông tin được lưu trữ hay trực tuyến, ngày
làm tươi mới dữ liệu, số lượng các bản ghi, lịch thực hiện các công việc
và những người sử dụng có khả năng truy nhập vào dữ liệu.
Metadata cung cấp cho người sử dụng sự truy nhập tương tác để giúp cho
họ có thể hiểu được nội dung và tìm thấy được dữ liệu cần thiết. Tất cả các
thành phần của kho dữ liệu đều cần và có thể lấy dữ liệu từ Metadata. Metadata
được lưu trữ ở khu vực trung tâm.
1.3 KIẾN TRÚC DỮ LIỆU DW
1.3.1 Kiến trúc tham chiếu cơ bản và một số nguyên lý hoạt động của kho
dữ liệu
Kiến trúc của kho dữ liệu dưới đây mô tả các thành phần của kho:
LỚP QUẢN LÝ DỮ LIỆU
KHỐI
CÁC
NGUỒN
DỮ
LIỆU
KHỐI
TẠO
Hệ quản lý siêu dữ liệu cho khối này.
1.3.1.2 Khối tạo dựng kho dữ liệu
Khối này bao gồm các khối con [2]:
1. Khối con tinh chế:
Liên quan đến việc nâng cao chất lượng của dữ liệu, có các chức năng
chính sau: Chuẩn hoá, làm sạch, sàng lọc, tương hợp dữ liệu, phân định thời
gian cho các thông tin nguồn.
2. Khối con gia công lại: Có các chức năng chính sau:
Tích hợp các dữ liệu khác từ các hệ thống để tạo ra dữ liệu mới.
Phân dữ liệu thành ra các loại cho dễ xử lý.
Tính toán sơ bộ, tổng hợp và kết xuất dữ liệu
Chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác nhau
Biến đổi và gia công lại dữ liệu
3. Khối con Data Warehouse: Bao gồm các chức năng chính sau:
Mô hình hoá, tổng hợp và kết nối mức độ cao các dữ liệu.
Tăng chất lượng giá trị của dữ liệu.
Tạo ra sự dung hoà các loại dữ liệu trong DW. - 22 -
Mô tả các loại cơ sở dữ liệu.
Xây dựng các từ điển thuật ngữ tác nghiệp,
Về cơ bản các dữ liệu được xử lý ở đây được lấy trực tiếp từ khối các
nguồn dữ liệu.
1.3.1.3 Khối tạo dựng Data Mart
Khối này dùng để tạo ra DM từ các nội dung của kho dữ liệu. Cũng giống
như khối tạo dựng DW, trong khối này cũng có những chức năng như khối trên
nhưng thường ở mức cao hơn và có hướng chủ đề rõ ràng. Các chức năng chính
có trong khối này là:
Tinh chế và gia công lại như khối tạo dựng DW.
Giám sát và đáp ứng các yêu cầu cho các dữ liệu mới rút từ các
nguồn dữ liệu khác nhau.
Bảo quản các dữ liệu trong các nguồn dữ liệu tác nghiệp và nạp lại
hoặc cập nhật và làm sạch dữ liệu.
Như vậy có thể thấy lớp quản lý dữ liệu có những chức năng quản lý mới
khác với các chức năng của hệ quản trị cơ sở dữ liệu thông thường.
1.3.1.6 Lớp quản lý siêu dữ liệu
Trong việc thiết kế các kho dữ liệu, các siêu dữ liệu thể hiện ở khắp nơi.
Các nguồn dữ liệu được đặc trưng bởi định nghĩa của các dữ liệu nhập vào. Việc
bổ sung các nhãn thời gian đòi hỏi phải định nghĩa các nhãn thời gian dùng
trong siêu dữ liệu. Lớp quản lý siêu dữ liệu cũng quản lý các dữ liệu mô tả đầy
đủ và hoàn chỉnh các dữ liệu được lưu trữ trong DW.
1.3.1.7 Lớp chuyển tải dữ liệu
Nhiệm vụ chuyển tải dữ liệu giữa các khối do lớp này thực hiện. Lớp này
thực hiện nạp, sao chép, chuyển tải dữ liệu và sử dụng các hệ thống mạng, các
phần mềm lớp trung gian. Nó bảo đảm tính an toàn và phân quyền cho các nhu
cầu chuyển tải dữ liệu.
Lớp chuyển tải xác định các cầu nối truyền thông cần thiết giữa các trang
thiết bị phần cứng và phần mềm của DW.
1.3.1.8 Lớp kết cấu hạ tầng
Lớp này bao gồm các chức năng chính sau: - 24 -
Quản lý các hệ thống: tìm kiếm, quản lý và xác định các phần mềm
chuẩn và các phần mềm ứng dụng .
Trợ giúp cho quá trình tích hợp và các hoạt động khác để sao chép,
cập nhật, kết nối, tổng hợp dữ liệu.
Thực hiện công việc lưu trữ.
Hệ thống xử lý: tạo ra các môi trường làm việc cho các khối chính.
Kho thông tin nghiệp vụ
Kho dữ liệu
=
=
= Kho dữ liệu nghiệp vụ - 25 -
Là chương trình ứng dụng để thực hiện các nghiệp vụ và các dữ liệu được
lưu ở hệ thống tệp hay CSDL.
Hệ thống thao tác bao gồm các nguồn dữ liệu của DW, dữ liệu được tạo
ra trong các hệ thống xử lý giao tác hàng ngày của xí nghiệp.
Kho dữ liệu nghiệp vụ (Business Data Warehouse - BDW)
Kho dữ liệu nghiệp vụ BDW là dạng cài đặt vật lý những dữ liệu tổng hợp
được thiết kế để điều khiển và cung cấp dữ liệu đơn giản, nhất quán cho NSD
đầu cuối.
BDW rất ít khi được NSD khai thác trực tiếp. Nó là nguồn cung cấp dữ liệu
cho kho dữ liệu thông tin tác nghiệp.