(Luận văn thạc sĩ) xây dựng hệ thống data warehouse và ứng dụng công nghệ olap để phân tích dữ liệu kinh doanh của doanh nghiệp - Pdf 67

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
---------------------------------------

NGUYỄN KHÁNH DUY

XÂY DỰNG HỆ THỐNG DATA
WAREHOUSE VÀ ỨNG DỤNG CÔNG
NGHỆ OLAP ĐỂ PHÂN TÍCH DỮ LIỆU
KINH DOANH CỦA DOANH NGHIỆP
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

TP. HỒ CHÍ MINH - 2019


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
---------------------------------------

NGUYỄN KHÁNH DUY

XÂY DỰNG HỆ THỐNG DATA
WAREHOUSE VÀ ỨNG DỤNG CÔNG
NGHỆ OLAP ĐỂ PHÂN TÍCH DỮ LIỆU
KINH DOANH CỦA DOANH NGHIỆP
Chuyên ngành

: Khoa học máy tính

Mã số chuyên ngành : 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

hiệu nhà trường, khoa Công nghệ thông tin cùng các giảng viên đã nhiệt tình giảng
dạy và tạo điều kiện tốt nhất cho tôi hoàn thành đề tài nghiên cứu khoa học này.
Đặc biệt tôi xin gửi lời cảm ơn sâu sắc đến thầy PGS.TS Đỗ Phúc, người đã trực
tiếp hướng dẫn tôi bằng tất cả sự nhiệt huyết của mình và luôn đồng hành cùng tôi
trong suốt quá trình thực hiện đề tài.
Tôi cũng xin chân thành cảm ơn các đồng nghiệp trong công ty đã tạo điều kiện
và giúp đỡ để tôi có thể hoàn thành đề tài nghiên cứu này.
Mặc dù đã rất cố gắng, nhưng do hạn chế về thời gian và một số điều kiện khách
quan nên luận văn không thể tránh khỏi những thiếu sót. Kính mong nhận được sự
đóng góp ý kiến của Quý thầy cô, bạn bè và các đồng nghiệp để đề tài được hoàn
thiện hơn nữa.


iii

TÓM TẮT
Trong thời đại hiện nay, dữ liệu đang trở thành nguồn tài nguyên vô tận để các
cá nhân, tổ chức khai thác ở mọi lĩnh vực. Nguồn tài nguyên này ngày càng trở nên
quan trọng đối với ngành bán lẻ, việc khai thác tốt dữ liệu sẽ giúp các nhà quản trị
đưa ra những quyết định mang tính chiến lược, đột phá nhằm mở rộng quy mô và
nâng cao lợi nhuận trong kinh doanh. Hệ thống Data Warehouse là một trong những
giải pháp hiệu quả nhất để quản lý lượng dữ liệu khổng lồ của doanh nghiệp. Chính
vì vậy mà tác giả lựa chọn thực hiện đề tài “Xây dựng hệ thống Data Warehouse và
ứng dụng công nghệ OLAP khai thác dữ liệu kinh doanh của doanh nghiệp” để giải
quyết 3 vấn đề chính:


Xây dựng hệ thống Data Warehouse là nơi tập trung dữ liệu để Chuỗi cửa
hàng Retailer khai thác cho nhu cầu tạo báo cáo.


các hạn chế cũng được chỉ ra và đề xuất hướng giải quyết để dần hoàn thiện hệ thống
Data Warehouse.


v

ABSTRACT
Nowadays, data become an endless resource for individuals and organization to
exploit for their purpose. This resource has an especially important role in retail
industry. Data mining will support business managers making strategic and
breakthrough decisions to expand the organization scale and improve profits. Data
Warehouse system is one of the most effective solutions to manage huge data volume
of enterprises. Therefore, the author decided to choose the project “Builidng Data
Warehouse System And Organization Adoption Of OLAP Technology To Exploid
Data”. This project aim to solve 3 main objectives:


Building Data Warehouse system that store all data of Retailer Convenience
Store Chain for reporting purpose.



Increasing performance of creating reports, apply OLAP techniques to
analyze data provided by Data Warehouse system.



Implementing Data Warehouse system to support operations of Retailer
Convenience Store Chain.


DANH MỤC CÁC BẢNG ........................................................................................x
DANH MỤC HÌNH ẢNH ....................................................................................... xi
CHƯƠNG 1: TỔNG QUAN.....................................................................................1
1.1. Giới thiệu .......................................................................................................1
1.2. Mục tiêu của luận văn ....................................................................................2
1.2.1. Giới thiệu về Chuỗi cửa hàng Retailer ...................................................2
1.2.2. Mục tiêu nghiên cứu của luận văn ..........................................................3
1.3. Phạm vi, đối tượng và nội dung nghiên cứu ..................................................3
1.3.1. Phạm vi ...................................................................................................3
1.3.2. Đối tượng ................................................................................................3
1.3.3. Nội dung .................................................................................................4
1.4. Ý nghĩa của luận văn .....................................................................................4
1.5. Bố cục luận văn .............................................................................................4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT DATA WAREHOUSE ................................6
2.1. Lý thuyết về Data Warehouse .......................................................................6
2.1.1. Khái niệm ................................................................................................6
2.1.2. Kiến trúc Data Warehouse ......................................................................7
2.1.3. Mô hình dữ liệu đa chiều ......................................................................11
2.2. Lý thuyết về ETL .........................................................................................12
2.2.1. Khái niệm ..............................................................................................12
2.2.2. Kiến trúc ETL .......................................................................................15
2.3. Lý thuyết về OLAP......................................................................................16
2.3.1. Khái niệm ..............................................................................................16
2.3.2. Phân loại OLAP ....................................................................................17
2.3.3. Các thao tác của OLAP .........................................................................20
CHƯƠNG 3: KHẢO SÁT HIỆN TRẠNG VÀ THIẾT KẾ HỆ THỐNG DATA
WAREHOUSE ........................................................................................................24


viii

BI

Business Intelligence

OLTP

Online Transactional Processing

OLAP

Online Analytical Processing

ETL

Extraction, Transformation, Loading

NDS

Normalized Data Store

ODS

Operational Data Store

DDS

Dimensional Data Store

POS



Bảng 2. 1 Ví dụ về xác thực chất lượng dữ liệu

14

Bảng 2. 2 Mô tả một số đặc tính của hai loại hệ thống OLTP và OLAP

17

Bảng 3. 1 Bảng Fact doanh số .................................................................................. 35
Bảng 3. 2 Bảng chiều thời gian ................................................................................ 36
Bảng 3. 3 Bảng chiều sản phẩm ............................................................................... 37
Bảng 3. 4 Bảng chiều khách hàng ............................................................................ 37
Bảng 3. 5 Bảng chiều cửa hàng ................................................................................ 38
Bảng 3. 6 Bảng chiều nhà cung cấp ......................................................................... 38
Bảng 3. 7 Ánh xạ dữ liệu nguồn vào bảng Fact doanh số ........................................ 40
Bảng 3. 8 Ánh xạ dữ liệu nguồn vào bảng DimProduct .......................................... 41
Bảng 3. 9 Ánh xạ dữ liệu nguồn vào bảng DimStore .............................................. 41
Bảng 3. 10 Ánh xạ dữ liệu nguồn vào bảng DimCustomer ..................................... 42
Bảng 3. 11 Ánh xạ dữ liệu nguồn vào bảng DimVendor ......................................... 42
Bảng 4. 1 So sánh kết quả sau khi triển khai hệ thống OLAP ................................. 68


xi

DANH MỤC HÌNH ẢNH
Hình 1. 1 Mô hình hệ hỗ trợ ra quyết định ..................................................................2
Hình 2. 1 Hệ thống Data Warehouse ..........................................................................6
Hình 2. 2 Kiến trúc Single DDS..................................................................................9
Hình 2. 3 Kiến trúc NDS + DDS ................................................................................9

Hình 3. 13 Control Flow của tiến trình đưa dữ liệu vào DimStore .......................... 47
Hình 3. 14 Data Flow của quá trình cập nhật dữ liệu DimCustomer ....................... 48
Hình 3. 15 Control Flow của tiến trình đưa dữ liệu vào DimCustomer ................... 49
Hình 3. 16 Data Flow của quá trình cập nhật dữ liệu DimProduct .......................... 50
Hình 3. 17 Control Flow của tiến trình đưa dữ liệu vào DimProduct ...................... 50
Hình 3. 18 Data Flow của quá trình cập nhật dữ liệu DimVendor .......................... 51
Hình 3. 19 Control Flow của tiến trình đưa dữ liệu vào DimVendor ...................... 52
Hình 3. 20 Control Flow của tiến trình đưa dữ liệu vào FactSales .......................... 54
Hình 3. 21 Phân cấp chiều thời gian ........................................................................ 55
Hình 3. 22 Phân cấp chiều sản phẩm ....................................................................... 55
Hình 3. 23 Khối dữ liệu đa chiều đã được triển khai ............................................... 56
Hình 4. 1 Sơ đồ hệ thống Data Warehouse đã xây dựng ......................................... 57
Hình 4. 2 Báo cáo số lượng sản phẩm theo danh mục qua các năm ........................ 58
Hình 4. 3 Minh họa báo cáo chi tiết số lượng sản phẩm bán ra năm 2018 .............. 58
Hình 4. 4 Báo cáo số lượng sản phẩm bán ra theo khu vực năm 2018 .................... 59
Hình 4. 5 Minh họa báo cáo sản phẩm bán ra theo khu vực quận 1 năm 2018 ....... 60
Hình 4. 6 Dashboard thể hiện số lượng sản phẩm bán ra ......................................... 61
Hình 4. 7 Minh họa báo cáo top 10 nhà cung cấp có doanh số cao ......................... 62
Hình 4. 8 Biểu đồ báo cáo doanh số nhà cung cấp qua các năm ............................. 63
Hình 4. 9 Minh họa báo cáo doanh số KHTT năm 2017 và 2018 ........................... 64
Hình 4. 10 Biểu đồ doanh số KHTT theo khu vực năm 2018 ................................. 65
Hình 4. 11 Minh họa báo cáo số lượng sản phẩm bán ra ......................................... 66
Hình 4. 12 Minh họa lỗ hổng của hệ thống .............................................................. 67


1

CHƯƠNG 1: TỔNG QUAN
1.1. Giới thiệu
Sau khi gia nhập Tổ chức Thương mại thế giới (WTO), Việt Nam trở thành một

trở nên đơn giản, nhanh chóng và hiệu quả. Các kỹ thuật OLAP cho phép tổng hợp,
chi tiết hóa và xoay chiều giúp phân tích dữ liệu dưới nhiều góc độ khác nhau từ đó
hỗ trợ tích cực cho nhà quản trị ra các quyết định chiến lược kinh doanh.

Strategy
Data Analysis
OLAP
Data Mining
Data Warehouse
E-T-L
Data Sources
Hình 1. 1 Mô hình hệ hỗ trợ ra quyết định
1.2. Mục tiêu của luận văn
1.2.1. Giới thiệu về Chuỗi cửa hàng Retailer
Chuỗi cửa hàng Retailer có hơn 200 cửa hàng phân bố khắp địa bàn thành phố
Hồ Chí Minh và đang tiếp tục mở rộng. Retailer cung cấp các mặt hàng chính bao
gồm: rau củ quả, thực phẩm tươi sống và đông lạnh, hóa mỹ phẩm, hàng gia dụng,
… Nhiệm vụ của Retailer là: bình ổn giá thị trường; cung cấp thực phẩm sạch, chất
lượng đến người tiêu dùng; cung cấp hàng hóa đa dạng về sản phẩm và phong phú về
chủng loại.
Hiện tại do Chuỗi cửa hàng Retailer vẫn chưa được triển khai giải pháp BI nên
các báo cáo hiện nay chủ yếu dựa vào truy vấn SQL trên các cơ sở dữ liệu OLTP và
được hiển thị trên file excel khá đơn giản. Do dữ liệu quá lớn nên việc tạo các báo


3

cáo mất khá nhiều thời gian, khung nhìn của báo cáo chưa được linh động, chưa đáp
ứng được nhu cầu của người quản trị doanh nghiệp. Từ những khó khăn này, các nhà
quản trị nhận thấy cần thiết triển khai hệ thống Data Warehouse để lưu trữ và tổng

− Các công cụ hỗ trợ cho việc xây dựng Data Warehouse của Microsoft.
1.3.3. Nội dung
Nội dung nghiên cứu của luận văn:
− Khảo sát hiện trạng hệ thống thông tin của Chuỗi cửa hàng, các vấn đề gặp
phải và nhu cầu phân tích dữ liệu của các nhà quản trị.
− Phân tích và thiết kế Data Warehouse căn cứ vào kết quả khảo sát.
− Triển khai hệ thống Data Warehouse vào hoạt động của Chuỗi cửa hàng.
− Đánh giá hiệu quả của hệ thống Data Warehouse sau khi ứng dụng vào hoạt
động của Chuỗi cửa hàng.
− Viết tài liệu về quá trình nghiên cứu, thực nghiệm và kết quả đạt được.
1.4. Ý nghĩa của luận văn
− Tìm hiểu về hệ thống Data Warehouse để ứng dụng cho Chuỗi cửa hàng
Retailer.
− Xây dựng và triển khai hệ thống Data Warehouse để lưu trữ tập trung dữ
liệu và phục vụ việc tạo báo cáo của Chuỗi.
− Nghiên cứu và áp dụng kỹ thuật OLAP cho phân tích dữ liệu lớn.
− Rút ngắn thời gian truy vấn dữ liệu, tạo ra các báo cáo có khung nhìn linh
động hỗ trợ nhà quản trị xem xét hoạt động bán lẻ ở nhiều góc độ.
1.5. Bố cục luận văn
Luận văn bao gồm 4 chương:
Chương 1: Tổng quan
Chương 2: Cơ sở lý thuyết Data Warehoue
Chương 3: Khảo sát hiện trạng và thiết kế hệ thống Data Warehoue
Chương 4: Ứng dụng OLAP và đánh giá hệ thống


5

Chương 1 đã giới thiệu tổng quan về những lợi ích mà hệ thống Data Warehouse
đem đến cho doanh nghiệp bằng việc tổng hợp dữ liệu thành những thông tin hữu ích

7

Data Warehouse có các đặc tính sau:
− Hướng đối tượng: hệ thống Data Warehouse chỉ lưu trữ những dữ liệu cần
thiết cho việc phân tích trực tuyến, dữ liệu sẽ được tổ chức theo những đối
tượng xác định mà người dùng quan tâm như: khách hàng, sản phẩm, nhà
cung cấp, …
− Tính tích hợp: hệ thống Data Warehouse là nơi tập hợp dữ liệu từ nhiều hệ
thống khác nhau như: các cơ sở dữ liệu quan hệ, các tập tin excel, text, các
bản ghi dữ liệu giao dịch, …
− Tính lịch sử: hệ thống Data Warehouse lưu dữ liệu để cung cấp thông tin
trong khoảng thời gian rất dài (5-10 năm), mỗi sự kiện trong hệ thống Data
Warehouse đều gắn liền với yếu tố thời gian.
− Tính bất biến: hệ thống Data Warehouse chỉ có hai thao tác chính là chuyển
dữ liệu vào và truy xuất dữ liệu mà không có thao tác xóa hay chỉnh sửa, vì
vậy dữ liệu sẽ không bị thay đổi [2].
2.1.2. Kiến trúc Data Warehouse
Một hệ thống Data Warehouse bao gồm hai kiến trúc chính: kiến trúc dòng dữ
liệu và kiến trúc hệ thống. Kiến trúc dòng dữ liệu cho biết các nơi lưu dữ liệu được
sắp xếp trong Data Warehouse như thế nào và việc dữ liệu di chuyển từ hệ thống
nguồn qua nơi lưu dữ liệu đến người dùng ra sao. Kiến trúc hệ thống là cấu hình vật
lý của server, hạ tầng mạng, phần mềm và người dùng.
Một data store là một hoặc nhiều cơ sở dữ liệu hoặc các file chứa dữ liệu của
Data Warehouse, được bố trí theo định dạng riêng biệt và liên quan đến các tiến trình
của Data Warehouse.
Dựa vào mục đích sử dụng, data store được phân thành 3 loại:
− User-facing data store: cho phép người dùng, các phần mềm truy cập và
truy vấn dữ liệu.




Hình 2. 2 Kiến trúc Single DDS
Trong hình 2.2:
Stage ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào Stage.
Stage: nơi lưu dữ liệu tạm thời.
DDS ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào DDS.
DDS: nơi lưu dữ liệu theo cấu trúc chiều.
Cube: khối dữ liệu đa chiều.
Application: ứng dụng của người dùng.
− Ưu điểm: đơn giản vì dữ liệu từ Stage được nạp trực tiếp và DDS mà không phải
thông qua các data store nào khác.
− Khuyết điểm: DDS là nơi chứa toàn bộ dữ liệu của hệ thống Data Warehouse nên
khi tạo DDS thứ 2 không thể sử dụng lại tiến trình ETL hiện có mà phải tạo mới tiến
trình ETL để trích xuất dữ liệu từ DDS chính.
NDS + DDS

Hình 2. 3 Kiến trúc NDS + DDS


10

Trong hình 2.3:
NDS ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào NDS.
NDS: nơi lưu dữ liệu đã chuẩn hóa.
− Ưu điểm: dễ dàng xây dựng DDS thứ 2 vì có thể tái sử dụng tiến trình ETL; dễ
dàng bảo trì vì dữ liệu trong NDS đã được chuẩn khóa.
− Khuyết điểm: phức tạp hơn kiến trúc Single DDS vì phải xây dựng thêm tiến trình
NDS ETL và NDS.

ODS + DDS


Product
Dimension

Sales Fact

Vendor
Dimension

Store
Dimension

Hình 2. 5 Lược đồ sao

− Lược đồ bông tuyết: là một biến thể của mô hình lược đồ sao với các bảng
chiều được chuẩn hóa vì vậy dữ liệu sẽ được tách ra các bảng bổ sung. Kết
quả là lược đồ này có hình dạng giống như một bông tuyết.



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status