DataWarehouse và ứng dụng trong bài toán
Quản lý cửa hàng bán lẻ xăng dầu
Nguyễn Quang Huy
Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10
Người hướng dẫn: PGS. TS. Nguyễn Văn Vỵ
Năm bảo vệ: 2012
Abstract: Trình bày các lý thuyết chung về kho dữ liệu và mô hình kho dữ liệu,
phương pháp xây dựng và thiết kế CSDL cho kho dữ liệu. Khái quát về bộ công cụ sử
dụng để xây dựng kho dữ liệu là SQL Server 2008. Giới thiệu về hệ thống quản lý cửa
hàng bán lẻ xăng dầu đang được ứng dụng tại Tập đoàn xăng dầu Petrolimex. Tìm
hiểu phương pháp thiết kế một kho dữ liệu dựa trên cơ sở dữ liệu nguồn của hệ thống
quản lý cửa hàng bán lẻ xăng dầu phục vụ cho việc khai thác báo cáo. Phân tích kết
luận và hướng phát triển tiếp theo của đề tài.
Keywords: Công nghệ thông tin; Công nghệ phần mềm; Datawarehouse; Bài toán
quản lý; Quản lý dữ liệu
Content
MỞ ĐẦU
Ngày nay thông tin rất cần thiết trong kinh doanh. Việc kinh doanh của công ty có thành
công hay không phụ thuộc vào công ty này có được thông tin kịp thời hay không. Trong môi
trường kinh doanh luôn biến động đòi hỏi thông tin phải được truy cập một cách nhanh
chóng, chính xác ở bất cứ nơi nào.
Khi đã có được các nguồn dữ liệu với khối lượng khổng lồ, phong phú và đa dạng về
kiểu loại và được tổng hợp từ rất nhiều nguồn khác nhau, vấn đề nảy sinh là làm sao khai thác
một cách có hiệu quả các nguồn dữ liệu đó đồng thời phải liên tục cập nhật và xử lý dữ liệu
hiện đang sử dụng. Dữ liệu có thường không nhất quán, dư thừa, khó khai thác và đặc biệt là
Chương 4: Thiết kế Datawarehouse phục vụ cho việc khai thác báo cáo.
Kết luận
Tài liệu tham khảo
Phụ lục
CHƢƠNG I: KHO DỮ LIỆU (DATAWAREHOUSE)
Định nghĩa Kho dữ liệu
“Kho dữ liệu (Data Warehouse) là tập hợp của các CSDL tích hợp, hướng chủ đề, được
thiết kế để hỗ trợ cho chức năng trợ giúp quyết định mà mỗi đơn vị dữ liệu đều liên quan tới
một khoảng thời gian cụ thể”.
Các đặc trƣng của kho dữ liệu
Kho dữ liệu là một tập hợp dữ liệu có những tính chất sau:
- Hướng chủ đề
- Tính tích hợp
- Tính bền vững
- Dữ liệu gắn thời gian và có tính lịch sử
- Dữ liệu chỉ đọc
- Dữ liệu không biến động
- Dữ liệu tổng hợp và chi tiết
3
Kiến trúc của kho dữ liệu
Mô hình kiến trúc của kho dữ liệu cơ bản gồm có ba thành phần: Dữ liệu nguồn, khu
vực xử lý và kho dữ liệu.
Hình 1.1: Mô hình kiến trúc của kho dữ liệu
1.3.1 Nguồn dữ liệu
Nguồn dữ liệu của kho dữ liệu có thể từ rất nhiều nguồn khác nhau và có cấu trúc dữ
liệu khác nhau, bao gồm các hệ thống trong và ngoài của một tổ chức, rất phong phú về chủng
loại. Các hệ thống nằm trong được coi như các hệ thống nguồn hoặc các hệ thống đã có sẵn.
Dữ liệu từ các hệ thống nguồn thường hỗn tạp và chứa nhiều cấu trúc khác nhau ví dụ:
1.4.2 Lƣợc đồ hình tuyết rơi (Snowflake) Hình 1.6 Lược đồ hình tuyết rơi
Chiều thời
gian
Cửa hàng
phân phối
Chiều sản
phẩm
Chiều khách
hàng
Bảng sự kiện
bán hàng
Loại
sản
phẩm
Chiều
Sản
phẩm
Bảng sự
kiện bán
hàng
Chiều
cửa hàng
Chiều
khách
hàng
Chiều
thời gian
các chiều và cubes cho DWH, trong phiên bản mới này còn hỗ trợ một số thuật toán khai phá
dữ liệu điều này cung cấp cho người quản lý có cái nhìn sâu sắc về dữ liệu của họ hơn. SSAS
là một phần của nền tảng quản lý doanh nghiệp thông minh (BI), nó không chỉ là một thành
phần của SQL Server, nó còn được sử dụng trên .NET Framework và môi trường phát triển
Visual Studio. Hình 2.3 Kiến trúc của SSAS
2.4 Ngôn ngữ truy vấn MDX
Ngôn ngữ MDX (MultiDemensional eXpression) là ngôn ngữ truy vấn cho cơ sở dữ
liệu nhiều chiều, nó tương tự ngôn ngữ SQL cho cơ sở dữ liệu dạng quan hệ, tuy nhiên đây là
ngôn ngữ tính toán vì thế nó tương có cú pháp giống công thức của bảng tính.
7
Cấu trúc của MDX giống như SQL nhưng mở rộng hơn để thao tác với cơ sở dữ liệu
nhiều chiều. Câu truy vấn MDX có cấu trúc như sau :
SELECT [Mô tả về chiều thứ nhất],
[Mô tả về chiều thứ hai]…
FROM [Mô tả về khối dữ liệu]
WHERE [điều kiện cắt các lớp] Mệnh đề SELECT dùng để xác định các chiều cảu tập hợp kết quả.
Mệnh đề FROM xác định nguồn dữ liệu(cube) dùng để lấy dữ liệu
Mệnh đề WHERE dùng để xác định chiều cắt dữ liệu , nhằm lọc dữ liệu đầu ra.
2.5 SQL Server Reporting Service (SSRS)
SSRS là một dịch vụ của SQL Server, nó là hệ thống quản lý các báo cáo. Hỗ trợ việc
tạo báo cáo, quản lý các báo cáo, và quản lý truy cập thông qua nền tảng web.
cửa hàng xăng dầu còn kinh doanh đa dạng các mặt hàng theo mô hình siêu thị nhỏ thì nhu
cầu ứng dụng công nghệ thông tin tại hệ thống các cửa hàng của Petrolimex là không thể
thiếu.
Tại các đơn vị chủ quản: Do hệ thống CHXD phân tán trên phạm vi địa lý rộng lớn nên
việc quản lý thông tin của CHXD theo phương pháp thủ công gặp nhiều khó khăn, thiếu chính
xác và không kịp thời. Việc cung cấp thông tin về số lượng hàng tồn kho, sản lượng và doanh
thu bán hàng, tình hình công nợ - tiền hàng… phục vụ cho công tác đánh giá kết qủa kinh
9
doanh, lập đơn hàng và điều độ hàng hóa, quản trị công nợ, kế hoạch hóa dòng tiền …gặp
nhiều khó khăn làm giảm hiệu qủa kinh doanh và tiền ẩn rủi ro tài chính.
Tại Tập đoàn xăng dầu Việt Nam: Thông tin từ hệ thống CHXD là một thành phần
quan trọng không thể tách rời với hệ thống ERP của Tập đoàn Petrolimex bởi nó là dữ liệu
đầu vào cho quá trình quản trị của doanh nghiệp Tập đoàn xăng dầu Việt Nam.
Việc ứng dụng CNTT tại hệ thống các cửa hàng bán lẻ cho phép kiểm soát nguồn lực
của Tập đoàn đến tận các cửa hàng, nơi phát sinh các hoạt động kinh doanh trực tiếp, tăng
tính minh bạch trong quản lý, tăng tính chủ động trong quản lý hàng hóa và kế hoạch hóa
dòng tiền và giảm thiểu rủi ro về tài chính.
Việc ứng dụng CNTT vào công tác quản lý CHXD đã bước đầu đáp ứng được một số
yêu cầu quản lý hiện tại:
Giảm tải việc cập nhật chứng từ cho khu vực Văn phòng Công ty – Chi nhánh – Xí
nghiệp do việc cập nhật đã được thực hiện tại các cửa hàng khi phát hành chứng từ.
Giúp cho Công ty – Chi nhánh có thông tin định kỳ về tình hình bán hàng, công
nợ, tiền hàng tại các cửa hàng và một số thông tin về quản lý khác tại cửa hàng.
Giúp cho các CHXD chủ động hơn trong việc thực hiện các nghiệp vụ quản lý tại
cửa hàng: Quản lý bán hàng; Quản lý tiền hàng, công nợ; Quản lý thu nhập và tiền
lương; Quản lý chi phí phát sinh tại cửa hàng; Quản lý tồn kho….
Giảm bớt các công việc tác nghiệp về viết hóa đơn, lập và nộp báo cáo…
3.2 Kiến trúc của giải pháp
3.2.1 Mô hình tổng thể hệ thống
Agent
Mô hình Agent truyền thông Phân tách Chức năng và Dữ liệu Site’s
Functions
Shared Data
Site’s Data
Centre’s
Functions
Dữ liệu
chia sẻ
Dữ liệu dùng
chung
Dữ liệu riêng
#1
Dữ liệu riêng
#2
Dữ liệu riêng
#n
11
4.3 Sử dụng dịch vụ SSAS để xây dựng các cơ sở dữ liệu nhiều chiều
- Xây dựng cube cho kho dữ liệu chủ đề tổng hợp sản lượng.
- Xây dựng cube cho kho dữ liệu chủ đề kế toán
4.4 Sử dụng truy vấn MDX để lấy dữ liệu trên cube
4.5 Sử dụng dịch vụ SSRS để xây dựng các báo cáo.
KẾT LUẬN
Luận văn đã trình bày tổng quan về kho dữ liệu bao gồm: những khái niệm cơ bản, các
tính chất của kho dữ liệu, cấu trúc thành phần của kho dữ liệu, các loại hình kho dữ liệu và
mô hình thiết kế cơ sở dữ liệu của kho dữ liệu.
Tiếp theo luận văn cũng trình bày các công cụ của SQL Server 2008 trợ giúp cho việc
phát triển và khai thác kho dữ liệu. Đó là các dịch vụ SSIS, SSAS, SSRS trong MSSQL 2008
cho phép thiết kế, tổ chức lưu trữ và vận hành khai thác kho dữ liệu trên các môi trường khác
nhau.
Phần chính của luận văn tập trung vào việc vận dụng công nghệ về kho dữ liệu và các
công cụ trợ giúp của MSSQL 2008 đồng thời áp dụng trong bài toán thực tế đang ứng dụng
tại các CHXD của Petrolimex để phát triển kho dữ liệu cho hoạt động quản lý của Petrolimex.
Luận văn cũng trình bày tổng quan về hệ thống Quản lý cửa hàng xăng dầu thuộc Petrolimex
và những yêu cầu nghiệp vụ đặt ra cho hệ thống kho dữ liệu cần xây dựng.
Luận văn mới chỉ dừng ở bước xây dựng Datawarehouse cho hai module lớn nhất trong
hệ thống Quản lý CHXD là module bán hàng và module kế toán. Ngoài ra trong hệ thống
Quản lý CHXD hiện tại, còn rất nhiều kho chủ đề có thể xây dựng để phục vụ công tác quản
lý điều hành của lãnh đạo như: Kho chủ đề về quản lý chi phí, chủ đề về quản lý tài sản công
cụ dụng cụ, chủ đề về quản lý vận tải xăng dầu, quản lý hao hụt, Qua kết quả làm luận văn,
tôi sẽ cùng các đồng nghiệp trong công ty tiếp tục phát triển nghiên cứu để xây dựng một kho
dữ liệu hoàn chỉnh cho hệ thống Quản lý CHXD
References
1. The Microsoft Data Warehouse Toolkit With SQL Server 2005 and the Microsoft
Business Intelligence Toolset. Joy Mundy,Warren Thornthwaite, Ralph Kimbal ©
2006