Luận văn:Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại - Pdf 15




Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Lương Thái Đức

Áp dụng Data Warehouse trong phân tích thông tin về
các dịch vụ giá trị gia tăng trên điện thoại


Nguyễn Lương Thái Đức
2

DANH SÁCH HÌNH VẼ 5
THUẬT NGỮ VÀ VIẾT TẮT 7
TÓM TẮT NỘI DUNG 8
MỞ ĐẦU 9
Chương 1: Tổng quan 8
1.1 Tổng quan về hệ thống và lý do lựa chọn đề tài. 11
1.2 Dữ liệu của hệ thống 12
1.3 Mục tiêu và phạm vi của đề tài 12
1.3.1 Mục tiêu. 12
1.3.2 Phạm vi của đề tài 13
1.4. Công cụ thực hiện 13
1.4.2 Hệ quản trị cơ sở dữ liệu cho kho dữ liệu 13
1.4.2 Công cụ xây dựng kho dữ liệu 13
1.4.3 Công cụ xây dựng báo cáo 13
CHƯƠNG 2: TỔNG QUAN VỀ DATA WAREHOUSE 14
2.1 Định nghĩa kho dữ liệu. 14
2.2 Các đặc trưng của kho dữ liệu 14
2.2.1 Hướng chủ đề 14
2.2.2 Tính tích hợp 14
2.2.3 Tính bền vững: 14
2.2.4 Gắn với thời gian . 15
2.2.5 Dữ liệu tổng hợp : 15
2.3 Kiến trúc của kho dữ liệu 15
2.3.1 Nguồn dữ liệu . 15
2.3.2 Khu vực xử lý . 16
2.3.2.1 Nhiệm vụ : 16
2.3.2.2 Các bước :. 16

4.2.1 Kho dữ liệu chủ đề tổng hợp sản lượng dịch vụ. 37
4.2.2 Hệ thống quản lý quảng cáo 42
4.2.3 Kho dữ liệu chủ đề chi tiết sử dụng dịch vụ của khách hàng. 46
4.3 Sử dụng SSIS để xây dựng tiến trình ETL 48
4.3.1 Mô tả chung . 48
4.3.2 Ánh xạ dữ liệu cho các chiều 48
4.3.2.1 Chiều mã dịch vụ. 48
4.3.2.2 Chiều mạng viễn thông 49
4.3.2.3 Chiều đầu số 49
4.3.2.4 Chiều nhóm dịch vụ 50
4.3.2.5 Chiều thời gian 50
4.3.2.6 Bảng sự kiện tổng hợp sản lượng 50
4.3.2.7 Chiều Quảng cáo 51
4.3.2.8 Chiều khách hàng 51
4.3.2.9 Ánh xạ dữ liệu cho bảng sự kiện quảng cáo. 52
4.3.2.10 Ánh xạ dữ liệu cho bảng sự kiện chi tiết dịch vụ 52
4.4 Sử dụng dịch vụ SSAS để xây dựng các cơ sở dữ liệu nhiều chiều 52
4
4.4.1 Xây dựng cube cho kho dữ liệu chủ đề tổng hợp sản lượng 52
4.4.2 Xây dựng cube cho kho dữ liệu chủ đề quảng cáo và chi phí 57
4.4.3 Xây dựng cube cho kho dữ liệu chủ đề chi tiết sử dụng dịch vụ 58
4.4.4 Sử dụng truy vấn MDX để lấy dữ liệu trên cube 58
4.4 Sử dụng dịch vụ SSRS để xây dựng các báo cáo 59
4.4.1 Báo cáo sản lượng đầu số. 59
4.4.1.1 Yêu cầu: 59
4.4.1.2 Cách xây dựng . 59
4.4.2 Báo cáo sản lượng theo các mạng viễn thông 63
4.4.3 Báo cáo sản lượng theo đầu số và nhóm dịch vụ 64
KẾT LUẬN 66
5.1 Những điều đã làm được 66

Hình 4.10 Ánh xạ chiều quảng cáo 48
Hình 4.11 Ánh xạ cho chiều khách hàng 49
Hình 4.12 Lược đồ kho dữ liệu tổng hợp sản lượng 50
6
Hình 4.13 Chọn các bảng cho data soures views 51
Hình 4.14 Đặt các quan hệ cho các bảng 52
Hình 4.15 Quyết định các bảng chiều và sự kiện 53
Hình 4.17 Chọn các Measures. Các thành phần tính toán 53
Hình 4.18 Định nghĩa các hàm tính toán 54
Hình 4.19 Kết quả hiển thị truy vấn 55
Hình 4.20 Xây dựng truy vấn 57
Hình 4.21 Thiết kế báo cáo 58
Hình 4.22 Màn hình xây dựng báo cáo 58
Hình 4.22 Kết quả hiển thị. 59
Hình 4.24 Báo cáo theo mạng viễn thông 60
Hình 4.25 Báo cáo theo nhóm dịch vụ 61
7
THUẬT NGỮ VÀ VIẾT TẮT

SSIS (SQL Server Intergration Services): Dịch vụ tích hợp dữ liệu của SQL Server 2005
SSAS(SQL Server Analysis Services): Dịch vụ phân tích dữ liệu của SQL Server 2005
SSRS(SQL Server Reporting Services): Dịch vụ quản lý báo cáo của SQL Server 2005
MSSQL(Microsoft SQL Server ): Hệ quản trị cơ sở dữ liệu của Microsoft.
OLAP (Online Transaction Processing): xử lý giao dịch trực tuyến.
ETL (Extract Transform Load ): Tiến trình trích xuất, chuyển đổi và nạp dữ liệu.
MDX(Multidimensional eXpressions) : Ngôn ngữ truy vấn đa chiều.
BIDS(Business Intelligence Deverlopment Studio) : công cụ phát triển của SQL Server 2005.

cận dữ liệu, có được dữ liệu chính xác hơn và phát triển ứng dụng dễ dàng hơn.
Xuất phát từ nhu cầu thực tiễn tại Công Ty Cổ Phần Truyền Thông VMG , khóa luận sẽ
thực hiện “Áp dụng kho dữ liệu trong phân tích số liệu về các dịch vụ giá trị gia tăng trên
điện thoại” bằng công cụ của Microsoft SQL Server 2005 với mong muốn xây dựng
được kho dữ liệu hoàn chỉnh hỗ trợ cho việc quản lý tại Công Ty Cổ Phần Truyển Thông
VMG.
Nội dung của khóa luận bao gồm nhữ
ng phần chính như sau:
Mở đầu
Đây là phần giới thiệu chung về lý do chọn đề tài, cũng như bố cục chung của khóa luận
10
Chương 1: Tổng quan
Nội dung chính của chương này là nêu lên tổng quan về dữ liệu của hệ thống cung cấp
các dịch vụ giá trị gia tăng trên điện thoại, mục tiêu , phạm vi của đồ án , công cụ và
phương pháp xây dựng kho dữ liệu.
Chương 2: Tổng quan về Data WareHouse
Nội dung chính của chương này là trình bày tổng quan về data warehouse gồm: định
nghĩa, đặc tính,mô hình, kiến trúc và xu hướng tương lai của data warehouse.
Chương 3 Tổ
ng quan về Microsoft SQL Server 2005
Mục tiêu chính của chương này nhằm giới thiệu về các công cụ sẽ được sử dụng để
xây dựng kho dữ liệu. Hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2005 , dịch vụ
Sql Server Analysis Service , Ngôn ngữ truy vấn MDX trên cơ sở dữ liệu đa chiều,
dịch vụ Sql Server Reporting Service và hướng xây dựng kho dữ liệu bằng các công
cụ này.
Chương 4: Phân tích thiết kế và triển khai kho dữ li
ệu hoạt động dịch vụ
Nội dung chính của chương này bao gồm : Tìm hiểu về dữ liệu hệ thống, xác định
yêu cầu đặt ra , thiết kế mô hình kho dữ liệu dựa trên yêu cầu đã phân tích và dữ liệu
hệ thống nguồn, thiết kế tiến trình ETL để chuyển dữ liệu vào hệ thống, sử dụng công

dữ liệu không linh hoạt. Với những câu hỏi nghiệp vụ phức tạp việc truy vấn
là rất khó khăn và thời gian xử lý chậm.
- Dữ liệu dùng cho hệ thống báo cáo sản lượng là dữ liệu nghiệp vụ chưa qua
xử lý, còn dư thừa nhiều, không phù hợp với một hệ thống báo cáo và phân
tích số liệu.
Trong những nă
m gần đây, kho dữ liệu được phát triển và sử dụng nhiều trong các
hệ thống phân tích số liệu. Với những ưu thế có thể lưu trữ dữ liệu lớn , có khả năng
khai thác dữ liệu đa chiều và theo chiều sâu , đáp ứng được nhu cầu phân tích số liệu
của các doanh nghiệp. Xuất phát từ nhu cầu thực tiễn tại Công Ty Cổ Phần Truyền
Thông VMG, đồ án s
ẽ xây dựng kho dữ liệu cho hệ thống quản lý của công ty và xây
dựng các báo cáo phục vụ cho công việc quản lý của công ty.
12

1.2 Dữ liệu của hệ thống .
Dữ liệu báo cáo và thống kê của hệ thống cung cấp dịch vụ giá trị gia tăng bao
gồm dữ liệu lịch sử hoạt động của khách hàng, dữ liệu kế toán, và dữ liệu chăm sóc
khách hàng.
- Dữ liệu lịch sử hoạt động khách hàng : mỗi yêu cầu khách hàng vào hệ thống
sẽ được lưu giữ lại trong cơ sở dữ liệu, nó bao gồm thông tin về dị
ch vụ sử
dụng, yêu cầu, thời gian, trạng thái của các yêu cầu. Thông thường những dữ
liệu này chỉ dùng để đối soát và thanh toán với các mạng viễn thông , không
được ứng dụng vào các công cụ phân tích theo dõi .Cấu trúc dữ liệu các bảng
bao gồm .
- Dữ liệu kế toán : đây là dữ liệu về các thông tin kế toán bao gồm giá trị của
các dịch vụ, giá thanh toán với các mạng viễn thông, thông tin về các quảng
cáo của các d
ịch vụ. Dữ liệu này kết hợp với dữ liệu lịch sử hoạt động khách

thông dụng với nhiều ưu điểm: Công cụ quản lý mạnh mẽ, công cụ phát triển đa dạng,
khả năng mở rộng tốt, phù hợp với các doanh nghiệp trung bình. Chính vì thế đồ án sẽ
sử dụng SQL Server 2005 làm công cụ quản lý kho dữ liệu.
1.4.2 Công cụ xây dựng kho dữ liệu.
Tiến trình ETL sẽ được xây dựng bằng ngôn ngữ truy vấn T-SQL của MSSQL hỗ
trợ cùng với công cụ SQL Server Business Intelligent và dịch vụ SQL Server
Intergration Service. Thông qua tiến trình ETL dữ liệu được đưa từ dữ liệu nguồn đến
kho dữ liệu được xây dựng. Sau đó sử dụng dịch vụ SQL Server Analysis Service để
xây dựng lên các khối dữ liệu đa chiều(cubes) phục vụ phân tích .
1.4.3 Công cụ xây dựng báo cáo.
Sử dụng dịch vụ SQL Server reporting Services và công cụ cụ SQL Server
Business Intelligent để xây dựng và quản lý các báo cáo, đưa báo cáo lên web server
sử dụng IIS(Internet Information System) để người dùng có thể tra cứu qua web.
14
CHƯƠNG 2
TỔNG QUAN VỀ DATA WAREHOUSE

Tóm lược nội dung:
Nội dung chính của chương này là trình bày tổng quan về data warehouse gồm:
định nghĩa, đặc tính,mô hình, kiến trúc và xu hướng tương lai của data
warehouse.
2.1 Định nghĩa kho dữ liệu.
Định nghĩa do W.H.Inmon đề xướng : DWH là tập hợp dữ liệu tương đối ổn định
(không hay thay đổi),cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ
trợ quá trình tạo quyết định về mặt quản lý.[1]
2.2 Các đặc trưng của kho dữ liệu
2.2.1 Hướng chủ đề .
Hướng chủ để có nghĩa là kho dữ liệu được tổ chức xung quanh các chủ đề chính
như khách hàng, sản phẩm, sản xuất . Tập trung vào việc mô hình hóa và phân tích dữ
liệu cho các nhà ra quyết định mà không tập trung vào các xử lý thông thường. Cung cấp

Hình 2.1 Kiến trúc kho dữ liệu
2.3.1 Nguồn dữ liệu .
Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có cấu trúc
dữ liệu khác nhau:
16
- Dữ liệu từ hệ thống tác nghiệp: Đây là nguồn dữ liệu chính để xây dựng kho dữ
liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp.
- Dữ liệu từ hệ thống phân tích : Đây là dữ liệu được tổng hợp từ dữ liệu nguồn đã
cũ và tổ chức lại theo nhiều phương pháp khác nhau.
- Dữ liệu t
ừ bên ngoài: đây là các dữ liệu từ các nguồn ngoài hệ thống của công ty,
có thể do các tổ chức khác thu thập và tạo ra, nó được sử dụng cho các yêu cầu phân
tích dữ liệu.
Dữ liệu từ các hệ thống nguồn thường hỗn tạp và chứa nhiều cấu trúc khác nhau ví
dụ: các cơ sở dữ liệu, từ các file excel, các file thô, hay dạng XML Vì thế trước khi đưa
vào kho dữ liệu cần phải chuyển đổi và tích h
ợp dữ liệu.
2.3.2 Khu vực xử lý .
Ở khu vực này dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm
bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích. Thông thường người ta sử
dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL). Công cụ này thực hiện các
thao tác trích xuất dữ liệu, chuyển đổi dữ liệu , tải dữ liệu vào kho dữ liệu.
2.3.2.1 Nhiệm vụ :
- Làm sạch dữ liệu vào : Đây là quá trình kiểm tra dữ liệu đầu vào và loại bỏ các dữ
liệu sai định dạng hoặc lỗi. Nhiệm vụ của bước này bao gồm.
 Sử dụng các luật về dữ liệu (Data Quality rules) để kiểm tra dữ liệu đầu vào.
 Chỉnh sửa lỗi dữ liệu.
 Cảnh báo về lỗi dữ liệ
u đầu vào.
- Chuyển đổi dữ liệu : Đây là quá trình chuyển đổi dữ liệu nhằm đảm bảo tính nhất

2.3.2.3 Các kiểu kiến trúc ETL
Có 3 kiểu kiến trúc ETL chính đó là kiểu push, kiểu pull, kiể server trung gian
- Kiểu push: Trong kiến trúc này tiến trình ETL sẽ được chạy tại server chứa
nguồn dữ liệu . Mỗi khi cập nhật dữ liệu mới tiến trình ETL sẽ xử lý tại nguồn
dữ liệu sau đó đẩy dữ liệu mới đã được xử lý cho kho dữ liệu. Mô hình này
thường đượ
c sử dụng nếu nguồn dữ liệu là từ một server và máy nguồn đủ mạnh
để xử lý tiến trình ETL. Thông thường mô hình này sử dụng khi dữ liệu nguồn
không quá phức tạp và khối lượng dữ liệu không quá lớn.
18

Hình 2.2 tiến trình ETL nằm ở nguồn dữ liệu
- Kiểu pull : Với kiến trúc này tiến trình ETL sẽ được chạy ở server chứa kho dữ
liệu . Mỗi khi cập nhật dữ liệu tiến trình này sẽ kết nối tới các nguồn dữ liệu và
lấy dữ liệu về xử lý sau đó nạp vào kho dữ liệu. Ở kiến trúc này dữ liệu nguồn có
thể từ
nhiều nơi khác nhau, tuy nhiên máy chứa kho dữ liệu cần phải có đủ năng
lực xử lý tiến trình ETL. Cũng như kiển push kiểu kiến trúc này cũng được sử
dụng khi khối lượng dữ liệu và khối lượng thao tác không quá lớn.

Hình 2.3 Tiến trình ETL nằm ở server chứa kho dữ liệu
- Kiểu server trung gian: Đây là kiến trúc mày tiến trình ETL sẽ được chạy trên
một máy độc lập với cả kho dữ liệu và nguồn dữ liệu. Tiến trình sẽ đến lấy dữ
liệu từ nguồn dữ liệu sau đó xử lý và nạp vào kho dữ liệu. Kiểu kiến trúc này
thường được áp dụng cho các kho dữ liệu lớ
n, ở đây tiến trình ETL sẽ được chạy
trên một máy độc lập đủ năng lực xử lý .
19

Hình 2.4 Tiến trình ETL nằm ở server trung gian

các bảng sự kiện biểu diễn các sự kiện xảy ra và các thông tin chi tiết về các sự kiện đó .
Ưu điểm của mô hình này bao gồm.
- Trực quan , đơn giản phù hợp với cách nhìn nhận về
dữ liệu của người sử dụng.
- Dễ dàng truy vấn, hỗ trợ đa dạng các loại truy vấn.
- Sự phi chuẩn hóa đã tránh được việc phải nối nhiều bảng lại trong quá trình xử lý
điều này làm tăng tốc độ truy vấn và việc lưu trữ các cột tổng hợp có tác dụng
làm tăng tốc độ xử lý truy vấn.

Hình 2.4 Lược đồ hình sao.
2.4.2 L
ược đồ hình bông tuyết.
Chiều
Sản
phẩm
Bảng
sự kiện
bán
hàng
Chiều
cửa
hàng
Chiều
khách
hàng
Chiều
thời
gian
21
Đây là mô hình tương tự mô hình sao tuy nhiên nó mở rộng hơn mô hình sao ,

dàng hơn và tốc độ xử lý nhanh hơn tổ chức theo mô hình bảng quan hệ.
2.5 Ứng Dụng của kho dữ liệu.
Ngày nay, kho dữ liệu được triển khai trong các doanh nghiệp với nhiều mục đích
khác nhau như tạo các báo cáo tổng hợp, tích hợp dữ liệu,quản trị doanh nghiệp thông
minh(Business Intelligence) , quản lý quan hệ khách hàng, khai phá dữ liệu. [2]
2.5.1 Quản trị doanh nghiệp thông minh (Busines Intelligence).
Kho dữ liệu ngày nay được sử dụng cho việc quản trị doanh nghiệp thông minh , nó
giúp người quản lý có thể hiểu tổng quan và đầy đủ về công việc kinh doanh của doanh
nghiệp hơn. Thông qua các loại báo cáo tổng hợp, các kỹ thuật phân tích dữ liệu từ kho
dữ liệu người quản lý có thể đưa ra các quyết định một cách nhanh chóng và hợp lý.
Ngày càng nhiều các doanh nghiệp xây dựng hệ thống quản trị doanh nghiệp thông minh
để giúp cho h
ọ xử lý các thông tin nhằm hiểu rõ hơn về công việc kinh doanh, hỗ trợ
việc ra các quyết định chính xác hơn, nâng cao chất lượng kinh doanh và dịch vụ. Kho
dữ có thể trích xuất thông tin từ một nguồn dữ liệu rất lớn vì thế nên thông tin nó đưa ra
có cái nhìn tổng quan và đầy đủ hơn các hệ thống thông thường.
2.5.2 Quản lý mối quan hệ khách hàng.
Hệ thống quản lý quan hệ khách hàng bao gồm các ứng dụng hỗ trợ quản lý mối
quan hệ khách hàng. Ứng dụng của kho dữ liệu vào hệ thống này bao gồm.
- Đồng nhất khách hàng: cung cấp một cái nhìn tổng thể về khách hàng
- Quản lý việc cho phép .
- Phân đoạn khách hàng theo các nhóm tiêu chí.
- Hỗ trợ khách hàng .
- Phân tích khách hàng: kho dữ liệu cung cấp đầy đủ thông tin cho các ứng dụng
phân tích khách hàng.
2.5.3 Khai phá dữ liệu .
Khai phá dữ liệu là quá trình đi tìm kiếm các thông tin tiềm ẩn có giá trị trong các
khối dữ liệu lớn. Công cụ khai phá dữ liệu có thể phát hiện các thông tin mang tính dự
đoán, hay các thông tin hỗ trợ cho việc ra quyết định của người quản lý doanh nghiệp.
Kho dữ liệu được sử dụng cho các ứng dụng khai phá bởi vì những lý do sau

2.6 Xu hướng tương lai của kho dữ liệu
Trong tương lai xu hướng phát triển của kho dữ liệu bao gồm : quản lý dữ liệu phi
cấu trúc, tìm kiếm dữ liêu, kiến trúc hướng dịch vụ và kho dữ liệu thời gian thực [3]

Trích đoạn Sử dụng dịch vụ SSAS để xây dựng các cơ sở dữ liệu nhiều chiều Báo cáo sản lượng theo đầu số và nhóm dịch vụ Những điều chưa làm được và hướng phát triể n
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status