Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại - Pdf 10

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Lương Thái Đức
Áp dụng Data Warehouse trong phân tích thông tin về
các dịch vụ giá trị gia tăng trên điện thoại
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Lương Thái Đức
Áp dụng Data Warehouse trong phân tích thông tin về
các dịch vụ giá trị gia tăng trên điện thoại
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: ThS. Lê Hồng Hải
HÀ NỘI - 2010
LỜI CẢM ƠN
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo ThS. Lê Hồng Hải, người
đã tận tình hướng dẫn em trong suốt quá trình nghiên cứu và hoàn thành khóa luận tốt
nghiệp.
Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong bốn năm
qua, những kiến thức mà em nhận được trên giảng đường đại học sẽ là hành trang giúp em
vững bước trong tương lai.
Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến gia đình và bạn bè, những người luôn kịp
thời động viên và giúp đỡ em vượt qua những khó khăn trong cuộc sống.
Hà nội, ngày 21/05/2010
Nguyễn Lương Thái Đức
1

Hình 4.12 Lược đồ kho dữ liệu tổng hợp sản lượng...................................................50
3
Hình 4.13 Chọn các bảng cho data soures views .......................................................51
Hình 4.14 Đặt các quan hệ cho các bảng....................................................................52
Hình 4.15 Quyết định các bảng chiều và sự kiện........................................................53
Hình 4.17 Chọn các Measures. Các thành phần tính toán...........................................53
Hình 4.18 Định nghĩa các hàm tính toán....................................................................54
Hình 4.19 Kết quả hiển thị truy vấn...........................................................................55
Hình 4.20 Xây dựng truy vấn.....................................................................................57
Hình 4.21 Thiết kế báo cáo........................................................................................58
Hình 4.22 Màn hình xây dựng báo cáo.......................................................................58
Hình 4.22 Kết quả hiển thị. .......................................................................................59
Hình 4.24 Báo cáo theo mạng viễn thông...................................................................60
Hình 4.25 Báo cáo theo nhóm dịch vụ........................................................................61
4
THUẬT NGỮ VÀ VIẾT TẮT
SSIS (SQL Server Intergration Services): Dịch vụ tích hợp dữ liệu của SQL Server 2005
SSAS(SQL Server Analysis Services): Dịch vụ phân tích dữ liệu của SQL Server 2005
SSRS(SQL Server Reporting Services): Dịch vụ quản lý báo cáo của SQL Server 2005
MSSQL(Microsoft SQL Server ): Hệ quản trị cơ sở dữ liệu của Microsoft.
OLAP (Online Transaction Processing): xử lý giao dịch trực tuyến.
ETL (Extract Transform Load ): Tiến trình trích xuất, chuyển đổi và nạp dữ liệu.
MDX(Multidimensional eXpressions) : Ngôn ngữ truy vấn đa chiều.
BIDS(Business Intelligence Deverlopment Studio) : công cụ phát triển của SQL Server 2005.
5
TÓM TẮT NỘI DUNG
Nội dung chính của đề tài là xây dựng kho dữ liệu cho việc quản lý kinh doanh các
dịch vụ giá trị gia tăng trên điện thoại tại Công Ty Cổ Phần Truyền Thông VMG Việt
Nam. Đề tài sẽ sử dụng các công cụ của Microsoft SQL Server 2005 để xây dựng kho
dữ liệu từ hệ thống hiện tại của công ty, quản lý kho dữ liệu và xây dựng các báo cáo

Chương 2: Tổng quan về Data WareHouse
Nội dung chính của chương này là trình bày tổng quan về data warehouse gồm: định nghĩa,
đặc tính,mô hình, kiến trúc và xu hướng tương lai của data warehouse.
Chương 3 Tổng quan về Microsoft SQL Server 2005
Mục tiêu chính của chương này nhằm giới thiệu về các công cụ sẽ được sử dụng để xây
dựng kho dữ liệu. Hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2005 , dịch vụ Sql
Server Analysis Service , Ngôn ngữ truy vấn MDX trên cơ sở dữ liệu đa chiều, dịch vụ
Sql Server Reporting Service và hướng xây dựng kho dữ liệu bằng các công cụ này.
Chương 4: Phân tích thiết kế và triển khai kho dữ liệu hoạt động dịch vụ
Nội dung chính của chương này bao gồm : Tìm hiểu về dữ liệu hệ thống, xác định yêu
cầu đặt ra , thiết kế mô hình kho dữ liệu dựa trên yêu cầu đã phân tích và dữ liệu hệ
thống nguồn, thiết kế tiến trình ETL để chuyển dữ liệu vào hệ thống, sử dụng công cụ
SQL Server Analysis Service để xây dựng các cơ sở dữ liệu nhiều chiều , sử dụng công
cụ SQL Reporting Service để xây dựng các báo cáo.
Kết luận
Đây là phần kết kuận của khóa luận đưa ra những điều đã làm được và chưa làm được
của khóa luận và hướng phát triển của khóa luận.
Các tài liệu tham khảo.
Các phụ lục
8
CHƯƠNG 1: TỔNG QUAN
Tóm lược nội dung :
Mục tiêu của chương này nhằm trình bày lý do lựa chọn đề tài, tổng quan về dữ liệu
của hệ thống cung cấp các dịch vụ giá trị gia tăng trên điện thoại, mục tiêu và phạm vi
của đồ án , công cụ và phương pháp xây dựng kho dữ liệu.
1.1 Tổng quan về hệ thống và lý do lựa chọn đề tài.
Công Ty Cổ Phần Truyền Thông VMG là một trong những đơn vị đi đầu về kinh
doanh dịch vụ giá trị gia tăng trên điện thoại di động. Công ty có một hệ thống theo dõi
và báo cáo sản lượng nhằm phục vụ cho báo cáo thống kê và phân tích hoạt động của
dịch vụ phục vụ cho việc quản lý. Hệ thống này hoạt động dựa trên số liệu về quá trình

của các dịch vụ. Dữ liệu này kết hợp với dữ liệu lịch sử hoạt động khách hàng
để thanh toán tiền với các đối tác thuê sử dụng dịch vụ và các mạng viễn thông.
Dữ liệu này cùng với dữ liệu tổng hợp của lịch sử hoạt động khách hàng còn
dùng cho phân tích , thống kê và báo cáo định kỳ.
- Dữ liệu chăm sóc khách hàng: Đây là dữ liệu về thông tin về khách hàng của
trung tâm chăm sóc khách hàng của công ty gồm các cuộc gọi đến trung tâm,
trạng thái khách hàng, thông tin về thắc mắc của khách hàng.
1.3 Mục tiêu và phạm vi của đề tài.
1.3.1 Mục tiêu.
Xây dựng và triển khai kho dữ liệu cho hệ thống báo cáo và thống kê sản lượng
dịch vụ dựa trên kết quả tìm hiểu và phân tích hệ thống nguồn tại công ty Cổ Phần và
Truyền Thông VMG đang sử dụng nhằm hỗ trợ các phòng ban , lãnh đạo công ty đưa
ra các quyết định nhanh chóng và chính xác. Xây dựng cơ sở dữ liệu hoàn chỉnh cho
kho dữ liệu, ánh xạ dữ liệu từ hệ thống nguồn vào kho dữ liệu, xây dựng các báo cáo
và công cụ tra cứu báo cáo .
10
1.3.2 Phạm vi của đề tài.
Việc xây dựng kho dữ liệu là một quá trình lâu dài phức tạp và bao gồm nhiều công
đoạn . Trong phạm vi đồ án này, dữ liệu xây dựng chỉ tập trung vào dữ liệu khách hàng,
thông tin chăm sóc khách hàng và dữ liệu kế toán . Đồ án này sẽ tập trung vào xây
dựng kho dữ liệu từ các hệ thống nguồn nói trên sau đó sử dụng công cụ SQL Server
Analysis Service để định nghĩa lên các khối dữ liệu đa chiều cuối cùng sử dụng công
cụ SQL Server Reporting Service để tạo ra các báo cáo và xuất ra ứng dụng cho người
dùng xem .
1.4 Công cụ thực hiện
1.4.1 Hệ quản trị cơ sở dữ liệu cho kho dữ liệu .
Trong những năm gần đây, Microsoft SQL Server là một hệ quản trị cơ sở dữ liệu
thông dụng với nhiều ưu điểm: Công cụ quản lý mạnh mẽ, công cụ phát triển đa dạng,
khả năng mở rộng tốt, phù hợp với các doanh nghiệp trung bình. Chính vì thế đồ án sẽ sử
dụng SQL Server 2005 làm công cụ quản lý kho dữ liệu.

nhằm đảm bảo tính nhất quán của dữ liệu.
2.2.3 Tính bền vững:
Dữ liệu trong kho dữ liệu được chuyển đổi từ môi trường tác nghiệp và được lưu trữ
trong một thời gian dài, khi dữ liệu được chuyển đổi vào đây thì các thao tác cập nhật và
xóa dữ liệu thường không xảy ra. Dữ liệu trong kho dữ liệu chỉ có hai thao tác: Chèn mới
và đọc dữ liệu.
2.2.4 Gắn với thời gian .
12
Phạm vi về thời gian của dữ liệu được lưu trữ trong kho dữ liệu dài hơn so với các hệ
thống tác nghiệp, nếu như dữ liệu tác nghiệp chỉ có giá trị hiện thời kho dữ liệu cung cấp
thông tin lịch sử lâu dài vì thế nó cung cấp một cái nhìn đầy đủ và nhiều thông tin hơn.
Trong kho dữ liệu thời gian được lưu trữ như một thành phần của khóa chính để đảm bảo
tính duy nhất của dữ liệu và cung cấp một đặc trưng thời gian của dữ liệu. Dữ liệu trong
kho luôn gắn với một giá trị thời gian nhất định
2.2.5 Dữ liệu tổng hợp :
Dữ liệu được tích hợp vào các bảng tổng hợp trong kho dữ liệu nhằm phục vụ cho các
mục đích xử lý và phân tích. Ngoài ra còn có các bảng ghi dữ liệu chi tiết các sự kiện nhằm
cung cấp các thông tin chi tiết .
2.3Kiến trúc của kho dữ liệu
Mô hình kiến trúc của kho dữ liệu cơ bản gồm có ba thành phần : Dữ liệu nguồn, khu
vực xử lý và kho dữ liệu .
Hình 2.1 Kiến trúc kho dữ liệu
2.3.1 Nguồn dữ liệu .
Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có cấu trúc
dữ liệu khác nhau:
13
- Dữ liệu từ hệ thống tác nghiệp: Đây là nguồn dữ liệu chính để xây dựng kho dữ
liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp.
- Dữ liệu từ hệ thống phân tích : Đây là dữ liệu được tổng hợp từ dữ liệu nguồn đã cũ
và tổ chức lại theo nhiều phương pháp khác nhau.

 Chọn các cột dữ liệu phù hợp (chỉ chọn các cột cần thiết )
 Chuyển đổi dữ liệu. Ví dụ : chuyển 1 thành Nam hay ngược lại.
 Tạo ra các cột tính toán mới . Ví dụ: Điểm trung bình = Tổng điểm /số trình
 Lọc dữ liệu.
 Sắp xếp dữ liệu
 Thực hiện các phép tổng hợp (tính tổng các cột, đếm số dòng, tính trung bình).
 Tạo ra các giá trị mới (tạo khóa tự tăng ).
 Tìm kiếm hay so sánh dữ liệu.
Có thể nói đây là bước quan trọng nhất trong tiến trình ETL , nó thực hiện hầu hết
các nhiệm vụ của tiến trình ETL.
- Nạp dữ liệu vào kho dữ liệu: Đây là quá trình đẩy dữ liệu sau khi đã được
chuyển đổi vào kho dữ liệu. Dữ liệu sau khi đã được chuyển đổi sẽ được nạp vào
kho dữ liệu.
2.3.2.3 Các kiểu kiến trúc ETL
Có 3 kiểu kiến trúc ETL chính đó là kiểu push, kiểu pull, kiể server trung
gian
- Kiểu push: Trong kiến trúc này tiến trình ETL sẽ được chạy tại server chứa
nguồn dữ liệu . Mỗi khi cập nhật dữ liệu mới tiến trình ETL sẽ xử lý tại nguồn dữ
liệu sau đó đẩy dữ liệu mới đã được xử lý cho kho dữ liệu. Mô hình này thường
được sử dụng nếu nguồn dữ liệu là từ một server và máy nguồn đủ mạnh để xử lý
tiến trình ETL. Thông thường mô hình này sử dụng khi dữ liệu nguồn không quá
phức tạp và khối lượng dữ liệu không quá lớn.
15
Hình 2.2 tiến trình ETL nằm ở nguồn dữ liệu
- Kiểu pull : Với kiến trúc này tiến trình ETL sẽ được chạy ở server chứa kho dữ
liệu . Mỗi khi cập nhật dữ liệu tiến trình này sẽ kết nối tới các nguồn dữ liệu và
lấy dữ liệu về xử lý sau đó nạp vào kho dữ liệu. Ở kiến trúc này dữ liệu nguồn có
thể từ nhiều nơi khác nhau, tuy nhiên máy chứa kho dữ liệu cần phải có đủ năng
lực xử lý tiến trình ETL. Cũng như kiển push kiểu kiến trúc này cũng được sử
dụng khi khối lượng dữ liệu và khối lượng thao tác không quá lớn.

để không phải tính toán lại mỗi khi có truy vấn.
2.4 Mô hình logic của kho dữ liệu
2.4.1 Lược đồ hình sao
Trong mô hình dữ liệu này,phạm vi dữ liệu được tổ chức trong các bảng chiều, mỗi
chiều ứng với một đặc trưng của dữ liệu ( khách hàng, sản phẩm , bán hàng, thời gian…),
các bảng sự kiện biểu diễn các sự kiện xảy ra và các thông tin chi tiết về các sự kiện đó .
Ưu điểm của mô hình này bao gồm.
- Trực quan , đơn giản phù hợp với cách nhìn nhận về dữ liệu của người sử dụng.
- Dễ dàng truy vấn, hỗ trợ đa dạng các loại truy vấn.
- Sự phi chuẩn hóa đã tránh được việc phải nối nhiều bảng lại trong quá trình xử lý
điều này làm tăng tốc độ truy vấn và việc lưu trữ các cột tổng hợp có tác dụng
làm tăng tốc độ xử lý truy vấn.
Hình 2.4 Lược đồ hình sao.
2.4.2 Lược đồ hình bông tuyết.
18
Chiều
Sản
phẩm
Bảng
sự kiện
bán
hàng
Chiều
cửa
hàng
Chiều
khách
hàng
Chiều
thời

2.5 Ứng Dụng của kho dữ liệu.
Ngày nay, kho dữ liệu được triển khai trong các doanh nghiệp với nhiều mục đích
khác nhau như tạo các báo cáo tổng hợp, tích hợp dữ liệu,quản trị doanh nghiệp thông
minh(Business Intelligence) , quản lý quan hệ khách hàng, khai phá dữ liệu. [2]
2.5.1 Quản trị doanh nghiệp thông minh (Busines Intelligence).
Kho dữ liệu ngày nay được sử dụng cho việc quản trị doanh nghiệp thông minh , nó
giúp người quản lý có thể hiểu tổng quan và đầy đủ về công việc kinh doanh của doanh
nghiệp hơn. Thông qua các loại báo cáo tổng hợp, các kỹ thuật phân tích dữ liệu từ kho dữ
liệu người quản lý có thể đưa ra các quyết định một cách nhanh chóng và hợp lý. Ngày
càng nhiều các doanh nghiệp xây dựng hệ thống quản trị doanh nghiệp thông minh để giúp
cho họ xử lý các thông tin nhằm hiểu rõ hơn về công việc kinh doanh, hỗ trợ việc ra các
quyết định chính xác hơn, nâng cao chất lượng kinh doanh và dịch vụ. Kho dữ có thể trích
xuất thông tin từ một nguồn dữ liệu rất lớn vì thế nên thông tin nó đưa ra có cái nhìn tổng
quan và đầy đủ hơn các hệ thống thông thường.
2.5.2 Quản lý mối quan hệ khách hàng.
Hệ thống quản lý quan hệ khách hàng bao gồm các ứng dụng hỗ trợ quản lý mối quan
hệ khách hàng. Ứng dụng của kho dữ liệu vào hệ thống này bao gồm.
- Đồng nhất khách hàng: cung cấp một cái nhìn tổng thể về khách hàng
- Quản lý việc cho phép .
- Phân đoạn khách hàng theo các nhóm tiêu chí.
- Hỗ trợ khách hàng .
- Phân tích khách hàng: kho dữ liệu cung cấp đầy đủ thông tin cho các ứng dụng
phân tích khách hàng.
2.5.3 Khai phá dữ liệu .
Khai phá dữ liệu là quá trình đi tìm kiếm các thông tin tiềm ẩn có giá trị trong các
khối dữ liệu lớn. Công cụ khai phá dữ liệu có thể phát hiện các thông tin mang tính dự
20
đoán, hay các thông tin hỗ trợ cho việc ra quyết định của người quản lý doanh nghiệp. Kho
dữ liệu được sử dụng cho các ứng dụng khai phá bởi vì những lý do sau
- Dữ liệu trong nó đã được làm sạch có cấu trúc,

dữ liệu được lưu trong các hàng và các cột , điều này có nghĩa là cấu trúc dữ liệu đã được
định nghĩa sẵn. Tuy nhiên với một số loại dữ liệu như text, hình ảnh, âm thanh, email…
thì không có cấu trúc định sẵn. Chính vì thế việc lưu trữ dữ liệu phi cấu trúc cho phép
người dùng lưu trữ, quản lý và phân loại các dữ liệu phi cấu trúc theo các các thuộc tính
vật lý riêng.
2.6.2 Tìm kiếm.
Việc lưu trữ các dữ liệu phi cấu trúc đòi hỏi một yêu cầu quan trọng đó là tìm kiếm
dữ liệu. Việc tìm kiếm ở đây là tìm kiếm thông tin bên trong các dữ liệu phi cấu trúc được
lưu trữ . Ví dụ: tìm kiếm các từ bên trong email, web… Các công cụ tìm kiếm phi cấu trúc
phân loại dữ liệu theo các thuộc tính của nó và đánh chỉ mục cho dữ liệu , khi cần tìm kiếm
thông tin công cụ tìm kiếm sẽ duyệt các chỉ mục, tìm kiếm các thông tin và hiển thị ra kết
quả. Ngày nay tìm kiếm đang là xu hướng của kho dữ liệu vì ngày càng nhiều dữ liệu phi
cấu trúc được lưu trữ và nhu cầu tìm kiếm thông tin trên dữ liệu phi cấu trúc là rất cần
thiết.
2.6.3 Kiến trúc hướng dịch vụ.
Kiến trúc hướng dịch vụ (Service- Oriented Architecture - SOA) là hướng tiếp cận
mới trong thiết kế và tích hợp các phần mềm , chức năng, hệ thống theo dạng module trong
đó mỗi module đóng vai trò là một dịch vụ, mỗi module đều có thể truy nhập qua môi
trường mạng. Xây dựng kho dữ liệu theo kiến trúc hướng dịch vụ có nghĩa là phân tích các
thành phần của kho dữ liệu (ETL, hệ thống báo cáo, dữ liệu hướng chủ đề…) thành các
thành phần nhỏ hơn và độc lập với nhau giao tiếp với nhau bằng các dịch vụ riêng. Điều
này cho phép người phát triển có thể thay thế các thành phần trong kho dữ liệu mà không
làm thay đổi đến các thành phần khác.
2.6.4 Kho dữ liệu thời gian thực.
Ngày nay, các kho dữ liệu được cập nhật theo chu kỳ , thời gian giữa các chu kỳ là
rất dài, sở dĩ có việc này là do việc cập nhất vào kho dữ liệu theo các lô, mỗi lần cập nhật
có khối lượng xử lý rất lớn. Do nhu cầu của việc kinh doanh người dùng cần có được sự
22
cập nhật thông tin một cách nhanh chóng. Vì thế trong tương lai kho dữ liệu sẽ được cập
nhật theo thời gian thực.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status