LUẬN VĂN:ÁP DỤNG DATA WAREHOUSE TRONG PHÂN TÍCH THÔNG TIN VỀ CÁC DỊCH VỤ GIÁ TRỊ GIA TĂNG TRÊN ĐIỆN THOẠI - Pdf 15




Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Lương Thái Đức

Áp dụng Data Warehouse trong phân tích thông tin về
các dịch vụ giá trị gia tăng trên điện thoại


2

DANH SÁCH HÌNH VẼ 5
THUẬT NGỮ VÀ VIẾT TẮT 7
TÓM TẮT NỘI DUNG 8
MỞ ĐẦU 9
Chương 1: Tổng quan 8
1.1 Tổng quan về hệ thống và lý do lựa chọn đề tài 11
1.2 Dữ liệu của hệ thống 12
1.3 Mục tiêu và phạm vi của đề tài. 12
1.3.1 Mục tiêu. 12
1.3.2 Phạm vi của đề tài 13
1.4. Công cụ thực hiện 13
1.4.2 Hệ quản trị cơ sở dữ liệu cho kho dữ liệu . 13
1.4.2 Công cụ xây dựng kho dữ liệu 13
1.4.3 Công cụ xây dựng báo cáo. 13
CHƯƠNG 2: TỔNG QUAN VỀ DATA WAREHOUSE 14
2.1 Định nghĩa kho dữ liệu. 14
2.2 Các đặc trưng của kho dữ liệu 14
2.2.1 Hướng chủ đề . 14
2.2.2 Tính tích hợp 14
2.2.3 Tính bền vững: 14
2.2.4 Gắn với thời gian . 15
2.2.5 Dữ liệu tổng hợp : 15
2.3 Kiến trúc của kho dữ liệu 15
2.3.1 Nguồn dữ liệu . 15
2.3.2 Khu vực xử lý . 16
2.3.2.1 Nhiệm vụ : 16
2.3.2.2 Các bước : 16
2.3.2.3 Các kiểu kiến trúc ETL 17

4.2.2 Hệ thống quản lý quảng cáo . 42
4.2.3 Kho dữ liệu chủ đề chi tiết sử dụng dịch vụ của khách hàng 46
4.3 Sử dụng SSIS để xây dựng tiến trình ETL 48
4.3.1 Mô tả chung 48
4.3.2 Ánh xạ dữ liệu cho các chiều. 48
4.3.2.1 Chiều mã dịch vụ. 48
4.3.2.2 Chiều mạng viễn thông 49
4.3.2.3 Chiều đầu số 49
4.3.2.4 Chiều nhóm dịch vụ. 50
4.3.2.5 Chiều thời gian 50
4.3.2.6 Bảng sự kiện tổng hợp sản lượng 50
4.3.2.7 Chiều Quảng cáo 51
4.3.2.8 Chiều khách hàng 51
4.3.2.9 Ánh xạ dữ liệu cho bảng sự kiện quảng cáo 52
4.3.2.10 Ánh xạ dữ liệu cho bảng sự kiện chi tiết dịch vụ 52
4.4 Sử dụng dịch vụ SSAS để xây dựng các cơ sở dữ liệu nhiều chiều 52
4
4.4.1 Xây dựng cube cho kho dữ liệu chủ đề tổng hợp sản lượng. 52
4.4.2 Xây dựng cube cho kho dữ liệu chủ đề quảng cáo và chi phí 57
4.4.3 Xây dựng cube cho kho dữ liệu chủ đề chi tiết sử dụng dịch vụ 58
4.4.4 Sử dụng truy vấn MDX để lấy dữ liệu trên cube 58
4.4 Sử dụng dịch vụ SSRS để xây dựng các báo cáo 59
4.4.1 Báo cáo sản lượng đầu số 59
4.4.1.1 Yêu cầu: 59
4.4.1.2 Cách xây dựng . 59
4.4.2 Báo cáo sản lượng theo các mạng viễn thông. 63
4.4.3 Báo cáo sản lượng theo đầu số và nhóm dịch vụ 64
KẾT LUẬN 66
5.1 Những điều đã làm được 66
5.2 Những điều chưa làm được và hướng phát triển 66

6
Hình 4.13 Chọn các bảng cho data soures views 51
Hình 4.14 Đặt các quan hệ cho các bảng 52
Hình 4.15 Quyết định các bảng chiều và sự kiện 53
Hình 4.17 Chọn các Measures. Các thành phần tính toán. 53
Hình 4.18 Định nghĩa các hàm tính toán 54
Hình 4.19 Kết quả hiển thị truy vấn 55
Hình 4.20 Xây dựng truy vấn 57
Hình 4.21 Thiết kế báo cáo 58
Hình 4.22 Màn hình xây dựng báo cáo 58
Hình 4.22 Kết quả hiển thị. 59
Hình 4.24 Báo cáo theo mạng viễn thông 60
Hình 4.25 Báo cáo theo nhóm dịch vụ 61
7
THUẬT NGỮ VÀ VIẾT TẮT

SSIS (SQL Server Intergration Services): Dịch vụ tích hợp dữ liệu của SQL Server 2005
SSAS(SQL Server Analysis Services): Dịch vụ phân tích dữ liệu của SQL Server 2005
SSRS(SQL Server Reporting Services): Dịch vụ quản lý báo cáo của SQL Server 2005
MSSQL(Microsoft SQL Server ): Hệ quản trị cơ sở dữ liệu của Microsoft.
OLAP (Online Transaction Processing): xử lý giao dịch trực tuyến.
ETL (Extract Transform Load ): Tiến trình trích xuất, chuyển đổi và nạp dữ liệu.
MDX(Multidimensional eXpressions) : Ngôn ngữ truy vấn đa chiều.
BIDS(Business Intelligence Deverlopment Studio) : công cụ phát triển của SQL Server 2005.

Nội dung của khóa luận bao gồm những phần chính như sau:
Mở đầu
Đây là phần giới thiệu chung về lý do chọn đề tài, cũng như bố cục chung của khóa luận
10
Chương 1: Tổng quan
Nội dung chính của chương này là nêu lên tổng quan về dữ liệu của hệ thống cung cấp
các dịch vụ giá trị gia tăng trên điện thoại, mục tiêu , phạm vi của đồ án , công cụ và
phương pháp xây dựng kho dữ liệu.
Chương 2: Tổng quan về Data WareHouse
Nội dung chính của chương này là trình bày tổng quan về data warehouse gồm: định
nghĩa, đặc tính,mô hình, kiến trúc và xu hướng tương lai của data warehouse.
Chương 3 Tổng quan về Microsoft SQL Server 2005
Mục tiêu chính của chương này nhằm giới thiệu về các công cụ sẽ được sử dụng để
xây dựng kho dữ liệu. Hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2005 , dịch vụ
Sql Server Analysis Service , Ngôn ngữ truy vấn MDX trên cơ sở dữ liệu đa chiều,
dịch vụ Sql Server Reporting Service và hướng xây dựng kho dữ liệu bằng các công
cụ này.
Chương 4: Phân tích thiết kế và triển khai kho dữ liệu hoạt động dịch vụ
Nội dung chính của chương này bao gồm : Tìm hiểu về dữ liệu hệ thống, xác định
yêu cầu đặt ra , thiết kế mô hình kho dữ liệu dựa trên yêu cầu đã phân tích và dữ liệu
hệ thống nguồn, thiết kế tiến trình ETL để chuyển dữ liệu vào hệ thống, sử dụng công
cụ SQL Server Analysis Service để xây dựng các cơ sở dữ liệu nhiều chiều , sử dụng
công cụ SQL Reporting Service để xây dựng các báo cáo.
Kết luận
Đây là phần kết kuận của khóa luận đưa ra những điều đã làm được và chưa làm
được của khóa luận và hướng phát triển của khóa luận.
Các tài liệu tham khảo.
Các phụ lục

1.2 Dữ liệu của hệ thống .
Dữ liệu báo cáo và thống kê của hệ thống cung cấp dịch vụ giá trị gia tăng bao
gồm dữ liệu lịch sử hoạt động của khách hàng, dữ liệu kế toán, và dữ liệu chăm sóc
khách hàng.
- Dữ liệu lịch sử hoạt động khách hàng : mỗi yêu cầu khách hàng vào hệ thống
sẽ được lưu giữ lại trong cơ sở dữ liệu, nó bao gồm thông tin về dịch vụ sử
dụng, yêu cầu, thời gian, trạng thái của các yêu cầu. Thông thường những dữ
liệu này chỉ dùng để đối soát và thanh toán với các mạng viễn thông , không
được ứng dụng vào các công cụ phân tích theo dõi .Cấu trúc dữ liệu các bảng
bao gồm .
- Dữ liệu kế toán : đây là dữ liệu về các thông tin kế toán bao gồm giá trị của
các dịch vụ, giá thanh toán với các mạng viễn thông, thông tin về các quảng
cáo của các dịch vụ. Dữ liệu này kết hợp với dữ liệu lịch sử hoạt động khách
hàng để thanh toán tiền với các đối tác thuê sử dụng dịch vụ và các mạng viễn
thông. Dữ liệu này cùng với dữ liệu tổng hợp của lịch sử hoạt động khách hàng
còn dùng cho phân tích , thống kê và báo cáo định kỳ.
- Dữ liệu chăm sóc khách hàng: Đây là dữ liệu về thông tin về khách hàng của
trung tâm chăm sóc khách hàng của công ty gồm các cuộc gọi đến trung tâm,
trạng thái khách hàng, thông tin về thắc mắc của khách hàng.
1.3 Mục tiêu và phạm vi của đề tài.
1.3.1 Mục tiêu.
Xây dựng và triển khai kho dữ liệu cho hệ thống báo cáo và thống kê sản lượng
dịch vụ dựa trên kết quả tìm hiểu và phân tích hệ thống nguồn tại công ty Cổ Phần và
Truyền Thông VMG đang sử dụng nhằm hỗ trợ các phòng ban , lãnh đạo công ty đưa
ra các quyết định nhanh chóng và chính xác. Xây dựng cơ sở dữ liệu hoàn chỉnh cho
kho dữ liệu, ánh xạ dữ liệu từ hệ thống nguồn vào kho dữ liệu, xây dựng các báo cáo
và công cụ tra cứu báo cáo .
13
1.3.2 Phạm vi của đề tài.

warehouse.
2.1 Định nghĩa kho dữ liệu.
Định nghĩa do W.H.Inmon đề xướng : DWH là tập hợp dữ liệu tương đối ổn định
(không hay thay đổi),cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ
trợ quá trình tạo quyết định về mặt quản lý.[1]
2.2 Các đặc trưng của kho dữ liệu
2.2.1 Hướng chủ đề .
Hướng chủ để có nghĩa là kho dữ liệu được tổ chức xung quanh các chủ đề chính
như khách hàng, sản phẩm, sản xuất . Tập trung vào việc mô hình hóa và phân tích dữ
liệu cho các nhà ra quyết định mà không tập trung vào các xử lý thông thường. Cung cấp
cho người dùng một khung nhìn toàn vẹn, đơn giản và đầy đủ về các sự kiện quanh các
chủ đề.
2.2.2 Tính tích hợp
Dữ liệu trong kho dữ liệu được xây dựng bằng cách tổng hợp dữ liệu từ nhiều nguồn
khác nhau và các nguồn có tổ chức khác nhau : Cơ sở dữ liệu, các file excel, các flat file
hoặc các raw file. Khi đưa vào kho dữ liệu , các dữ liệu được làm sạch và tích hợp dữ liệu
nhằm đảm bảo tính nhất quán của dữ liệu.
2.2.3 Tính bền vững:
Dữ liệu trong kho dữ liệu được chuyển đổi từ môi trường tác nghiệp và được lưu
trữ trong một thời gian dài, khi dữ liệu được chuyển đổi vào đây thì các thao tác cập nhật
và xóa dữ liệu thường không xảy ra. Dữ liệu trong kho dữ liệu chỉ có hai thao tác: Chèn
mới và đọc dữ liệu.

15
2.2.4 Gắn với thời gian .
Phạm vi về thời gian của dữ liệu được lưu trữ trong kho dữ liệu dài hơn so với các
hệ thống tác nghiệp, nếu như dữ liệu tác nghiệp chỉ có giá trị hiện thời kho dữ liệu cung
cấp thông tin lịch sử lâu dài vì thế nó cung cấp một cái nhìn đầy đủ và nhiều thông tin
hơn. Trong kho dữ liệu thời gian được lưu trữ như một thành phần của khóa chính để
đảm bảo tính duy nhất của dữ liệu và cung cấp một đặc trưng thời gian của dữ liệu. Dữ

- Làm sạch dữ liệu vào : Đây là quá trình kiểm tra dữ liệu đầu vào và loại bỏ các dữ
liệu sai định dạng hoặc lỗi. Nhiệm vụ của bước này bao gồm.
 Sử dụng các luật về dữ liệu (Data Quality rules) để kiểm tra dữ liệu đầu vào.
 Chỉnh sửa lỗi dữ liệu.
 Cảnh báo về lỗi dữ liệu đầu vào.
- Chuyển đổi dữ liệu : Đây là quá trình chuyển đổi dữ liệu nhằm đảm bảo tính nhất
quán trước khi chuyển vào kho dữ liệu. Quá trình này bao gồm các bước.
 Sử dụng các luật về chuyển đổi dữ liệu để chuyển đồi.
 Chuyển đổi kiểu dữ liệu cho phù hợp với cơ sở dữ liệu đích
 Chuyển đổi dữ liệu vào một lược đồ nhất quán.
2.3.2.2 Các bước :Tiến trình ETL gồm có 3 bước.
- Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể có rất nhiều
cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ file
17
thô. Vì thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn
để xử lý.
- Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi dữ liệu nguồn
một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích. Ở bước này sẽ phải
sử dụng các phép chuyển đổi như:
 Chọn các cột dữ liệu phù hợp (chỉ chọn các cột cần thiết )
 Chuyển đổi dữ liệu. Ví dụ : chuyển 1 thành Nam hay ngược lại.
 Tạo ra các cột tính toán mới . Ví dụ: Điểm trung bình = Tổng điểm /số trình
 Lọc dữ liệu.
 Sắp xếp dữ liệu
 Thực hiện các phép tổng hợp (tính tổng các cột, đếm số dòng, tính trung bình).
 Tạo ra các giá trị mới (tạo khóa tự tăng ).
 Tìm kiếm hay so sánh dữ liệu.
Có thể nói đây là bước quan trọng nhất trong tiến trình ETL , nó thực hiện hầu
hết các nhiệm vụ của tiến trình ETL.
- Nạp dữ liệu vào kho dữ liệu: Đây là quá trình đẩy dữ liệu sau khi đã được

Kho dữ liệu là cơ sở dữ liệu được tổ chức lại theo mô hình hình sao hay mô hình
bông tuyết. Mô hình được phi chuẩn hóa, chấp nhận sự dư thừa dữ liệu trong lưu trữ dữ
liệu chính vì thế mô hình dữ liệu đơn giản hơn nên việc truy vấn dễ dàng hơn và tốc độ
xử lý cũng nhanh hơn mô hình dữ liệu được chuẩn hóa. Ngoài ra kho dữ liệu còn chứa
các dữ liệu khác như.
- Siêu dữ liệu: Đây là dữ liệu chứa định nghĩa của dữ liệu được lưu trữ trong kho dữ
liệu. Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu
được tải vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu. Siêu dữ liệu
gồm có các dạng sau:
o Dữ liệu định nghĩa và cách thức ánh xạ dữ liệu vào các bảng trong kho dữ liệu.
o Dữ liệu định nghĩa và giải thích cấu trúc của các bảng bên trong kho dữ liệu.
o Dữ liệu định nghĩa cấu trúc dữ liệu ở hệ thống nguồn.
o Dữ liệu định nghĩa và chú thích về tiến trình ETL.
o Dữ liệu định nghĩa các luật về chất lượng dữ liệu , các mức độ sai lệch của dữ liệu
và cách thức xử lý.
o Dữ liệu theo dõi tiến trình xử lý các bản ghi trong kho dữ liệu.
o Dữ liệu chứa các sự kiện hoạt động của các ứng dụng.
20
- Bảng sự kiện tổng hợp : Các bảng tổng hợp này lưu dữ các dữ liệu tính toán được
nhằm trả lời một cách nhanh nhất các câu hỏi của người dùng đưa ra. Đây là dữ liệu
có thể tính toán được từ các bảng khác tuy nhiên để tăng tốc độ xử lý dữ liệu này
được lưu trữ để không phải tính toán lại mỗi khi có truy vấn.
2.4 Mô hình logic của kho dữ liệu
2.4.1 Lược đồ hình sao
Trong mô hình dữ liệu này,phạm vi dữ liệu được tổ chức trong các bảng chiều, mỗi
chiều ứng với một đặc trưng của dữ liệu ( khách hàng, sản phẩm , bán hàng, thời gian…),
các bảng sự kiện biểu diễn các sự kiện xảy ra và các thông tin chi tiết về các sự kiện đó .
Ưu điểm của mô hình này bao gồm.
- Trực quan , đơn giản phù hợp với cách nhìn nhận về dữ liệu của người sử dụng.
- Dễ dàng truy vấn, hỗ trợ đa dạng các loại truy vấn.

nhất các câu hỏi trong nghiệp vụ của người quản lý. Có thể nhìn dữ liệu được tổ chức như
là một khối , trong đó mỗi chiều là một chủ đề trong nghiệp vụ .

Hình 2.6 Mô hình dữ liệu nhiều chiều
Ở hình trên, khối dữ liệu gồm có 3 chiều : khách hàng, sản phẩm , thời gian. Mỗi ô
trong đó là một bản ghi được lưu giữ trong bảng sự kiện. Với mô hình này người dùng
Chiều thời
gian
Cửa hàng
phân phối
Chiều sản
phẩm
Chiều
khách
hàng
Bảng sự
kiện bán
hàng
Loại
sản
phẩm
22
có thể dễ dàng đặt ra các câu hỏi theo các tiêu chí khác nhau, việc trả lời truy vấn cũng dễ
dàng hơn và tốc độ xử lý nhanh hơn tổ chức theo mô hình bảng quan hệ.
2.5 Ứng Dụng của kho dữ liệu.
Ngày nay, kho dữ liệu được triển khai trong các doanh nghiệp với nhiều mục đích
khác nhau như tạo các báo cáo tổng hợp, tích hợp dữ liệu,quản trị doanh nghiệp thông
minh(Business Intelligence) , quản lý quan hệ khách hàng, khai phá dữ liệu. [2]
2.5.1 Quản trị doanh nghiệp thông minh (Busines Intelligence).
Kho dữ liệu ngày nay được sử dụng cho việc quản trị doanh nghiệp thông minh , nó

2.5.4 Quản lý dữ liệu chủ .
Dữ liệu chủ hay master data là dữ liệu bao gồm các thực thể mô tả các sự kiện xảy
ra . Dữ liệu chủ có thể trả lời đầy đủ các câu hỏi xung quanh sự kiện xảy ra .
Ví dụ: trong việc kinh doanh có sự kiện khách hàng mua một sản phẩm, thì dữ liệu chủ ở
đây là khách hàng, sản phẩm, nhãn hiệu.
Việc quản lý dữ liệu chủ ở đây là quá trình trích xuất, làm sạch, lưu trữ , cập nhật
và phân phối dữ liệu chủ. Hệ thống quản lý dữ liệu chủ khôi phục dữ liệu chủ từ một hệ
thống xử lý giao dịch trực tuyến. Việc quản lý dữ liệu chủ vì hai mục đích sau.
- Nếu dữ liệu chủ được làm sạch và rõ ràng thì việc quản lý và bảo trì kho dữ
liệu dễ dàng hơn.
- Việc tích hợp dữ liệu vào kho dữ liệu sẽ dễ dàng hơn và nhanh chóng hơn.
2.5.5 Tích hợp dữ liệu khách hàng.
Đây là quá trình trích xuất, làm sạch, lưu trữ và phân phối dữ liệu về khách hàng. Hệ
thống tích hợp dữ liệu khách hàng trích xuất dữ liệu từ hệ thống xử lý giao dịch trực
tuyến làm sạch nó và chuyển nó vào trong kho dữ liệu khách hàng.
Hệ thống tích hợp dữ liệu khách hàng có thể cho dữ liệu về khách hàng sạch hơn,
duy nhất và đáng tin hơn các ứng dụng khác trong doanh nghiệp điều này tăng tính tin
cậy cho các ứng dụng về quản lý khách hàng.
2.6 Xu hướng tương lai của kho dữ liệu
Trong tương lai xu hướng phát triển của kho dữ liệu bao gồm : quản lý dữ liệu phi
cấu trúc, tìm kiếm dữ liêu, kiến trúc hướng dịch vụ và kho dữ liệu thời gian thực [3]

Trích đoạn Sử dụng SSIS để xây dựng tiến trình ETL Chiều Quảng cáo Xây dựng cube cho kho dữ liệu chủ đề quảng cáo và chi phí Báo cáo sản lượng theo đầu số và nhóm dịch vụ
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status