(Luận văn thạc sĩ) nghiên cứu và ứng dụng các phương pháp học máy nhằm tăng cường hiệu quả các dịch vụ giá trị gia tăng của mạng di động beeline - Pdf 70

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRỊNH VIỆT LONG

NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƯƠNG PHÁP HỌC
MÁY NHẰM TĂNG CƯỜNG HIỆU QUẢ CÁC DỊCH VỤ GIÁ TRỊ
GIA TĂNG CỦA MẠNG DI ĐỘNG BEELINE

LUẬN VĂN THẠC SỸ

Ngành: Công nghệ thông tin

HÀ NỘI - 2011


MỞ ĐẦU
1. Đặt vấn đề
Sau quãng thời gian phát triển nóng, số th bao dịch vụ viễn thơng di động khơng
ngừng tăng với tốc độ chóng mặt, hiện tại thị trường viễn thơng Việt Nam đã tiệm cận
ngưỡng bão hịa. Điều đó khiến cho cuộc chiến chiếm thị phần ngày càng khốc liệt, biến
viễn thông thành một trong những thị trường có mức độ cạnh tranh cao nhất tại Việt Nam.
Các mạng viễn thông đều không ngừng tăng cường vùng phủ sóng, nâng cao chất lượng
mạng và liên tục đưa ra các gói cước hấp dẫn cùng các chương trình khuyến mãi lớn,
song hành với các chiến dịch tiếp thị và quảng cáo rầm rộ.
Với việc giá cước cuộc gọi ngày càng giảm sâu, đặc biệt là với mạng viễn thông
mới thâm nhập thị trường Việt Nam như Beeline, các dịch vụ giá trị gia tăng (Value
Added Serivces – VAS) ngày càng đóng vai trị quan trọng hơn trong việc thúc đẩy doanh
thu cho các mạng viễn thông.
Ngày nay, việc lưu trữ, xử lý dữ liệu để tổng hợp thông tin, hỗ trợ ra quyết định đã
trở nên phổ biến đối với nhiều tổ chức sản xuất, kinh doanh. Có nhiều phương pháp để

Hình 3 - Ứng dụng kho dữ liệu trong Business Intelligence .... ............................. 5
Hình 4 – Ví dụ về cây quyết định . .......... ............................... ............................. 9
Hình 5 – Thành phần của hệ Business Intelligence ................. ............................12
Hình 6 – Cấu trúc của Pentaho Business Intelligence .............. ............................19
Hình 7 – Dữ liệu mệnh giá nạp thẻ trung bình ......................... ............................26
Hình 8 – Dữ liệu ARPU của các dịch vụ giá trị gia tăng ......... ............................27
Hình 9 – Mơ hình kho dữ liệu ................. ............................... ............................28
Hình 10 – Spoon workspace ................... ............................... ............................29
Hình 11 – Spoon nhập dữ liệu ................. ............................... ............................29
Hình 12 – Combination Lookup/Update . ............................... ............................30
Hình 13 – Thay đổi thuộc tính ................ ............................... ............................31
Hình 14 – Kết nối cơ sở dữ liệu .............. ............................... ............................31
Hình 15 – Tạo bảng Dim_time ................ ............................... ............................32
Hình 16 – Tạo bảng dim_factor .............. ............................... ............................33
Hình 17 – Tạo Table Output ................... ............................... ............................33
Hình 18 – Tạo bảng fact_price ................ ............................... ............................34
Hình 19 – Nhập dữ liệu........................... ............................... ............................34
Hình 20 – Kết nối cơ sở dữ liệu .............. ............................... ............................35
Hình 21 – Kiến trúc Cube ....................... ............................... ............................35
Hình 22 – Repository Login .................... ............................... ............................36
Hình 23 – Kết nối cơ sở dữ liệu .............. ............................... ............................37


Hình 24 –Khung làm việc Pentaho .......... ............................... ............................37
Hình 25 – Chọn schema và cube ............. ............................... ............................38
Hình 26 – Dữ liệu schema và cube .......... ............................... ............................38
Hình 27 – Nội dung phân tích ................. ............................... ............................39
Hình 28 – Chọn Measures....................... ............................... ............................39
Hình 29 – Chọn factor ............................ ............................... ............................39
Hình 30 – Chọn loại biểu đồ ................... ............................... ............................40



Mục lục
MỞ ĐẦU ................................................................................................................. 5
1. Đặt vấn đề ........................................................................................................ 5
2. Mục tiêu của nghiên cứu ................................................................................... 5
3. Cấu trúc của luận văn ....................................................................................... 5
Chƣơng 1: KHO DỮ LIỆU VÀ HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL ..... 1
1.1.

Kho dữ liệu ................................................................................................ 1

1.1.1. Khái niệm kho dữ liệu .......................................................................... 1
1.1.2. Các đặc tính của kho dữ liệu ................................................................. 2
1.1.3. Cấu trúc hệ thống kho dữ liệu ............................................................... 3
1.1.4. Dòng dữ liệu trong kho dữ liệu ............................................................. 4
1.1.5. Ứng dụng của kho dữ liệu ..................................................................... 5
1.2.

Hệ quản trị cơ sở dữ liệu MySQL .............................................................. 6

1.2.1. Giới thiệu MySQL ................................................................................ 6
1.2.2. Ưu điểm và nhược điểm của MySQL ................................................... 7
Chƣơng 2 : PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU ........................................... 8
2.1.

Khái niệm khai phá dữ liệu ........................................................................ 8

2.2.


Pentaho – Business Intelligence Server .................................................... 19

3.3.1. Tổng quan về Pentaho ........................................................................ 19
3.3.2. Khả năng và lợi ích của Pentaho ......................................................... 20
3.4.

Mondrian – OLAP Server ........................................................................ 23

3.4.1. Mondrian ............................................................................................ 23
3.4.2. Schema Workbench ............................................................................ 23
3.5.

Weka – Khai phá dữ liệu.......................................................................... 24

Chƣơng 4 : ỨNG DỤNG BUSINESS INTELLIGENCE ................................... 25
4.1.

Tạo báo cáo sử dụng công cụ BI .............................................................. 25

4.1.1.

Giới thiệu bài toán ................................................................................ 25

4.1.2.

Thu thập,xử lý dữ liệu .......................................................................... 25

4.2.

Tạo data warehouse ................................................................................. 27

tin nhanh, chính xác. Một kho dữ liệu được thiết kế để người sử dụng có thể nhận ra
thơng tin mà họ muốn có và truy cập đến bằng những công cụ đơn giản.
Một kho dữ liệu là một sự pha trộn của nhiều công nghệ, bao gồm các cơ sở dữ liệu
đa chiều và mối quan hệ giữa chúng, kiến trúc chủ khách, giao diện người dùng đồ họa và
nhiều nữa. Dữ liệu trong kho dữ liệu không giống dữ liệu của hệ điều hành là loại chỉ có
thể đọc nhưng khơng chỉnh sửa được. Hệ điều hành tạo ra, chỉnh sửa và xóa những dữ
liệu sản xuất mà những dữ liệu này cung cấp cho kho dữ liệu. Nguyên nhân chính cho sự
phát triển một kho dữ liệu là hoạt động tích hợp dữ liệu từ nhiền nguồn khác nhau vào
một kho dữ liệu đơn lẻ và dày đặc mà kho này cung cấp cho việc phân tích và ra quyết
định trong cơng việc kinh doanh.
Kho dữ liệu thường bao gồm:

1


Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL

-

Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác
nhau.

-

Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập
các bảng dữ liệu.

Một kho dữ liệu có thể được coi là một hệ thống thơng tin với những thuộc tính sau:
• Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các dữ liệu
từ các ứng dụng khác nhau.

của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mơ hình nghiệp vụ,
dự báo, khảo sát những chỉ tiêu cần quan tâm.

1.1.3.

Cấu trúc hệ thống kho dữ liệu

Hệ thống kho dữ liệu thường bao gồm 3 tầng như trong hình 1:
Tầng đáy: là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn hóa,
lưu trữ tập trung.
Tầng giữa: thực hiện các thao tác với kho dữ liệu thơng qua dịch vụ OLAP (OLAP
server). Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả
hai mô hình trên thành mơ hình Hybrid OLAP.
Tầng trên: thực hiện việc truy vấn, khai phá thông tin.

3


Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL

Hình 1 – Cấu trúc hệ thống kho dữ liệu [6].

1.1.4.

Dòng dữ liệu trong kho dữ liệu

Do kho dữ liệu chứa lượng dữ liệu lớn, đồng thời hạn chế thao tác sửa đổi nên rất
thích hợp cho việc phân tích dài hạn và báo cáo. Các thao tác với dữ liệu của kho dữ liệu
chủ yếu dựa trên cơ sở là Mơ hình dữ liệu đa chiều (multidimensional data model),
thường áp dụng cho các khối dữ liệu (data cube). Khối dữ liệu là trung tâm của vấn đề cần



Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL

Cách thứ ba để khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu. Đây
là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học
cũng như yêu cầu trong thực tiễn. Các kết quả thu được mang nhiều tính dự báo, dự đốn,
dùng trong việc xây dựng kế hoạch, chiến lược.
Các lĩnh vực hiện tại áp dụng kho dữ liệu
-

Thương mại điện tử.

-

Kế hoạch hoá nguồn lực doanh nghiệp (ERP - Enterprise Resource Planning).

-

Quản lý quan hệ khách hàng (CRM - Customer Relationship Management)

-

Chăm sóc sức khỏe.

-

Viễn thơng.

Hình 3 - Ứng dụng kho dữ liệu trong Business Intelligence [5].

hoản thiện, bổ sung nhiều chức năng mới.
Tuy nhiên, MySQL vẫn còn một số hạn chế nhất định :
+ MySQL hoạt động tốt đối với những cơ sở dữ liệu vừa và nhỏ nhưng chưa hỗ trợ
tốt cho các cơ sở dữ liệu có kích thước rất lớn.
+ Trong các phiên bản trước phiên bản 5.0, MySQL không hỗ trợ ROLE, COMMIT
và Stored procedure.
+ Các giao tác (transaction) khi xử lý vẫn cịn gặp sai sót.

7


Chương 2 – Phương pháp khai phá dữ liệu

Chƣơng 2 : PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU
2.1. Khái niệm khai phá dữ liệu
Theo Frawley, Piatetski-Shapiro và Matheus [2] : Khai phá dữ liệu là một bước
trong quá trình Phát hiện tri thức trong cơ sở dữ liệu, thi hành một thuật tốn khai phá dữ
liệu để tìm ra các mẫu từ dữ liệu theo khn dạng thích hợp.
Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng
các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu.

2.2. Các thành phần của giải thuật khai phá dữ liệu
Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn mơ
hình, đánh giá mơ hình, tìm kiếm mơ hình.
Biểu diễn mơ hình: Mơ hình được biểu diễn bằng một ngơn ngữ L để mơ tả các
mẫu có thể khai thác được. Nếu sự mơ tả bị hạn chế q mức thì sẽ khơng thể dùng các
mơ hình tạo ra để học hoặc sẽ khơng thể tạo ra được một mơ hình chính xác cho dữ liệu.
Việc quan trọng là người phân tích dữ liệu cần phải hiểu đầy đủ các giả thiết mô tả. Một
điều cần thiết khác là người thiết kế giải thuật cần phải diễn tả được rằng các giả thiết mô
tả nào được tạo ra bởi giải thuật nào. Khả năng mơ tả mơ hình càng lớn thì càng làm tăng

và với một mơ tả mơ hình đã định. Việc tìm kiếm là khơng cần thiết đối với một số bài
tốn trong đó các đánh giá tham số tối ưu có thể đạt được bằng các cách đơn giản hơn.
Đối với các mơ hình chung, giải thuật “tham lam” thường được sử dụng lặp đi lặp lại.
Tìm kiếm mơ hình xảy ra giống như một vịng lặp qua phương pháp tìm kiếm tham số:
mơ tả mơ hình bị thay đổi tạo nên một họ các mơ hình. Với mỗi mơ hình, phương pháp
tìm kiếm tham số được áp dụng để đánh giá chất lượng mơ hình. Các phương pháp tìm
kiếm mơ hình thường sử dụng các kỹ thuật tìm kiếm heuristic vì kích thước của khơng
gian các mơ hình có thể thường ngăn cản các tìm kiếm tổng thể.
Hai phương pháp khai phá dữ liệu phổ biến được trình bày ở phần sau là Cây quyết
định và Phát hiện luật kết hợp.

2.3. Cây quyết định
Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các
đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn là tên các
thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mơ tả các lớp
khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương
ứng với các giá trị của thuộc tính trong đối tượng ở lá. Hình 4 mơ tả một mẫu đầu ra có
thể của quá trình khai phá dữ liệu dùng phương pháp cây quyết định với tập dữ liệu khách
9


Chương 2 – Phương pháp khai phá dữ liệu

hàng xin vay vốn. Hai nút của cây được gán nhãn là “Nợ” và “Thu nhập”, các cạnh được
gán nhãn tương ứng để so sánh Nợ với giá trị n, Thu nhập với giá trị t. Các đối tượng lá
ứng với đường đi trong cây, ví dụ lá ngồi cùng bên trái ứng với các đối tượng có Nợ < n
và Thu nhập < t và khơng được cho vay.

Hình 4 – Ví dụ về cây quyết định.
Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt

Cho một lược đồ R={A1, …, Ap} các thuộc tính với miền giá trị {0,1}, và một quan
hệ r trên R. Một luật kết hợp trên r được mô tả dưới dạng X⇒B với X⊆R và B∈R\X. Về
mặt trực giác, ta có thể phát biểu ý nghĩa của luật như sau: nếu một bản ghi của bảng r có
giá trị 1 tại mỗi thuộc tính thuộc X thì giá trị của thuộc tính B cũng là 1 trong cùng bản
ghi đó.
Cho W ⊆R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ của các
hàng trong r có giá trị 1 tại mỗi cột thuộc W. Tần số xuất hiện của luật X⇒B trong r được
định nghĩa là s(X∪{B}, r) còn gọi là độ hỗ trợ của luật, độ tin cậy của luật là s(X∪{B},
r)/s(X, r). Ở đây X có thể gồm nhiều thuộc tính, B là giá trị không cố định. Nhờ vậy mà
không xảy ra việc tạo ra các luật không mong muốn trước khi q trình tìm kiếm bắt đầu.
Điều đó cũng cho thấy khơng gian tìm kiếm có kích thước tăng theo hàm mũ của số lượng
các thuộc tính ở đầu vào. Do vậy cần phải chú ý khi thiết kế dữ liệu cho việc tìm kiếm các
luật kết hợp.
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X⇒B sao
cho tần số của luật không nhỏ hơn ngưỡng σ cho trước và độ tin cậy của luật không nhỏ
hơn ngưỡng θ cho trước. Từ một cơ sở dữ liệu ta có thể tìm được hàng nghìn và thậm chí
hàng trăm nghìn các luật kết hợp.
Ta gọi một tập con X⊆R là thường xuyên trong r nếu thỏa mãn điều kiện s(X, r)≥σ.
Nếu biết tất cả các tập thường xuyên trong r thì việc tìm kiếm các luật rất dễ dàng. Vì
vậy, giải thuật tìm kiếm các luật kết hợp trước tiên đi tìm tất cả các tập thường xuyên

11


Chương 2 – Phương pháp khai phá dữ liệu

này, sau đó tạo dựng dần các luật kết hợp bằng cách ghép dần các tập thuộc tính dựa trên
mức độ thường xun.
Các luật kết hợp có thể là một cách hình thức hóa đơn giản. Chúng rất thích hợp cho
việc tạo ra các kết quả có dữ liệu ở dạng nhị phân. Hạn chế cơ bản của phương pháp này

phân tán và có tính lịch sử. Đồng thời việc phân tích dữ liệu trong BI khơng phải là những
phân tích đơn giản mà là những kỹ thuật trong khai phá dữ liệu dùng để phân lớp, phân
cụm, hay dự đốn. Vì vậy BI có mối quan hệ rất chặt chẽ với kho dữ liệu và khai phá dữ
liệu.

Hình 5 – Thành phần của hệ Business Intelligence [1].
Các thành phần cơ bản của hệ thống Business Intelligence được mơ tả như trong
hình 5.
13


Chương 3 – Bộ công cụ Business Intelligence

Data Warehouse (Kho dữ liệu): Chứa dữ liệu tổng hợp về hoạt động kinh doanh,
khách hàng, nhân sự …của doanh nghiệp.
Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và phát hiện
tri thức như phân lớp, phân nhóm, phát hiện luật kết hợp, dự đốn,…nhằm tổng hợp thơng
tin hữu ích cung cấp cho việc phân tích ra quyết định.
Business Analyst (Phân tích kinh doanh) : Các nhà lãnh đạo doanh nghiệp đưa ra
những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp.

3.1.3.

Lợi ích của Business Intelligence đối với doanh nghiệp

Tiết kiệm chi phí : Thơng thường để biết được lí do vì sao kết quả kinh doanh tháng
này giảm so với tháng trước, nhà quản lý thường phải tìm hiểu qua nhiều kênh thơng tin
khác nhau từ phịng kế tốn tới phịng kinh doanh.., nhiều khi tiêu tốn khá nhiều thời gian,
nguồn lực. Cịn với giải pháp BI, tận dụng ưu thế có thể phân tích sâu theo nhiều chiều,
nhà quản lý có thể tìm ngay được nguyên nhân bị giảm doanh thu là do đâu, cụ thể vùng

cấp cho doanh nghiệp cái nhìn tổng thể về khách hàng bằng cách phân loại khách hàng
theo nhiều tiêu chí khác nhau: độ tuổi, giới tính, nơi sinh sống, thu nhập, doanh thu... để
doanh nghiệp có thể cung cấp những sản phẩm phù hợp với nhu cầu của họ hay có thể
thiết kế những chương trình khuyến mãi, quảng cáo riêng cho những khu vực mà những
đối tượng đó tập trung đơng nhất.
Đánh giá đối thủ cạnh tranh, mở rộng thị trƣờng : Đối với thị trường cạnh tranh
gay gắt như hiện nay, nhà quản lý khơng những phải nắm rõ tình hình của doanh nghiệp
mình mà cần phải đánh giá được tiềm lực của đối thủ cạnh tranh trong ngành, nắm được
danh sách những khách hàng tiềm năng để mở rộng thị phần, tìm kiếm thêm khách hàng
mới. Thông qua việc thu thập thông tin từ bên ngồi doanh nghiệp, BI có thể đưa ra báo
cáo so sánh doanh thu, số lượng khách hàng... của doanh nghiệp so với các đối thủ khác
trong ngành. Hoặc khi đối thủ tung ra một chương trình khuyến mãi nào đó, doanh nghiệp
sử dụng hệ thống BI để đo lường doanh thu và số khách hàng của mình, từ đó đối chiếu
với mức độ lơi cuốn của chương trình, nếu số khách hàng giảm đáng kể nhưng doanh thu
vẫn khơng giảm nhiều chứng tỏ chương trình của đối thủ chỉ thu hút những khách hàng có
giá trị thấp, và ngược lại là chương trình thành cơng. Từ đó doanh nghiệp có thể học được
ở đối thủ và có những hành động để kéo những khách hàng có giá trị cao về phía mình.

3.1.4.

Các cơng cụ Business Intelligence

Các cơng cụ Business Intelligence là các phần mềm ứng dụng được thiết kế để báo
cáo, phân tích và trình bày dữ liệu. Các công cụ này sẽ đọc dữ liệu đã được lưu trữ từ
trước trong các kho dữ liệu hoặc chợ dữ liệu. Các công cụ Business Intelligence rất đa
15


Chương 3 – Bộ cơng cụ Business Intelligence



Hệ quản lý hoạt động kinh doanh

-

Hệ thống thông tin cục bộ

Một số công cụ Business Intelligence miễn phí,mã nguồn mở tiêu biểu : InetSoft,
InfoZoom, JasperSoft, MicroStrategy, Pentaho, Openl,…

3.1.5.

Kết hợp Business Intelligence và MySQL

Hiện nay trên thị trường giải pháp BI đã xuất hiện nhiều bộ sản phẩm của các hãng
lớn như : Oracle Enterprise BI Server (Oracle), SAP Business Objects Enterprise (SAP),
QL Server Analysis Service (Microsoft)…Các sản phẩm này đều đã tập trung giải quyết
các yêu cầu đối với một hệ thống BI hoàn chỉnh. Tuy nhiên, một cản trở lớn đối với các
doanh nghiệp muốn tiếp cận các giải pháp này chính là vấn đề tài chính. Kinh phí để xây
dựng hệ thống BI cũng như cơ sở dữ liệu tương ứng là không nhỏ. Đồng thời, các hệ
thống này thường đi kèm với những cơ sở dữ liệu tương đối phức tạp như Oracle, MS
SQL Server, địi hỏi phải có những nhân sự được đào tạo tốt để vận hành.
Tận dụng lợi thế của MySQL, hệ quản trị cơ sở dữ liệu mà nguồn mở miễn phí, một
số nhà sản xuất đã cho ra đời các bộ sản phẩm BI trong đó sử dụng hệ quản trị cơ sở dữ
liệu MySQL. Đây là giải pháp tốt cho những doanh nghiệp vừa vả nhỏ. Với kinh phí yêu
16


Chương 3 – Bộ công cụ Business Intelligence


kỹ thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này. OLAP cung cấp
nhiều lợi ích cho người phân tích, ví dụ:

17



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status