Nghiên cứu xây dựng mô hình giải pháp mã nguồn mở Cloudera phục vụ triển khai ứng dụng big data tại Mobifone (Luận văn thạc sĩ) - Pdf 53

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

PHẠM XUÂN LỘC

NGHIÊN CỨU XÂY DỰNG MÔ HÌNH GIẢI PHÁP
MÃ NGUỒN MỞ CLOUDERA PHỤC VỤ TRIỂN KHAI
ỨNG DỤNG BIG DATA TẠI MOBIFONE

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2019

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

PHẠM XUÂN LỘC

NGHIÊN CỨU XÂY DỰNG MÔ HÌNH GIẢI PHÁP
MÃ NGUỒN MỞ CLOUDERA PHỤC VỤ TRIỂN KHAI
ỨNG DỤNG BIG DATA TẠI MOBIFONE

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. HÀ HẢI NAM

Cuối cùng tôi xin kính chúc các thầy cô và toàn thể các bạn học viên trường
Học viện Công nghệ Bưu chính Viễn thông một sức khỏe dồi dào, đạt được những
thành công trên con đường học tập và nghiên cứu khoa học. Chúc trường ta sẽ sớm
trở thành ngọn cờ đầu của giáo dục nước nhà và Quốc tế.
Xin trân trọng cảm ơn!
Hà Nội, ngày

tháng

năm 2018

Tác giả luận văn

Phạm Xuân Lộc

iii

MỤC LỤC
LỜI CAM ĐOAN .......................................................................................................i
LỜI CẢM ƠN ........................................................................................................... ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ............................................v
DANH SÁCH BẢNG ............................................................................................. vii
DANH SÁCH HÌNH VẼ ....................................................................................... viii
MỞ ĐẦU ....................................................................................................................1
CHƯƠNG 1: GIỚI THIỆU VỀ BIG DATA VÀ GIẢI PHÁP CLOUDERA ÁP
DỤNG XÂY DỰNG BIG DATA..............................................................................3
Tóm tắt chương ........................................................................................................3
1.1. Định nghĩa “Hệ thống Big Data” .....................................................................3

2.4.3. Cài đặt Cloudera Manager Server ........................................................... 44
2.4.4. Cài đặt Cloudera Manager Agent ............................................................ 44
2.4.5. Cài đặt CDH và Manager Service Software ............................................46
2.4.6. Khởi tạo, cấu hình và khởi động CDH và Managed Services .................48
CHƯƠNG 3: KẾT QUẢ ĐẠT ĐƯỢC KHI XÂY DỰNG HỆ THỐNG
CLOUDERA TẠI MOBIFONE ............................................................................49
Tóm tắt chương ......................................................................................................49
3.1. Kết quả xây dựng hệ thống Cloudera tại MobiFone.......................................49
3.1.1. Quản lý các thành phần trên hệ thống bằng giao diện Cloudera .............49
3.1.2. Áp dụng Spark để giải quyết bài toán phân khúc thuê bao ..................... 52
3.2. Kinh nghiệm cài đặt, triển khai hệ thống Cloudera ........................................57
3.2.1. Một số tồn tại, khó khăn khi triển khai .................................................... 57
3.2.2. Các giải pháp khắc phục ..........................................................................58
KẾT LUẬN ..............................................................................................................59
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ..................................................... 60

v

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Chữ viết tắt
API

Tiếng Anh
Application Programming
Interface

Tiếng Việt
Giao diện lập trình ứng dụng

Hadoop Distributed File
System

IoT

Internet of Things

LZO

Lempel–Ziv–Oberhumer

NFC

ODBC
OS

Near-Field
Communications

Hệ thống lưu trữ file của Hadoop
Mạng lưới vạn vật kết nối
Internet
Thuật toán nén dữ liệu
Công nghệ giao tiếp tầm ngắn

Open Database

một phương pháp truy xuất cơ sở

Connectivity

Nhận dạng bằng tần số của sóng

Identification

vô tuyến

Short Message Services

Dịch vụ tin nhắn ngắn

vi

SPSS

SQL

Statistical Package for the

Một phần mềm máy tính phục vụ

Social Sciences

công tác phân tích thống kê

Structured Query
Language

VAS

Hình 1.9: Cơ chế hoạt động của MapReduce ........................................................... 24
Hình 1.10: Giao tiếp JobTracker và TaskTracker ..................................................... 25
Hình 1.11: Quá trình thực hiện maptask ...................................................................26
Hình 1.12: Quá trình reduce task ..............................................................................27
Hình 1.13: Cách đọc ghi trên map-reduce ................................................................ 30
Hình 1.14: Cách đọc ghi trên spark...........................................................................30
Hình 1.15: Mô hình kiến trúc tính toán song song impala ........................................31
Hình 2.1 : Kiến trúc triển khai tổng thể ....................................................................36
Hình 2.2: Mô hình phân khúc khách hàng trả trước của PWC .................................39
Hình 2.3: Mô hình logic triển khai Cloudera ............................................................ 41
Hình 2.4: Cài đặt cloudera Manager agent ............................................................... 45
Hình 2.5: Cài đặt cloudera theo cụm host từ giao diện .............................................45
Hình 2.6: Cài đặt các gói apache từ giao diện cloudera ............................................46
Hình 2.7: Kết quả cài đặt các apache trên cloudera home ........................................47
Hình 2.8: Khởi tạo cấu hình và khởi động CDH ...................................................... 48
Hình 3.1: Giám sát trạng thái mỗi server trong cụm từ cloudera manager ...............50
Hình 3.2: Giám sát tổng quan toàn bộ các cụm server từ cloudera manager ...........51
Hình 3.3: Các tham số cấu hình từ giao diện cloudera manager .............................. 51
Hình 3.4: Kiểm tra log hệ thống cloudera .................................................................52
Hình 3.5: Quy trình xử lý dữ liệu bài toán phân khúc thuê bao ................................ 52

ix

Hình 3.6: Kiểm tra dữ liệu nạp vào hadoop .............................................................. 53
Hình 3.7: Cách thực hiện coding bài toán phân khúc dùng spark trong cloudera ....54
Hình 3.8: Kết quả phân khúc dùng Mllib, spark trong cloudera ............................... 54
Hình 3.9: Kết quả phân khúc theo biểu đồ 1 ............................................................. 55
Hình 3.10: Kết quả phân khúc theo biểu đồ 2 ........................................................... 55
Hình 3.11: Kết quả phân khúc theo biểu đồ 3 ........................................................... 56

Tổng quan về vấn đề nghiên cứu
 Khảo sát và đánh giá nhu cầu triển khai Big Data ứng dụng các công nghệ
mã nguồn mở.
 Nghiên cứu và triển khai Big Data tại MobiFone ứng dụng Cloudera.
 Xây dựng và triển khai các bài toán phân tích dữ liệu dựa trên nền tảng hạ
tầng Big Data ứng dụng Cloudera.
 Đánh giá kết quả đạt được và hướng phát triển tiếp theo

2

3.

Mục đích nghiên cứu
 Nghiên cứu tìm hiểu công nghệ mã nguồn mở Cloudera phục vụ triển khai
Big Data.
 Xây dựng hệ thống Big Data dựa trên nền tảng Cloudera tại MobiFone.
 Cài đặt, phân tích và triển khai các chương trình khuyến mại và sản xuât kinh
doanh tại MobiFone.

4.

Đối tượng và phạm vi nghiên cứu
 Các sản phẩm mã nguồn mở hiện có trên thị trường về Big Data.
 Nghiên cứu chuyên sâu giải pháp Cloudera áp dụng xây dựng Big Data tại
MobiFone.

5.

Phương pháp nghiên cứu

nguồn khác nhau. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý
giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên
cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định
điều kiện giao thông theo thời gian thực. Trong công tác nghiên cứu khoa học, Big
Data đang mang lại các nhà nghiên cứu cơ hội tiếp cận và giải quyết rất nhiều vấn
đề hóc búa mà trước đây không thể hoặc rất khó thực hiện.
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp
đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm

4

đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá
mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu
khoa học, dự đoán các vấn đề, tình huống sẽ xảy ra. Những dữ liệu này phải được
thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường
do các hệ cơ sở dữ liệu lưu trữ truyền thống không đáp ứng được.

Hình ảnh mô tả các loại dữ liệu phổ biến người dùng hiện nay
Hình 1.1: Các loại dữ liệu phổ biến người dùng hiện nay

Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2015 thì nó
có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte =
1024 terabyte) chỉ cho một tập hợp dữ liệu nghiệp vụ nào đó mà thôi.
Về khái niệm Big Data có thể được định nghĩa phổ biến như sau:
Big Data được hiểu là “Dữ liệu lớn” – là tập hợp dữ liệu có dung lượng
của tất cả các lĩnh vực của đời sống xã hội; chúng vượt mức đảm đương của những
ứng dụng và công cụ truyền thống trong việc thu thập, hiển thị, phân phối, quản lý
và xử lý. Tương lai xa dữ liệu Big Data là không thể đếm được.
Big Data được tạo ra từ nhiều nguồn dữ liệu như mạng xã hội; các dịch vụ

 Các hệ thống RFID (một dạng kết nối tầm gần, như kiểu NFC nhưng có tầm
hoạt động xa hơn và cũng là thứ dùng trong thẻ mở cửa khách sạn) tạo ra
lượng dữ liệu lớn hơn 1.000 lần so với mã vạch truyền thống

6

 Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, cửa hàng Walmart
đã phải xử lí hơn 10 triệu giao dịch tiền mặt, tức là khoảng 5.000 giao dịch
mỗi giây.
 Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầu từ khách hàng của
mình mỗi ngày
 Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một
ngày mà thôi
 Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ
thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video…

Hình 1.2: Luồng xử lý dữ liệu lớn
(Nguồn : https://thegrid.ai/big-data-analytics/)

Big Data là thách thức đặt ra cho các tổ chức, doanh nghiệp trong thời đại số
hiện nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ có cơ hội thành công lớn hơn
trong bối cảnh cạnh tranh ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích
xuất thông tin một cách chính xác hơn, hữu ích hơn với chi phí thấp hơn.

1.2.

Xu hướng phát triển của công nghệ Big Data

1.2.1. Tình hình phát triển và nhu cầu sử dụng công nghệ Big Data trong

Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009, Google
đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh
hưởng, lan truyền của dịch cúm H1N1 đấy thôi. Dịch vụ này có tên là Google Flu
Trends. Xu hướng mà Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch
H1N1 đã được chứng minh là rất sát với kết quả do hai hệ thống cảnh báo cúm độc
lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần

8

như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm
dịch bệnh ở nhiều nơi trên thế giới.

Hình 1.3: Mô hình đoán áp dụng Big Data của google về dịch cúm 2009
(Nguồn: https://www.linkedin.com/pulse/big-data-là-gì-và-người-ta-khai-thác-ứng-dụngnó-vào-cuộc-nguyen )

Đường màu xanh là dự đoán của Google Flu Trends dựa trên số từ khóa tìm
kiếm liên quan đến các dịch cúm, màu vàng là dữ liệu do cơ quan phòng chống dịch
của Mỹ đưa ra.
Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn
đã giúp các tổ chức kiếm được 10,66$ cho mỗi 1$ chi phí phân tích, tức là gấp 10
lần! Một trường học ở một quận lớn tại Mỹ cũng có được sự tăng trưởng doanh
thulà 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác thì tăng 1000%
lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm.
Trong tương lai, chúng ta sẽ còn tiếp tục chứng kiến sự tăng trưởng của Big
Data. Hiện nay có thể bạn cũng đã nghe đến khái niệm Internet of Things, tức là
mang Internet đến với mọi thứ trong đời sống hằng ngày. Dữ liệu từ Internet of
Things thực chất cũng là được thu thập từ một mạng lưới rất nhiều các cảm biến và
thiết bị điện tử, và nó cũng là một trong những nguồn của Big Data. Lượng dữ liệu
khổng lồ này có thể cho các nhà nghiên cứu biết được hành vi tiêu dùng của khách

sức mạnh độc đáo và những điểm yếu riêng trong từng sản phẩm của mình.
Cloudera Inc được thành lập bởi những thiên tài dữ liệu lớn từ Facebook,
Google, Oracle và Yahoo trong năm 2008. Đây là công ty đầu tiên phát triển và
phân phối phần mềm Apache Hadoop và có số lượng người dùng lớn nhất với hầu
hết khách hàng. Mặc dù cốt lõi của phân phối dựa trên Apache Hadoop, nó cũng
cung cấp một công cụ quản lý Cloudera Suite độc quyền để tự động hóa quá trình

10

cài đặt và cung cấp dịch vụ khác để nâng cao sự tiện lợi của người sử dụng trong đó
bao gồm việc giảm thời gian triển khai và đơn giản quá trình vận hành, sử dụng.
Hortonworks, được thành lập vào năm 2011, đã nhanh chóng nổi lên như
một trong những nhà cung cấp hàng đầu của Hadoop. Việc phân phối cung cấp nền
tảng mã nguồn mở dựa trên Apache Hadoop cho việc phân tích, lưu trữ và quản lý
dữ liệu lớn. Hortonworks là nhà cung cấp thương mại duy nhất để phân phối hoàn
toàn mã nguồn mở Apache Hadoop mà không cần phần mềm độc quyền bổ sung.
Sản phẩm Hortonworks Distribution HDP2.0 có thể được tải về trực tiếp từ trang
web của họ miễn phí và rất dễ dàng để cài đặt.
MapR là một tiêu chuẩn phiên bản mã nguồn mở, phần mềm Apache Hadoop
đi kèm với một số hạn chế và được khắc phục qua các vấn đề trong bản tiêu chuẩn
qua các module độc quyền có phí.
Trong việc xây dựng hệ thống Big Data, 2 sản phẩm Cloudera và
Hortonworks được biết đến nhiều nhất với giấy phép 100% mã nguồn mở và có
nhiều tính năng mạnh mẽ trong việc lưu trữ dữ liệu lớn, quản là tìm kiếm dữ liệu
theo kỹ thuật Hadoop.
Cloudera cũng như Hortonworks đều được xây dựng trên cùng một lõi của
Apache Hadoop. Như vậy, họ có điểm tương đồng nhiều hơn sự khác biệt.
 Cả hai đều cung cấp và phân phối sản phẩm Hadoop ở cấp độ doanh
nghiệp (enterprise-ready Hadoop). Các bản phân phối đã được trải nghiệm qua thời

1.3.

Giới thiệu về Cloudera
Cloudera là một Platform mã nguồn mở nhằm giúp cho các công ty xây dựng

hệ thống Big Data một cách linh hoạt, dễ dàng tích hợp các thành phần mã nguồn
mở, quản lý khối lượng và đa dạng dữ liệu nhanh chóng gia tăng trong doanh
nghiệp. Các sản phẩm và giải pháp của Cloudera cho phép chúng ta có thể triển
khai, quản lý Apache Hadoop và các Apaches mã nguồn mở khác nhằm giúp thao
tác truy vấn, phân tích dữ liệu, và giữ cho dữ liệu luôn luôn được an toàn và được
bảo vệ.
Cloudera cung cấp những sản phẩm và công cụ sau:
 CDH (Cloudera Distribution Of Apache Hadoop): Là một phân bố
của Apache Hadoop và các apaches mã nguồn mở liên quan bao gồm Cloudera

12

Impala và Cloudera Search. CDH còn cung cấp bảo mật và tích hợp với rất nhiều
giải pháp phần cứng và phần mềm khác. Hiện phiên bản mới nhất của CDH là 5.
 Cloudera Impala: Là một SQL engine phục vụ các xử lý song song
với lượng dữ liệu lớn nhằm phân tích trong Big Data. Việc tối ưu hóa kiến trúc
trong Cloudera Impala giúp cho lý tưởng, phù hợp với các truy vấn truyền thống
bằng cách phân nhỏ thành các truy vấn con. Cloudera Impla có thể truy vấn các file
dữ liệu từ dữ liệu Hadoop từ nhiều nguồn khác nhau: như kết quả từ MapReduce
hoặc kết quả từ các bảng cơ sở dữ liệu Hive. Chúng ta có thể quản lý Impala cùng
các thành phần khác của Hadoop thông qua giao diện của Cloudera Manager
 Cloudera Search-Cung cấp truy vấn gần thời gian thực đến dữ liệu
được lưu trữ xong hoặc đang được nạp vào Hadoop và HBase. Cloudera Search

Cloudera

Cloudera

Express

Enterprise

Cluster Management
Số lượng hosts hỗ trợ

Unlimited

Unlimited

Việc kiểm tra để xác định tính sẵn sàng của Host

có

có

Quản trị Multi-cluster

có

có

Kiểm tra tập trung các lệnh chạy

có

Tích hợp giao diện

có

có

Hố trợ phiên bản CDH 4 và CDH 5

có

có

Tự động kiểm tra tính sẳn sàng và tự động deploy

có

có

Cài đặt từ kho cục bộ

có

có

Kiểm soát toàn cục để chuẩn đoán hệ thống trong
lịch sử

Deployment

có

có

Hỗ trợ HA

có

có

có

có

có

có

HBase co-processor support

có

có

Cấu hình audit

có

có

Workflows (add, start, stop, restart, delete, and
decommission services, hosts, and role instances)

Cấu hình phiên bản

có

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu xây dựng mô hình giải pháp mã nguồn mở Cloudera phục vụ triển khai ứng dụng big data tại Mobifone (Luận văn thạc sĩ) - Pdf 53

Tài liệu, ebook tham khảo khác

Học thêm