(Luận văn thạc sĩ) Nghiên cứu một số vân đề về BIG data và ứng dụng trong phân tích kinh doanh - Pdf 60

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ

TÊN ĐỀ TÀI
NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ BIG DATA
VÀ ỨNG DỤNG TRONG PHÂN TÍCH KINH DOANH

Giáo viên hướng dẫn

: GS.TS Vũ Đức Thi

Học viên thực hiện

: Phạm Việt Anh

Lớp

: CK16H

Thái Nguyên, tháng 1 năm 2019


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ
Tên đề tài Nghiên cứu một số vấn đề về Big Data
và ứng dụng trong phân tích kinh doanh


những thách thức mới. Ví dụ là làm thế nào để tổ chức và quản lý các tập dữ liệu như
vậy một cách hiệu quả.
Trong những năm trở lại đây, nhiều ngành công nghiệp đang trở nên quan tâm
đến tiềm năng to lớn của Big Data, nhiều cơ quan chính phủ đã công bố kế hoạch lớn
trong việc phát triển nghiên cứu và ứng dụng Big Data [2]. Không chỉ vậy, các vấn đề
liên quan tới Big Data cũng luôn được nhắc đến trên các phương tiện truyền thông
công cộng, chẳng hạn như Economist [3][4], New York Times [5] và Nation Public
Radio [6][7]. Hai tạp chí khoa học đầu ngành là Nature và Science cũng đã mở mục
riêng để thảo luận về những thách thức và các tác động của Big Data [8][9]. Tới đây,
có thể nói rằng kỷ nguyên của Big Data đã đến [10].
Ngày nay, Big Data có liên quan đến dịch vụ của các công ty về Internet đều
phát triển nhanh chóng. Ví dụ, Google xử lý dữ liệu khoảng hàng trăm Petabyte (PB),
Facebook đã tạo khoảng hơn 10 PB dữ liệu log mỗi tháng, Taobao một công ty con
của Alibaba tạo ra hàng chục Terabyte (TB) dữ liệu về giao dịch trực tuyến mỗi ngày.
1.1.1 Những định nghĩa và đặc trưng của Big Data
Big Data là một khái niệm trừu tượng và có rất nhiều định nghĩa về Big Data.
Ngay như tên gọi là dữ liệu lớn hay dữ liệu khổng lồ thì nó còn có một số đặc trưng


2
khác trong đó xác định sự khác biệt giữa nó và “dữ liệu lớn” hay “dữ liệu rất lớn”.
Hiện nay, mặc dù tầm quan trọng của Big Data đã được thừa nhận rộng rãi,
nhưng vẫn có nhiều những ý kiến về định nghĩa của nó. Một cách tổng quát có thể
định nghĩa rằng Big Data có nghĩa là các bộ dữ liệu không thể được nhận diện, thu hồi,
quản lý và xử lý bằng CNTT truyền thống và các công cụ phần mềm/ phần cứng trong
một khoảng thời gian có thể chấp nhận được. Phát sinh từ nhiều sự quan tâm, các
doanh nghiệp khoa học và công nghệ, các nhà nghiên cứu, các nhà phân tích dữ liệu và
các kỹ thuật viên có những định nghĩa khác nhau về Big Data. Sau đây là một số định
nghĩa về Big Data mang tới một sự hiểu biết tốt hơn về những ý nghĩa xã hội, kinh tế
và công nghệ rộng lớn của Big Data.

- Tốc độ (Velocity): Tính kịp thời của dữ liệu lớn, cụ thể là việc thu thập và phân tích
dữ liệu phải được tiến hành nhanh chóng và kịp thời để sử dụng một cách tối đa các
giá trị thương mại của Big Data.
- Tính đa dạng (Variety): Các loại dữ liệu khác nhau bao gồm dữ liệu bán cấu trúc và
phi cấu trúc như âm thanh, video, web, văn bản,…cũng như dữ liệu có cấu trúc truyền
thống.
Đến năm 2011, định nghĩa về Big Data đã có sự thay đổi khi một báo cáo của
IDC đã đưa ra một định nghĩa như sau: “Công nghệ Big Data mô tả một thế hệ mới
của những công nghệ và kiến trúc, được thiết kế để lấy ra giá trị kinh tế từ dung lượng
rất lớn của một loạt các dữ liệu bằng cách cho phép tốc độ cao trong việc thu thập,
khám phá hoặc phân tích” [1]. Với định nghĩa này, dữ liệu lớn mang trong mình bốn
đặc trưng và được hiểu như một mô hình “4Vs”.
Năm 2014, Gartner lại đưa ra một khái niệm mới về Big Data qua mô hình
“5Vs” với năm tính chất quan trọng của Big Data.


4

Hình 1.2: Mô hình 5vs của Big Data
Mô hình “5Vs” được giải thích như sau:
- Khối lượng (Volume): Sự sản sinh và thu thập các dữ liệu lớn, quy mô dữ liệu
trở nên ngày càng lớn.
- Tốc độ (Velocity): Tính kịp thời của dữ liệu lớn, cụ thể là việc thu thập và
phân tích dữ liệu phải được tiến hành nhanh chóng và kịp thời để sử dụng một cách tối
đa các giá trị thương mại của Big Data.
- Tính đa dạng (Variety): Các loại dữ liệu khác nhau bao gồm dữ liệu bán cấu
trúc và phi cấu trúc như âm thanh, video, web, văn bản,…cũng như dữ liệu có cấu trúc
truyền thống.
- Tính chính xác (Veracity): Tính hỗn độn hoặc tin cậy của dữ liệu. Với rất
nhiều dạng thức khác nhau của dữ liệu lớn, chất lượng và tính chính xác của dữ liệu rất

đó, công cụ tìm kiếm của các công ty đều phải đối mặt với những thách thức của việc
xử lý dữ liệu lớn. Google tạo ra mô hình lập trình GFS [14] và MapReduce [15] để đối
phó với những thách thức mang lại về việc quản lý và phân tích dữ liệu ở quy mô
Internet. Ngoài ra, nội dung được sinh ra bởi người sử dụng, cảm biến và các nguồn dữ
liệu phổ biến khác cũng tăng, do đó yêu cầu một sự thay đổi cơ bản về kiến trúc tính
toán và cơ chế xử lý dữ liệu quy mô lớn.
Vào tháng 1 năm 2007, Jim Gray là một nhà tiên phong về phần mềm cơ sở dữ
liệu đã gọi sự biến đổi là “mô hình thứ tư” [16]. Ông nghĩ rằng cách duy nhất đối phó
với mô hình như vậy là phát triển một thế hệ mới các công cụ máy tính để quản lý,
trực quan hóa và phân tích dữ liệu khổng lồ. Trong tháng 6 năm 2011, một sự kiện
bước ngoặt xảy ra khi EMC/IDC công bố một báo cáo nghiên cứu có tựa đề Trích xuất
giá trị từ sự hỗn độn, đây là lần đầu tiên đưa ra khái niệm và tiềm năng của Big Data.
Báo cáo nghiên cứu này gây ra mối quan tâm lớn trong cả công nghiệp và học thuật về
Big Data.


6
Trong vài năm qua, gần như những công ty lớn bao gồm EMC, Oracle, IBM,
Microsoft, Google, Amazon, Facebook,… đã bắt đầu cá dự án Big Data của họ. Từ
năm 2005, IBM đã đầu tư 16 tỷ USD vào 30 sự tiếp nhận liên quan đến dữ liệu lớn. Về
học thuật, Big Data cũng chiếm địa vị nổi bật. Trong năm 2008, Nature công bố một
vấn đề đặc biệt về Big Data. Năm 2011, Science cũng đưa ra một vấn đề đặc biệt về
công nghệ chủ chốt “xử lý dữ liệu” trong Big Data. Năm 2012, Tạp chí Hiệp hội
Nghiên cứu châu Âu Tin học và Toán học (ERCIM) đăng một vấn đề đặc biêt về dữ
liệu lớn. Vào đầu năm 2012, một báo cáo mang tên Big Data, Big Impact trình bày tại
diễn đàn Davos ở Thụy Sĩ, đã thông báo rằng Big Data đã trở thành một loại tài sản
kinh tế mới, giống như tiền tệ hoặc vàng.
Nhiều chính phủ quốc gia như Mỹ cũng đã rất quan tâm tới dữ liệu lớn. Trong
tháng 3 năm 2012, chính quyền Obama đã công bố một khoản đầu tư 200 triệu USD
để khởi động “Kế hoạch nghiên cứu và phát triển Big Data”. Tháng 7 năm 2012 dự án

thích của người dùng. Tuy nhiên, việc biểu diễn dữ liệu không đúng cách sẽ làm giảm
giá trị ban đầu của dữ liệu và thậm chí có thể gây cản trở cho việc phân tích dữ liệu.
Biểu diễn dữ liệu hiệu quả sẽ phản ánh cấu trúc, lớp và kiểu dữ liệu cũng như các công
nghệ tích hợp, để cho phép hoạt động hiệu quả trên các tập dữ liệu khác nhau.
- Giảm sự dư thừa và nén dữ liệu: Giảm sự dư thừa và nén dữ liệu là cách hiệu
quả để giảm chi phí gián tiếp của toàn bộ hệ thống trên tiền đề rằng các giá trị tiềm
năng của dữ liệu không bị ảnh hưởng. Ví dụ, hầu hết các dữ liệu được tạo ra bởi các
mạng cảm biến là rất cần thiết, trong đó có thể được logic và nén ở các đơn đặt hàng
của các cường độ.
- Quản lý vòng đời của dữ liệu: Vòng đời của dữ liệu là chuỗi các giai đoạn mà
một đơn vị dữ liệu từ thế hệ ban đầu được thu thập, lưu trữ đến khi bị xóa bỏ và kết
thúc vòng đời hữu ích của nó. So với tiến bộ của hệ thống lưu trữ tương ứng, cảm biến
và máy tính đang tạo ra dữ liệu với quy mô và tốc độ chưa từng có. Điều này đã tạo ra
rất nhiều thách thức, một trong số đó là hệ thống lưu trữ hiện đại không thể hỗ trợ dữ
liệu lớn như vậy. Vì vậy, một nguyên tắc quan trọng liên quan đến các giá trị phân tích
cần được phát triển để quyết định dữ liệu nào sẽ được lưu trữ và dữ liệu nào sẽ được
loại bỏ.
- Cơ chế phân tích: Hệ thống phân tích Big Data sẽ xử lý khối lượng dữ liệu
không đồng nhất trong một thời gian giới hạn. Tuy nhiên, RDBMS truyền thống được
thiết kế với sự thiếu khả năng thay đổi và khả năng mở rộng, do đó không thể đáp ứng
các yêu cầu về hiệu suất. Cơ sở dữ liệu không quan hệ đã chỉ ra những lợi thế riêng
của mình trong việc xử lý dữ liệu phi cấu trúc và bắt đầu trở thành đề tài chủ đạo trong
phân tích Big Data. Mặc dù vậy, vẫn còn một số vấn đề về cơ sở dữ liệu không quan
hệ trong hoạt động và những ứng dụng cụ thể của chúng. Điều này dẫn tới việc cần tìm


8
một giải pháp thỏa hiệp giữa RDBMS và cơ sở dữ liệu không quan hệ. Ví dụ, một số
doanh nghiệp đã sử dụng một kiến trúc cơ sở dữ liệu hỗn hợp mà tích hợp những ưu
điểm của cả hai loại cơ sở dữ liệu như Facebook và Taobao.


9
đám mây. Mục tiêu chính của hệ thống đám mây là sử dụng tài nguyên tính toán và
lưu trữ rất lớn dưới sự quản lý tập trung để cung cấp cho các ứng dụng Big Data khả
năng tính toán tốt. Sự phát triển của điện toán đám mây cung cấp các giải pháp cho
việc lưu trữ và xử lý Big Data. Mặt khác, sự xuất hiện của Big Data cũng làm tăng tốc
độ phát triển của điện toán đám mây. Các công nghệ lưu trữ phân tán dựa trên điện
toán đám mây có thể quản lý Big Data một cách hiểu quả cùng với khả năng tính toán
song song của điện toán đám mây có thể nâng cao hiệu quả của việc thu thập và phân
tích dữ liệu lớn.

Hình 1.3: Kiến trúc của điện toán đám mây
Hiện nay, có rất nhiều loại dịch vụ điện toán đám mây nhưng nhìn chung đều có
những dịch vụ cơ bản sau: Dịch vụ cơ sở hạ tầng (Infrastructure as a Service - IaaS),
dịch vụ nền tảng (Platform as a Service - PaaS), dịch vụ phần mềm (Software as a
Service - SaaS), dịch vụ phần cứng (Hardware as a Service).
Mặc dù có nhiều công nghệ trùng lặp giữa điện toán đám mây và Big Data, tuy
nhiên chúng khác nhau ở hai khía cạnh sau. Đầu tiên, các khái niệm khác nhau ở một
mức độ nhất định. Điện toán đám mây biến đổi kiến trúc CNTT trong khi Big Data
ảnh hưởng đến các quyết định kinh doanh. Tuy vậy, Big Data cũng phải phụ thuộc vào
điện toán đám mây như các cơ sở hạ tầng để hoạt động trơn tru. Thứ hai, Big Data và
điện toán đám mây có khách hàng mục tiêu khác nhau. Điện toán đám mây là một
công nghệ và sản phẩm nhắm đến Chief Information Officers (CIO) như một giải pháp


10
CNTT tiên tiến. Big Data là một sản phẩm nhắm đến Chief Executive Officers (CEO)
người mà chỉ tập trung vào hoạt động kinh doanh. Khi những người ra quyết định có
thể trực tiếp cảm nhận được áp lực cạnh tranh trên thị trường, họ phải đánh bại các đối
thủ kinh doanh theo nhiều cách cạnh tranh hơn. Với sự tiến bộ của Big Data và điện

ra bởi IoT thường là bán cấu trúc hoặc không có cấu trúc; (iii) dữ liệu của IoT chỉ có
ích khi nó được phân tích.
Có một nhu cầu bắt buộc áp dụng Big Data cho các ứng dụng IoT, trong khi sự
phát triển của dữ liệu lớn đã sẵn sàng hỗ trợ. Việc này đã được công nhận rộng rãi khi
hai công nghệ này đều phụ thuộc lẫn nhau và cần được phối hợp để phát triển. Việc
triển khai rộng rãi IoT đẩy sự tăng trưởng cao của dữ liệu về cả số lượng và chủng loại
từ đó cung cấp cơ hội cho các ứng dụng và phát triển của Big Data. Mặt khác, áp dụng
công nghệ dữ liệu lớn vào IoT cũng làm tăng tốc độ tiến bộ nghiên cứu và mô hình
kinh doanh của IoT.
- Trung tâm dữ liệu:
Trong mô hình dữ liệu lớn, các trung tâm dữ liệu không chỉ là một nền tảng lưu
trữ tập trung dữ liệu, mà còn đảm nhận nhiều trách nhiệm chẳng hạn như thu thập dữ
liệu, quản lý dữ liệu, tổ chức dữ liệu và tận dụng các giá trị dữ liệu cùng các chức
năng.

Hình 1.5 Hệ thống trung tâm dữ liệu


12
Các trung tâm dữ liệu chủ yếu tập trung vào dữ liệu. Dữ liệu được tổ chức, quản
lý theo mục tiêu và phát triển con đường cốt lõi của trung tâm dữ liệu. Sự xuất hiện
của Big Data mang lại những cơ hội phát triển và thách thức lớn cho các trung tâm dữ
liệu. Big Data sẽ thúc đẩy sự tăng trưởng bùng nổ của các cơ sở hạ tầng và các phần
mềm liên quan của trung tâm dữ liệu. Mạng lưới trung tâm dữ liệu vật lý là nòng cốt
hỗ trợ Big Data nhưng hiện nay cơ sở hạ tầng chính mới là điều cần gấp nhất.
Big Data đòi hỏi trung tâm dữ liệu cung cấp nền tảng hỗ trợ mạnh mẽ. Các mô
hình Big Data yêu cầu nghiêm ngặt hơn về khả năng lưu trữ và khả năng xử lý, cũng
như khả năng truyền tải mạng.
Big Data tạo ra cho các trung tâm dữ liệu nhiều chức năng hơn. Trong các mô
hình Big Data, trung tâm dữ liệu có trách nhiệm không chỉ tập trung vào các thiết bị

song các tập dữ liệu lớn.

Hình 1.6 Kiến trúc hệ thống Hadoop
Trong số các máy móc và hệ thống công nghiệp hiện đại, các cảm biến được
triển khai rộng rãi để thu thập thông tin cho việc theo dõi môi trường và dự báo sự cố.
Bahga và những cộng sự của mình đã đề xuất một framework cho việc tổ chức dữ liệu
và cơ sở hạ tầng điện toán đám mây gọi là CloudView [17]. CloudView sử dụng kiến
trúc hỗn hợp, các node địa phương và các cụm dữ điều khiển từ xa dựa trên Hadoop để
phân tích dữ liệu máy tính tạo ra. Các node địa phương được sử dụng cho các dự báo
thời gian thực các sự cố, các cụm dựa trên Hadoop được dùng để phân tích offline.
1.2 Quy trình phân tích dữ liệu lớn
Nội dung phần này sẽ trình bày theo các giai đoạn trong luồng dữ liệu của Big
Data. Luồng dữ liệu trong Big Data được chia thành bốn giai đoạn: Tạo ra dữ liệu, thu
thập dữ liệu, lưu trữ dữ liệu và phân tích dữ liệu. Nếu coi rằng dữ liệu như là một
nguyên liệu thô, sự tạo ra và thu thập dữ liệu là một quá trình khai phá, lưu trữ dữ liệu


14
là một quá trình lưu trữ và phân tích dữ liệu là một quá trình sản xuất mà sử dụng các
nguyên liệu để tạo ra giá trị mới.
1.2.1 Tạo ra dữ liệu
Tạo ra dữ liệu là bước đầu tiên của Big Data. Hiện nay, nguồn tạo ra dữ liệu chủ
yếu của Big Data là những thông tin hoạt động và buôn bán trong các doanh nghiệp,
các thông tin Logistic và cảm biến trong IoT, thông tin tương tác giữa người với
người, thông tin về vị trí trong Internet, dữ liệu y sinh và dữ liệu được tạo ra trong
nghiên cứu khoa học,...Các thông tin vượt xa các năng lực của các kiến trúc và cơ sở
hạ tầng CNTT của các doanh nghiệp hiện có, trong khi yêu cầu về thời gian thực cũng
gây áp lực rất lớn cho năng lực tính toán hiện có.
1.2.2 Thu thập dữ liệu
Thu thập dữ liệu là giai đoạn thứ hai của hệ thống Big Data, thu thập dữ liệu lớn

cho phân tích tiếp theo.
- Cảm biến: Cảm biến trở nên phổ biến trong


15
cuộc sống hàng ngày để đo đại lượng vật lý và
biến đổi đại lượng vật lý thành tín hiệu số có
thể đọc được cho xử lý bước tiếp theo. Dữ liệu
cảm biến có thể được phân loại như sóng âm
thanh, giọng nói, rung động, điện thoại di
động, hóa chất, dòng chảy, thời tiết, áp suất,
nhiệt độ, vv. Thông tin cảm biến được chuyển
đến cho một điểm thu thập dữ liệu thông qua
mạng có dây hoặc không dây.
- Thu thập dữ liệu mạng: Thu thập dữ liệu
mạng được thực hiện bằng cách sử dụng một
sự kết hợp của web crawler, hệ thống phân
đoạn các từ, hệ thống nhiệm vụ, hệ thống chỉ
số,…Web crawler là một chương trình được
sử dụng bởi máy tìm kiếm (search engines) để
tải về và lưu trữ dưới dạng web [18].
- Ngoài ba phương pháp thu nhận dữ liệu nói
trên của các nguồn dữ liệu chính còn có rất
nhiều dữ liệu được thu thập bằng các phương
pháp hệ thống khác.
Truyền dữ

Sau khi hoàn thành - Truyền tải dữ liệu bao gồm hai phương pháp

liệu


- Do sự đa dạng của - Tích hợp: Tích hợp dư liệu là nền tảng của

dữ liệu

các nguồn dữ liệu, các thông tin thương mại hiện đại, trong đó bao
tập hợp dữ liệu thu gồm sự kết hợp dữ liệu từ các nguồn khác
thập được thay đổi do nhau và cung cấp cho người dùng với một
nhiễu, sự dư thừa và cách nhìn thống nhất về dữ liệu [21]. Các
tính đồng nhất chắc phương pháp tích hợp dữ liệu thường đi cùng
chắn sẽ là một sự lãng với các công cụ xử lý luồng và công cụ tìm
phí khi lưu trữ dữ liệu kiếm [22][23].
vô nghĩa. Ngoài ra, - Dọn dẹp: Là một quá trình để xác định dữ
một số phương pháp liệu không chính xác, không đầy đủ hoặc
phân tích có những không hợp lý và sau đó sửa đổi hoặc xóa dữ
yêu cầu nghiêm ngặt liệu đó để cải thiện chất lượng dữ liệu. Dọn
về chất lượng dữ liệu. dẹp dữ liệu gồm năm thủ tục bổ sung [24]:
Vì vậy, để có thể Định nghĩa và xác định các loại lỗi, tìm kiếm
phân tích dữ liệu hiệu và xác định lỗi, sửa lỗi, tài liệu các mẫu lỗi và
quả cần phải tiền xử các loại lỗi, sửa đổi các thủ tục nhập dữ liệu
lý dữ liệu dưới nhiều để giảm thiểu sai xót trong tương lai.
trường hợp để tích - Loại bỏ dư thừa: Thừa dữ liệu là sự lặp lại
hợp dữ liệu từ các dữ liệu hoặc các phần dư mà thường xảy ra
nguồn

khác

nhau, trong nhiều tập dữ liệu. Dữ liệu dư thừa có thể



Hệ thống tập tin là nền tảng cho các ứng dụng cấp cao hơn. GFS của Google là
một hệ thống tập tin phân tán có khả năng mở rộng để hỗ trợ các ứng dụng quy mô
lớn, phân tán các ứng dụng chuyên sâu [25]. GFS sử dụng các máy chủ hàng hóa giá rẻ
để thu được sai sót và cung cấp cho khách hàng các dịch vụ hiệu suất cao. GFS hỗ trợ
các ứng dụng tập tin quy mô lớn với việc đọc nhiều hơn là viết. Tuy nhiên, GFS cũng
có một số hạn chế, chẳng hạn như có điểm riêng lẻ bị hỏng và hiệu suất kém cho các
tập tin nhỏ.


18

Hình 1.7 Kiến trúc hệ thống GFS
- Cơ sở dữ liệu:
Các hệ thống cơ sở dữ liệu khác nhau được phát triển để xử lý các tập dữ liệu ở
quy mô khác nhau và hỗ trợ các ứng dụng khác nhau. Cơ sở dữ liệu quan hệ truyền
thống không thể đáp ứng được những thách thức về các loại quy mô được mang tới
bởi Big Data. Cơ sở dữ liệu NoSQL (cơ sở dữ liệu quan hệ không truyền thống) đang
trở nên phổ biến hơn cho việc lưu trữ Big Data. Cơ sở dữ liệu NoSQL có các chế độ
linh hoạt, dễ dàng sao chép, API đơn giản, thống nhất cuối cùng và hỗ trợ cho khối
lượng dữ liệu lớn. Cơ sở dữ liệu NoSQL được trở thành công nghệ cốt lõi cho Big
Data.
Trong bảng 1.2 sẽ trình bày ba cơ sở dữ liệu NoSQL hay sử dụng đó là cơ sở dữ
liệu key-value, cơ sở dữ liệu column-oriented và cơ sở dữ liệu document-oriented, mỗi
cơ sở dữ liệu đều dựa trên mô hình dữ liệu nhất định.
Cơ sở dữ liệu
CSDL key-value

Mô tả

Ví dụ

của BigTable như HBase hay
Hypertable.

CSDL document- Lưu trữ tài liệu có thể hỗ trợ - MongoDB: Là mã nguồn mở
oriented

các dạng dữ liệu phức tạp hơn. và cơ sở dữ liệu documentKhi các văn bản không tuân oriented. MongoDB lưu trữ các
theo các kiểu nghiêm ngặt, tài liệu như các đối tượng
không cần thiết phải tiến hành Binary JSON.
di chuyển các kiểu đó. Bên - Simple DB: Là một CSDL
cạnh đó các cặp key-value vẫn phân tán và là một dịch vụ web
có thể được lưu giữ.

của Amazon.

Bảng 1.2 Giới thiệu một số CSDL NoSQL
- Các mô hình lập trình:
Big Data thường được lưu trữ trong hàng trăm và thậm chí hàng ngàn máy chủ
thương mại. Do đó, các mô hình song song truyền thống chẳng hạn như Message
Passing Interface (MPI) và Open Multi-Processing (OpenMP) có thể không đủ để hỗ
trợ các chương trình song song quy mô lớn như vậy. Một số mô hình lập trình song
song được để xuất đã cải thiện một cách hiệu quả hiệu suất của NoSQL và giảm
khoảng cách hiệu suất với CSDL quan hệ. Do đó, các mô hình này đã trở thành nền
tảng cho việc phân tích dữ liệu lớn.
Mapreduce là mô hình lập trình đơn giản nhưng mạnh mẽ cho tính toán quy mô
lớn bằng cách sử dụng một số lượng lớn các cụm máy tính thương mại để đạt được sự
phân tán và xử lý song song tự động. Trong Mapreduce, mô hình tính toán chỉ có hai
hàm là hàm Map và hàm Reduce, cả hai đều được lập trình bởi người sử dụng. Hàm



thay đổi và vô cùng phức tạp.
1.2.4 Phân tích dữ liệu
Có hai phương pháp phân tích dữ liệu được sử dụng đó là phương pháp phân
tích dữ liệu truyền thống và phương pháp phân tích Big Data.
- Phân tích dữ liệu truyền thống:
Phân tích dữ liệu truyền thống có nghĩa là sử dụng phương pháp thống kê thích
hợp để phân tích dữ liệu lớn, tập trung, trích xuất và tinh chỉnh dữ liệu hữu ích ẩn chứa
trong hàng loạt các tập dữ liệu hỗn độn và để xác định các luật vốn có của đối tượng,
từ đó tối đa hóa giá trị của dữ liệu. Phân tích dữ liệu đóng một vai trò hướng dẫn rất
lớn trong việc xây dựng kế hoạch phát triển cho một quốc gia, sự hiểu biết về nhu cầu
khách hàng trong thương mại và dự đoán xu hướng thị trường cho các doanh nghiệp.
Phân tích dữ liệu lớn có thể được coi như các kỹ thuật phân tích cho một dạng đặc biệt
của dữ liệu. Do đó, nhiều phương pháp phân tích dữ liệu truyền thống vẫn có thể được
sử dụng để phân tích dữ liệu lớn, những phương pháp đó bắt nguồn từ thống kê và
khoa học máy tính.
Bảng 1.3 sẽ trình bày một số phương pháp phân tích dữ liệu truyền thống
thường được sử dụng.
Phương pháp

Mô tả

Sử dụng

Phân tích cụm

Là một phương pháp thống Phân tích cụm được sử dụng để phân

(Cluster

kê cho việc nhóm các đối biệt các đối tượng với các tính năng

Là một phương pháp phân Các quan hệ được phân loại thành:

tương quan

tích để xác định luật các (i) hàm (function), phản ánh mối

(Correlation

quan hệ, chẳng hạn như sự quan hệ phụ thuộc chặt chẽ giữa các

Analysis)

tương quan, sự phụ thuộc hiện tượng mà cũng được gọi là một
tương ứng và hạn chế lẫn mối quan hệ phụ thuộc chính thức,
nhau trong các hiện tượng (ii) sự tương quan, một số quan hệ
quan sát được và phù hợp phụ thuộc chưa xác định hoặc không
với việc tiến hành dự báo chính xác và các giá trị số như vậy
và kiểm soát.

biểu diễn một sự nhiễu loạn thường
xuyên xung quanh giá trị trung bình
của chúng.

Phân tích hồi

Là một công cụ toán học để Dựa trên một nhóm các thí nghiệm

quy

biểu diễn mối tương quan hoặc các dữ liệu đã được quan sát,

nhóm được thử nghiệm.

Phân tích

Phân tích thống kê là một Phân tích thống kê miêu tả có thể

thống kê

phương pháp được dựa trên tóm tắt và mô tả các tập dữ liệu,


23
(Statistical

lý thuyết thống kê, một trong khi phân tích thống kê suy luận

Analysis)

nhánh của toán học ứng có thể rút ra kết luận từ chủ đề dữ
dụng.

Trong



thuyết liệu đến các biến ngẫu nhiên. Phân

thống kê, tính ngẫu nhiên tích thống kê được áp dụng rộng dãi
và sự không chắc chắn trong các lĩnh vực kinh tế và chăm
được mô hình hóa với lý sóc ý tế.

- Các phương pháp phân tích Big Data:
Các phương pháp xử lý chính của dữ liệu lớn được trình bày trong bảng 1.4 sau
đây:
Phương pháp
Bloom Filter

Mô tả

Sử dụng

Bloom Filter bao gồm một loạt Bloom Filter có hiệu quả
các hàm băm. Nguyên tắc của không gian cao và tốc độ truy
Bloom Filter là để lưu trữ các giá vấn cao.
trị băm của dữ liệu khác với dữ
liệu chính nó bằng cách sử dụng
một mảng bit, mà bản chất là một
chỉ số bitmap sử dụng hàm để
tiến hành lưu trữ và nén dữ liệu.

Băm

Là một phương pháp mà chủ yếu Băm có những lợi thế như



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status