Tiểu luận môn Điện toán lưới và đám mây CÔNG NGHỆ KHAI MỎ DỮ LIỆU TRONG ĐIỆN TOÁN ĐÁM MÂY - Pdf 27

Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
o0o
ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY
ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY
CÔNG NGHỆ KHAI MỎ DỮ LIỆU
CÔNG NGHỆ KHAI MỎ DỮ LIỆUTRONG ĐIỆN TOÁN ĐÁM MÂY
TRONG ĐIỆN TOÁN ĐÁM MÂY
GVHD : PGS. TS. NGUYỄN PHI KHỨ
HVTH : NGUYỄN THỊ MAI
MÃ HV : CH1301038
LỚP : CH KHÓA 8
SVTH: Nguyễn Thị Mai 1
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
MỤC LỤC
LỜI CẢM ƠN
Em xin chân thành cảm ơn thầy PGS.TS Nguyễn Phi Khứ đã cung cấp cho
em những kiến thức quan trọng, nền tảng của môn Điện toán Lưới và Đám
mây, giúp em có them những kiến thức và hướng nghiên cứu trong lĩnh vực
này.
Trong bài này, em xin trình bày những kiến thức cơ bản về Điện toán Đám
mây, Khai mỏ dữ liệu và những công nghệ khai thác dữ liệu lớn, được biết
đến với tên gọi Khai mỏ dữ liệu đám mây (Cloud Data Mining - CDM).
Do thời gian có hạn nên bài viết chưa thực sự hoàn chỉnh, còn nhiều hạn
chế và hiểu biết chưa sâu rộng, mong thầy thông cảm.
Tp. Hồ Chí Minh, ngày 08 tháng 06 năm 2014
Học viên thực hiện

1. Khai mỏ dữ liệu
Trong nhiều năm, những tổ chức và công ty tích lũy lượng lớn dữ liệu và
khối lượng này tăng đa tạp. Một câu hỏi đặt ra là có phải một số thông tin hữu
ích cho đến nay vẫn chưa được khai phá, đang ẩn trong dữ liệu? Câu trả lời là
có thể cung cấp ứng dụng xử lý khai mỏ dữ liệu.
SVTH: Nguyễn Thị Mai 3
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Về cơ bản, khai mỏ dữ liệu là quá trình khám phá hoặc tìm kiếm những
hình thức dữ liệu mới, hữu ích, có giá trị, tiềm năng và có thể hiểu được.
Những hình thức dữ liệu đề cập đến quy tắc khai phá giữa các biến dữ liệu.
Các quy tắc được phát hiện áp dụng cho tất cả dữ liệu, sau đó là mô hình khai
phá. Tuy nhiên các quy tắc có thể tương quan với sự mở rộng của dữ liệu là
một mô hình hoặc mẫu.
Khai mỏ dữ liệu là tạo ra lượng dữ liệu lớn vượt trội để đưa ra những
thông tin mới sẽ là nền tảng cho việc đưa ra những quyết định kinh doanh tốt
hơn. Khai mỏ dữ liệu là lĩnh vực đa ngành mức cao, có nguồn gốc từ thống
kê, toán học, lý thuyết thông tin, trí tuệ nhân tạo, lý thuyết máy học, cơ sở dữ
liệu và trong hầu hết các chuỗi liên quan đến các lĩnh vực khác. Có thể xác
định những loại thông tin sau đây: lớp, cụm (hạng), các sự kiện xã hội truyền
thống (ví dụ: khách hàng mua một sản phẩm A, 70% trường hợp họ mua phải
sản phẩm A1), là các sự kiện tuần tự được thiết lập với một xác suất nhất định
theo sau một sự kiện khác và những dự báo dự đoán tương lai từ những dữ
liệu sẵn có. Khai mỏ dữ liệu là một hoạt động đầy thử thách và phức tạp, mà
quá trình cài đặt yêu cầu chuyên gia từ các lĩnh vực khác nhau. Nhân sự của
một dự án Khai mỏ dữ liệu bao gồm:
- Các nhà khoa học máy tính với vai trò chuẩn bị dữ liệu.
- Các nhà phân tích với vai trò lựa chọn phương pháp và trình bày
phương pháp luận kết quả khai thác dữ liệu
- Các chuyên gia chịu trách nhiệm về các vấn đề, định nghĩa một vấn đề
nghiệp vụ, chọn lọc dữ liệu liên quan và đề ra các hoạt động dựa trên

ứng dụng các kỹ thuật khác nhau (và các thuật toán khác nhau) vào các tập
hợp dữ liệu khác nhauvới mục tiêu tìm ra mô hình quan trọng và hữu ích. Một
lượng khổng lồ thông tin phức tạp và rời rạc không cho phép ứng dụng cùng
một thuật toán hoặc cùng một kỹ thuật khai thác. Vì thế, vai trò của người
phân tích – một chuyên gia trong lĩnh vực Khai mỏ dữ liệu là đặc biệt quan
trọng bởi năng lực của họ, quyết định dựa trên chọn lựa công cụ, kỹ thuật và
phương pháp sẽ được sử dụng trong những trường hợp đặc biệt.
SVTH: Nguyễn Thị Mai 5
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Trong một dự án Khai thác dữ liệu, có thể chọn cách sử dụng nhiều
phương pháp có thủ tục cũng như việc chọn cách sử dụng một phương pháp.
Nếu quyết định chọn một hay nhiều phương pháp là không thích hợp, các
tham số của việc chọn phương pháp có thể được thay đổi hoặc lựa chọn
phương pháp mới được tạo ra. Một số phương pháp và kỹ thuật của Khai thác
dữ liệu là: phân lớp, liên kết, phân tích tuần tự, gom cụm, dự đoán, mạng
neural, logic mờ, cây quyết định, phân tích thị trường và bộ nhớ dựa trên lý
luận.
Trong bối cảnh hiện nay, ứng dụng của kho dữ liệu là rất quan trọng. Đặc
biệt, vì mục đích của nhiều công ty hiện đại điều hành thị trường toàn cầu có
hệ thống thông tin, nó đòi hỏi hình thức tổ chức (quản lý) dữ liệu dựa trên
khái niệm kho dữ liệu. Kho dữ liệu hợp nhất hoặc tích hợp dữ liệu từ nhiều
nguồn khác nhau, dữ liệu lịch sử trong quá trình quản lý của công ty và dữ
liệu từ môi trường. Kho dữ liệu, theo yêu cầu kỹ thuật và nội dung có sự khác
biệt đáng kể với giao dịch chuẩn dựa trên hệ thống và thiết kế để có thể tìm
kiếm dữ liệu dễ dàng hơn là quá trình phân tích và báo cáo. Kho dữ liệu là
một khái niệm quan trọng của hệ hỗ trợ ra quyết định hiệu quả, phát triển mở
trộng trong vài năm trở lại đây. Nó cung cấp các ý tượng kích hoạt tìm kiếm
và đề cập đến các thông tin cần thiết trong quá trình ra quyết định. Nó sử
dụng thủ tục quá quá trình phân tích, khai mỏ dữ liệu và khai phá tri thức từ
dữ liệu. Đề cập đến khái niệm và phương pháp dựa trên công nghệ thông tin

Viện tiêu chuẩn và công nghệ quốc gia NIST (National Institute of
Standards and Technology) định nghĩa Điện toán Đám mây như là một mô
hình cung cấp mạng phổ biến, đơn giản, theo yêu cầu truy cập của người dùng
đến một tập chia sẻ các tài nguyên (ví dụ: tài nguyên mạng, máy chủ, lưu trữ
dữ liệu, ứng dụng và dịch vụ) có thể đọc được và có giá trị sử dụng, hoặc nếu
cần thiết, nhà cung cấp có thể can thiệp và ngừng lại tất cả các dịch vụ đó.
Influential Gartner và Forrester cung cấp định nghĩa sau: “Điện toán đám
mây là lĩnh vực điện toán mà các thiết bị công nghệ thông tin có khả năng
cung cấp các hình thức linh hoạt của dịch vụ được cấp phát thông qua Internet
đến đông đảo khách hàng bên ngoài.”
SVTH: Nguyễn Thị Mai 7
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Một số đông chuyên gia tin rằng: đó là mô hình nghiệp vụ mới và là nền
tảng công nghệ cho sự điều tiết, khởi đầu và sử dụng các dịch vụ cũng như
các sản phẩm công nghệ thông tin đa dạng. Từ quan điểm của người dùng,
điện toán đám mây có thể được định nghĩa như một cách thức mới, an toàn
hơn trong sử dụng các giải pháp phần mềm được thuê theo nhu cầu. Mặt
khác, từ khía cạnh nhà cung cấp dịch vụ, Điện toán đám mây có thể được
định nghĩa như một cách thức mới, công nghệ mới và kênh phân phối khác
nhau của sản phẩm công nghệ thông tin và của dịch vụ công nghệ thông tin
dự phòng.
Mặc dù có khá nhiều các định nghĩa tập trung vào những khía cạnh khác
nhau nhưng các định nghĩa này vẫn được coi là gây tranh cãi. Điện toán đám
mây đang trở thành một hiện tượng nổi trội trong thế giới công nghệ thông tin
và truyền thông.
Thực tế, những công ty lớn nhất (và giàu nhất) như Microsoft, Google,
Oracle và Cisco đang đứng bên cạnh khái niệm này để thể hiện một cái nhìn
rõ ràng về định hướng Cloud Computing. Trong khi đó, thế giới công nghệ
thông tin di chuyển không ngừng và đặt ra nhiều thách thức trong quản lý dữ
liệu bằng Điện toán đám mây. Khái niệm điện toán đám mây, theo NIST, có 5

2.3 Mô hình cài đặt
Không kể đến loại mô hình cấp phát dịch vụ (SaaS, PaaS, hoặc IaaS), có
bốn mô hình cơ bản của dịch vụ điện toán đám mây, bao gồm:
• Public Cloud – platform có sẵn và mở đối với mọi người, không kể là
cá nhân hay tổ chức nào.
• Private Cloud – cơ sở hạ tầng Điện toán đám mây có thể truy cập chỉ
với một tổ chức. Nó được quản lý bởi chính tổ chức đó hoặc một số người
khác đang làm việc cho tổ chức đó (out-sourcing)
• Community Cloud – mô hình cài đặt cung cấp khả năng cho nhiều tổ
chức có thể chia sẻ cùng cấu trúc Điện toán đám mây. Cơ sở hạ tầng hỗ trợ
những tổ chức, cộng đồng có cùng sở thích, nhu cầu và yêu cầu bảo mật.
• Hybrid Cloud – là mô hình bao gồm hai hoặc nhiều phần của những
mô hình trước, là loại mô hình được thiết lập cấu trúc Điện toán đám mây để
duy trì tính hợp nhất và độc lập giữa các thực thể, nhưng với một loại liên kết
đối ứng, để mà đạt được tính lưu động của dữ liệu giữa chúng.
2.4 Thuận lợi và khó khăn của Điện toán đám mây
Giống như bất kỳ công nghệ khác, Điện toán đám mây có nhiều thuận lợi
và một số bất lợi đáng kể. Bảng bên dưới cho ta cái nhìn tổng quan sau:
Thuận lợi Khó khăn
− Có khả năng giảm đáng kể chi phí − Các vấn đề thông tin có sẵn (hoặc
không có sẵn)
− Giảm nhu cầu hỗ trợ, bảo trì phần
mềm
− Vấn đề an toàn
− Giảm bộ phân CNTT trong công
ty
− Vấn đề quản lý
− Có thể mở rộng − Nhà cung cấp có thể ngừng dịch
vụ đột ngột
− Tập trung vào ngành kinh doanh

tốc độ lan truyền khá rộng rãi các giải pháp cho quá trình xử lý và phân tích
lượng lớn dữ liệu.
2. Big Data và cơ sở lưu trữ NoSQL
SVTH: Nguyễn Thị Mai 11
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Sự sản sinh dữ liệu khổng lồ trong vài năm gần đây như một kết quả tất
yếu của các hoạt động kinh doanh, các hoạt động trong mạng xã hội,… bao
hàm nhu cầu cho việc lưu trữ và phân tích hiệu quả dữ liệu này. Big Data là
một thuật ngữ mới cho tập hợp dữ liệu lớn và phức tạp mà không thể được xử
lý và duy trì bằng cách sử dụng công cụ truyền thống cho việc quản lý cơ sở
dữ liệu. Big Data liên quan đến việc sử dụng của cơ sở dữ liệu gọi là NoSQL
được cung cấp ý tưởng cho việc lưu trữ lượng lớn dữ liệu trong hệ thống phân
tán. Các cơ sở dữ liệu liên quan dựa trên các quy tắc nghiêm ngặt, có nghĩa là
kiên định, tin cậy và khả năng rủi ro được đảm bảo. Tuy nhiên, với Cloud, nơi
cần thiết để cung cấp cho các cơ sở dữ liệu quan hệ một cách nhanh chóng,
linh hoạt và dễ dàng mở rộng đang phải đối mặt với các vấn đề. Dĩ nhiên,
điều này không có nghĩa mô hình quan hệ (relational model) kém hơn mô
hình không quan hệ (non-relational model), nhưng tính phức tạp mang lại cho
mô hình quan hệ không thể cung cấp yêu cầu hiệu quả và tốc độ trong quá
trình xử lý lượng lớn dữ liệu và thiếu tính linh hoạt của hệ quản trị cơ sở dữ
liệu quan hệ (RDBMS) là nguyên nhân chính của cơ chế mới hoặc cách quản
lý dữ liệu – cơ sở dữ liệu NoSQL (Not Only SQL). Các công ty Internet lớn
như Google, Twitter, Facebook, Amazon, làm việc với lượng lớn dữ liệu,
được tạo ra từ công nghệ cho việc lưu trữ và xử lý trong đám mây để duy trì
hệ thống phân tán và tính linh hoạt của cơ sở dữ liệu. Cơ sở dữ liệu không
quan hệ (non-relational) không hỗ trợ đầy đủ các thuộc tính ACID (Atomicity,
Consistency, Isolation, Durability). Thực tế, chúng thể hiện kho dữ liệu thuần
túy với cơ chế đơn giản của giao dịch điều khiển dữ liệu. Khái niệm NoSQL
dựa trên những căn cứ sau:
1. Tính linh hoạt – khả năng tự động phản hồi (đưa ra yêu cầu cơ bản về

ngữ NoSQL.Trong thực tế, cơ sở dữ liệu NoSQL có những lớp sau: Key-
Value (Khóa-giá trị), Document oriented (hướng tài liệu), đồ thị, Column
oriented
3. Apache Hadoop
SVTH: Nguyễn Thị Mai 13
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Hình 4. Hadoop cluster
Apache Hadoop, một dự án mã nguồn mở, được xem như một framework
cho sự phát triển của các ứng dụng mở rộng và phân tán mà công việc với
lượng rất lớn dữ liệu (đo bằng petabyte). Nó dựa trên thuật toán MapReduce
của Google và một hệ quản trị dữ liệu đặc biệt HDFS (Hadoop Distributed
File System), có thể phân chiia thành hệ thống tập tin của Google. Hadoop
được phát triển bằng Java, vì vậy nó là một sản phẩm cross-platform. Nó hoạt
động theo cách mà các công việc cần thiết hoàn thành, được định vị cho mỗi
máy tính cụm và sau đó quản lý những máy tính đó để thực hiện công việc
nhanh chóng và tin cậy nhất có thể. Hadoop framework hỗ trợ khả năng biểu
diễn lượng lớn các tính toán và quá trình làm rõ dữ liệu không cấu trúc.
Hadoop, giữa những cái khác sử dụng Google, Facebook, IBM, Yahoo,
Twitter, Amazon, Adobe và gần dây là Microsoft như là một phần của Azure
Cloud platform. Với việc cài đặt kho dữ liệu cũng như phân tích sâu, khai mỏ
dữ liệu, các module bổ sung Hive và Pig được sử dụng
4. Apache Hive
SVTH: Nguyễn Thị Mai 14
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Hive là một cơ sở hạ tầng kho dữ liệu xây dựng trên đỉnh Hadoop
framework và cho phép phân tích dữ liệu và thực hiện truy vấn theo cách
tương tự truy vấn SQL trong RDBMS (HiveQL). Hive được phát triển khởi
đầu đặc biệt dành cho Facebook, nhưng ngày nay, nó được sử dụng và phát
triển bởi những thương hiệu khác như Netflix và Amazon (như một phần của
Amazon Elastic MapReduce platform)

môi trường phân tán (trong hàng ngàn máy tính) cụm Hadoop để đếm số từ
trong một các tập hợp dữ liệu.
6. MapReduce
MapReduce là một module được sử dụng cho xử lý phân tán cao các tập
dữ liệu lớn sử dụng hàng ngàn máy tính. Được giới thiệu vào năm 2004 bởi
Google, MapReduce có thể được xem là một framework hoặc hệ thống thực
thi truy vấn trong nền tảng cơ sở. Không kể tới lượng dữ liệu, hệ thống xử lý
toàn bộ tập dữ liệu cho mỗi truy vấn. Quá trình xử lý được định nghĩa bởi hai
chức năng:
• Map – đọc thông suốt đữ liệu thô từ hệ thống tập tin phân tán, tinh
chỉnh và tạo ra cặp key-value;
• Reduce – xử lý các cặp key-value được sắp xếp và liên kết ở trên để
tạo ra chức năng Map và đầu ra trong định dạng key-value.
MapReduce là một khái niệm nền tảng của xử lý trong môi trường
Hadoop. Hệ thống con biểu diễn chương trình MapReduce trong Hadoop tạo
ra các nút chính, được gọi là “job tracker” và tập hợp các nút công việc gọi là
“task tracker”. Chương trình MapReduce gửi đến một hành động gọi là “job”.
Hadoop phân chia job tành tập các task. Bước vào chương trình MapReduce
là một tập của dữ liệu lưu trữ trong hệ thống tập tin phân tán. Hadoop chia sẻ
thông tin trong những phần cùng kích thước được phân bố cho chức năng
Map, hoặc có thể nói nó thể hiện cho dữ liệu ánh xạ. Chức năng Map tạo ra
SVTH: Nguyễn Thị Mai 16
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
cặp k-v mà hệ thống trộn lẫn và sắp xếp khóa. Khi tất cả các chức năng Map
đã hoàn tất với task, chức năng Reduce biểu diễn các task trên các cặp k-v đã
được sắp xếp và liên kết.
Biểu diễn các task được hoàn tất dưới sự điều khiển của nút chính. Trước
khi thể hiện các task đặc biệt, “job tracker” phải lựa chọn những job mà task
đó thuộc về và tiến hành. Lập lịch cho các job tham dự lựa chọn công việc
đầu tiên đến từ hàng đợi (job queue). Sau khi lựa chọn job, job tracker chỉ

web – công cụ trình duyệt BigQuery, thông qua command line, công cụ
command-line BigQuery hoặc thông qua REST API). Google cung cấp thư
viện client cho nền lập trình ảo với kịch bản và các mẫu của ứng dụng sẵn có.
Google đề xuất khả năng sử dụng dịch vụ Cloud hoàn toàn miễn phí với giới
hạn 100 GB dữ liệu được lưu trữ và phân tích mỗi tháng.
Dưới đây thể hiện một vài khung nhìn minh họa tính năng và đặc điểm của
công cụ CDM. Để truy cập, cần phải có một tài khoản Gmail và thực hiện log
in dịch vụ nhanh chóng và trực quan. Để kiểm tra, ta sử dụng hai kho dữ liệu
sẵn có mà Google tạo ra cho người dùng chỉ để kiểm tra mục đich (Natality
và Wikipedia).
SVTH: Nguyễn Thị Mai 18
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Hình 6: Chi tiết cơ bản sử dụng “tables”
SVTH: Nguyễn Thị Mai 19
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Hình 7: Truy vấn và kết quả thực thi truy vấn tìm xem có bao nhiêu bài báo của Wikipedia
mà tựa đề chưa từ “Cloud Computing” và có nhiều hơn 2000 ký tự.
Hình 8: Kiến trúc Amazon EMR
SVTH: Nguyễn Thị Mai 20
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
7.2 Amazon Elastic MapReduce (EMR)
EMR là một flatform cho phát triển ứng dụng mà các nhà phân tích, phát
triển và nghiên cứu trong một cách nhanh chóng và đơn giản không với chi
phí lớn, phân tích lượng lớn hỗn hợp của dữ liệu từ các tập hợp dữ liệu khác.
EMR dựa trên Hadoop và thực thi dựa trên cơ sở hạ tầng có tính mở rộng
Amazon EC2 và dịch vụ lưu trữ đơn giản (Amazon S3). Emazon EMR cho
phép quyết định nững ứng dụng và/ hoặc phân tích kịch bản được tạo ra từ
ngôn ngữ tương tự SQL như là HiveQL hoặc Pig. Tuy nhiên, nếu người dùng
muốn tạo ứng dụng phức tạp trên Java, C++, Perl và những ngôn ngữ khác,
Amazon cung cấp hỗ trợ chất lượng trong hình thức mẫu với source code toàn

Truy cập các pha kết nối đến cụm Hadoop. Khi tạo, cài đặt, kiểm tra kết
nối và lưu cài đặt kết nối để sử dụng sau. Các pha tích hợp liên quan đến dữ
liệu được tổ chức có cấu trúc, bán cấu trúc và không cấu trúc trong những
định dạng khác nhau và sự chuẩn bị cho trang kế tiếp. Kết quả của pha này là
một hay nhiều bảng. Hoạt động phân tích cho phép người ta biểu diễn các
phân tích lặp lại dựa trên ngôn ngữ HiveQL. Có một số công cụ có thể giúp ta
định nghĩa truy vấn và hiệu chỉnh nó. Khi trong quá trình phân tích, nó bắt
đầu nhận dạng xu hướng và mẫu, nó bước vào một vòng lặp mới với kết quả
thu được có thể định dạng thêm, lọc và sắp xếp.
Act là màn cuối của phân tích big data. Nó được điều khiển bởi kết quả thu
được và bao gồm các hoạt động của kết quả như là lưu hình thức bảng cơ sở
dữ liệu, bảng Hive, định dạng Excel (.xls) hoặc hoặc như một đồ thị.
7.3 SQL Server Data Mining cho Cloud
SQL Server Data Mining cho Cloud là một dịch vụ Microsoft để thực hiện
khai mỏ dữ liệu trong Cloud, được phát triển như ứng dụng WCF (Windows
Comumuication Foundation). WCF là một tập của API trong .NET framework
dành cho phát triển ứng dụng hướng dịch vụ. Nó cho phép người dùng truy
cập đến dịch vụ thông qua một công cụ đặc biệt hoặc ứng dụng chạy trong
trong web.
SVTH: Nguyễn Thị Mai 22
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Figure 10: Currently (still) are available only three DM browser and
allows users to set up user data on the server / servers, selection of DM tools,
configuration of tools and review of results.
Kết nối với điểm cuối dịch vụ khi ứng dụng máy khách thể hiện kết quả.
Dịch vụ là công khai (với giới hạn chức năng, hoặc giới hạn số công cụ của
DM) tại trang http.//clouddm.msftlabs.com, không yêu cầu đăng ký khi sử
dụng. Các công cụ Khai mỏ dữ liệu có sẵn cho người sử dụng là:
• Analyze Key influencers,
• Dự báo

Chúng ta đang sống trong thời đại công nghệ thông tin với những nguồn
tài nguyên vô cùng giá trị. Những lượng dữ liệu khổng lồ hằng ngày sinh sôi
ẩn chứa những thông tin hữu ích tiềm năng. Dữ liệu được xử lý không chỉ
khởi nguốn từ hệ thống thông tin phức tạp, một lượng lớn đến từ môi trường
“on-line” với sự đa dạng của các dịch vụ mà con người sử dụng cho mục đích
thương mại và cả những mục đích riêng. Dữ liệu chứa những nguồn thông tin
tiềm năng, vô giá đầy ấn tượng, ví dụ, việc mua ưu đãi, các tình huống tài
chính và sở thích của người dùng (khách hàng) có thể được liệt kê. Nhiệm vụ
của công nghệ thông tin và truyền thông là tạo ra các phương pháp và công cụ
xử lý dữ liệu hiệu quả.
Ngày nay, điều đó không phải là một nhiệm vụ dễ dàng, ngược lại, việc xử
lý lưu trữ số lượng lớn dữ liệu được nhân lên hằng ngày , thể hiện vấn đề
quan trọng và tiết lộ giới hạn của thông tin truyền thống trong công nghệ
thông tin và công cụ. Hiện tại, các vấn đề quan trọng thể hiện sự thiếu hụt
ngân quỹ. Các công ty không thể đầu tư nguồn quỹ lớn vào phát triển lĩnh vực
công nghệ thông tin của họ. Mặt khác, nhu cầu cho quản lý đòi hỏi một sự
phân tích và xử lý sâu các dữ liệu ngày càng lớn. Vậy đâu là giải pháp?
Một trong những giải pháp chắc chắn có thể đề cập là tích hợp khai thác và
phân tích dữ liệu với Cloud Computing. Việc lưu trữ lớn và xử lý tiềm năng
của Điện toán đám mây được biết như những kỹ thuật, phương pháp phổ biến
của khai thác dữ liệu, di chuyển mọi thứ đến Đám mây để tạo ra platform
mạnh mẽ cho phân tích lượng lớn dữ liệu được tạo ra hằng ngày và bản thân
nó ẩn chứa nhiều thông tin hữu ích khác, về cơ bản cho những tri thức mứoi
và quyết định kinh doanh tốt hơn, trở lại với mục đích chính sau cùng. Bằng
cách phát triển đám mây dựa trên các giải pháp khai thác dữ liệu, việc truy
cập vào dịch vụ khai thác dữ liệu mỗi lúc, mỗi nơi và từ những platform khác
SVTH: Nguyễn Thị Mai 24
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
nhau đều trở nên có thể. Sau cùng, ứng dụng các giải pháp CDM có thể cung
cấp một loại eco-system khai phá tri thức, xây dựng số lượng lớn dữ liệu được


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status