Tìm hiểu giải pháp lưu trữ, xử lý và trình diễn các dữ liệu thống kê ứng dụng điện toán đám mây - Pdf 10



HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

LÊ THIÊN HINH
TÌM HIỂU GIẢI PHÁP LƯU TRỮ, XỬ LÝ VÀ TRÌNH DIỄN CÁC DỮ LIỆU
THỐNG KÊ ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – NĂM 2013

Phản biện 1: ………………………………………………………… Phản biện 2: …………………………………………………………

Luận văn sẽ đƣợc bảo vệ trƣớc Hội đồng chấm luận văn thạc sĩ tại Học viện
Công nghệ Bƣu chính Viễn thông
Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:
- Thƣ viện của Học viện Công nghệ Bƣu chính Viễn thông

1

MỞ ĐẦU
I. LÝ DO CHỌN ĐỀ TÀI
Điện toán đám mây (Cloud Computing) đang là xu hƣớng phát triển mới của ngành
Công nghệ thông tin - Truyền thông (CNTT-TT). Điện toán đám mây cho phép triển khai
các mô hình cung cấp dịch vụ mang tính năng động cao, có khả năng kết nối và mở rộng
đến các tài nguyên ảo khác thông qua mạng Internet. Điện toán đám mây là xu hƣớng công
nghệ quan trọng, nhiều chuyên gia và doanh nghiệp kỳ vọng điện toán đám mây sẽ định
hình lại nhiều quy trình liên quan tới lƣu trữ, cung cấp dữ liệu và dịch vụ cho các ứng dụng
CNTT-TT. Với điện toán đám mây ngƣời dùng có thể sử dụng các thiết bị cá nhân và di

cũng thấp hơn. Cùng với sự phát triển của khoa học và công nghệ cũng làm phát sinh ngày
càng nhiều những bài toán trong nhiều lĩnh vực đòi hỏi sức mạnh tính toán lớn, khả năng
chia sẻ tài nguyên, khối lƣợng dữ liệu lƣu trữ và chia sẻ nhiều, sự phân công chuyên môn
hóa cao… Để giải quyết những vấn đề này, đã có nhiều kỹ thuật, giải pháp tính toán đƣợc
đƣa ra ví nhƣ tính toán lƣới, tính toán song song… Tuy nhiên trên phƣơng diện ngƣời sử
dụng, các giải pháp này có thể giải quyết đƣợc bài toán chuyên môn nhƣng lại nảy sinh hai
vấn đề chƣa đƣợc giải quyết thấu đáo. Thứ nhất, về kinh tế, để sở hữu và duy trì một hệ
thống tính toán nhƣ cần thiết thì phải chịu một chi phí quá lớn trong khi có thể nói là hiệu
quả sử dụng rất thấp về thời gian, công suất, tài nguyên và khả năng tính toán của hệ thống
đó. Thứ hai, với một hệ thống tính toán phức tạp bao gồm cả phần cứng, phần mềm, dữ liệu
lƣu trữ… đòi hỏi phải có trình độ và kỹ năng nhất định về chuyên môn công nghệ thông tin
thậm chí không chỉ là một ngƣời mà phải là một tổ chức của các chuyên gia công nghệ
thông tin mới đủ khả năng quản lý và điều khiển.
Đây rõ ràng là vấn đề lớn đặt ra cho ngành Công nghệ thông tin. Để giải quyết, một
số tổ chức đã đƣa ra một mô hình mà trong đó các công việc thuộc về chuyên môn công
nghệ thông tin đƣợc chuyển giao tối đa cho các chuyên gia công nghệ thông tin, các công
việc khác mà ứng dụng thành quả của công nghệ thông tin thì đƣợc cung cấp cho ngƣời sử
dụng nhƣ các dịch vụ.
Thuật ngữ “cloud computing” ra đời bắt nguồn từ một trong những hoàn cảnh nhƣ
vậy.
Điện toán đám mây (Cloud computing) có thể hiểu là một mô hình điện toán sử dụng
các công nghệ tiên tiến nhất về phần mềm, phần cứng máy tính, đƣợc phát triển trên hạ tầng
mạng máy tính và Internet, để tạo ra một “đám mây” cung cấp từ cơ sở hạ tầng, nơi lƣu trữ
dữ liệu cho đến các dịch vụ sẵn sàng, nhanh chóng cho mọi cơ quan, tổ chức, doanh nghiệp
và ngƣời dùng đầu cuối theo yêu cầu.
3

1.2. Tổng quan về điện toán đám mây
1.2.1 Các công nghệ nền tảng điện toán đám mây
1.2.1.1 Công nghệ ảo hóa trong điện toán đám mây.

Với hệ thống hạ tầng tính toán vật lý chạy đƣợc nhiều hệ thống ảo trên đó hiện nay
cần hoàn thiện hơn nữa các công cụ để quản lý, kiểm soát.
Một vấn đề hết sức đƣợc quan tâm nữa là bảo mật thông tin cho ngƣời sử dụng khi hệ
thống tính toán đƣợc quản lý và điều hành bên ngoài ngƣời sử dụng.
- Dịch vụ cung cấp nền tảng phát triển ứng dụng – PaaS
Tƣơng tự hình mẫu của SaaS, PaaS cũng áp dụng mô hình phân phối dịch vụ công
nghệ thông tin. Sản phẩm mà dịch vụ kiểu PaaS cung cấp là tất cả các nguồn tài nguyên,
công cụ, nền tảng cần thiết để xây dựng, phát triển ứng dụng và đƣợc cung cấp cho khách
hàng hoàn toàn thông qua Internet (từ trên đám mây), mà không cần phải tải về hay cài đặt
trên máy của ngƣời sử dụng.
Hệ thống cung cấp dịch vụ PaaS có thể có ba kiểu tùy chọn khác nhau nhƣ sau:
* Phát triển và mở rộng khả năng công việc: Cho phép các ứng dụng SaaS đã có sẵn
từ trƣớc có thể đƣợc tùy chỉnh.
* Môi trường độc lập: Môi trƣờng đƣợc cung cấp không bao gồm các vấn đề về cấp
phép, kỹ thuật, cũng không phụ thuộc tài chính vào một ứng dụng SaaS cụ thể nào đó,
chúng đƣợc sử dụng cho sự phát triển chung.
* Môi trường phát triển ứng dụng: Những môi trƣờng này hỗ trợ cho việc cung cấp
các mức dịch vụ, nhƣ là cung cấp khả năng an toàn bảo mật hay khả năng mở rộng theo nhu
cầu Nhƣng chúng không bao gồm việc phát triển, gỡ lỗi và khả năng kiểm tra.
Hướng tới khả năng kết nối hợp nhất
5

PaaS phải đối mặt với cùng một loại các vấn đề trong về khả năng chấp nhận lẫn
nhau trong toàn bộ hệ thống đám mây tƣơng tự nhƣ mô hình dịch vụ SaaS mà đã đƣợc xem
xét đến trong mục trên.
Lợi ích của PaaS
- Ngƣời sử dụng chỉ phải chi trả cho đúng những gì mà họ đã sử dụng theo hợp đồng
cung cấp và sử dụng dịch vụ với nhà cung cấp.
- Tạo ra nền tảng phát triển ứng dụng thống nhất, có thể là toàn cầu.
- Loại bỏ các phụ thuộc vào phần cứng và các vấn đề về chiếm dụng tài nguyên, từ đó

ngƣời sử dụng. Khi dữ liệu của ngƣời sử dụng nằm trong sự kiểm soát của các nhà cung cấp
thì phải có một mô hình hay phƣơng thức nào đó nhằm đảm bảo tối đa sự an toàn và riêng
tƣ dữ liệu.
1.3 Phân loại các mô hình cung cấp điện toán đám mây
a) Đám mây công cộng – Public Cloud Computing
Cơ sở hạ tầng điện toán đám mây loại này đƣợc tạo sẵn cho số đông công chúng hoặc
một nhóm ngành công nghiệp lớn và đƣợc sở hữu bởi một tổ chức bán các dịch vụ đám
mây.
b) Đám mây cộng đồng – Community Cloud Computing
Mô hình cộng đồng là mô hình trong đó hạ tầng đám mây đƣợc chia sẻ bởi một số tổ
chức cho cộng đồng ngƣời dùng trong các tổ chức đó. Các tổ chức này do đặc thù không
tiếp cận với các dịch vụ đám mây công cộng và chia sẻ chung một hạ tầng điện toán đám
mây để nâng cao hiệu quả đầu tƣ sử dụng.
c) Đám mây riêng - Private Cloud Computing
Cơ sở hạ tầng điện toán đám mây đƣợc hoạt động chỉ phục vụ duy nhất cho một tổ
chức. Nó có thể đƣợc quản lý bởi chính tổ chức hoặc một bên thứ ba và có thể tồn tại trên
chính hệ thống của tổ chức đó hoặc không.
d) Đám mây lai - Hybrid Cloud Computing
Cơ sở hạ tầng điện toán đám mây mà thành phần đƣợc ghép từ hai hoặc nhiều đám
mây khác (có thể là đám mây riêng, cộng đồng, hoặc công cộng) mà vẫn hoạt động nhƣ một
7

thực thể duy nhất. Các đám mây thành phần này đƣợc ràng buộc với nhau bằng công nghệ
tiêu chuẩn hoặc độc quyền cho phép dữ liệu và ứng dụng có tính di động.
1.4. Xu hướng phát triển của điện toán đám mây
CHƯƠNG 2
NGHIÊN CỨU CÁC CÔNG NGHỆ ĐIỆN TOÁN ĐÁM MÂY LƯU TRỮ,
XỬ LÝ DỮ LIỆU ỨNG DỤNG TRONG THỐNG KẾ
I. GIỚI THIỆU CHƯƠNG
II. NỘI DUNG

dữ liệu của tổ chức, hoặc một cơ sở hạ tầng IaaS mà tổ chức thuê để thực hiện lƣu trữ riêng.
2.1.3. Đám mây lưu trữ lai (hybrid cloud):
Là mô hình kết hợp bởi 2 mô hình đám mây lƣu trữ trên với một phần nền tảng nhƣ
của đám mây riêng và một phần nền tảng nhƣ của đám mây công cộng. Khi tổ chức, doanh
nghiệp triển khai theo mô hình này, dữ liệu của họ có thể đặt tại đám mây riêng và cũng có
thể đặt một phần ở bên ngoài (đám mây công cộng) nhằm phục vụ các mục tiêu, hoạt động
khác
b) Một số dịch vụ đám mây lưu trữ hiện nay
- Đám mây lƣu trữ của Amazon S3:
- Đám mây lƣu trữ của hãng Apple: iCloud
- Đám mây lƣu trữ của hãng Microsoft: Windows Live SkyDrive
c) Các tiêu chuẩn cho dịch vụ lưu trữ đám mây
- Khả năng co giãn
- Tự động
9

- Khả năng mở rộng
- Bảo mật dữ liệu
- Hiệu suất
- Tin cậy

Hinh 2.2: Mô hình mức độ tiêu chuẩn cho dịch vụ lƣu trữ đám mây
- Dễ quản trị
- Hiệu quả năng
2.2. Các mô hình thu thập, xử lỹ dữ liệu Thống kê
2.2.1. Thực trạng ứng dụng công nghệ thông tin trong ngành Thống kê.
a. Xử lý thông tin thống kê
b. Về cơ sở dữ liệu
c. Truyền số liệu
d. Phổ biến số liệu

ManualID
T.tin phiếu
bị xoá
6. Xác minh ĐB sai số
lƣợng sau scan
8. Mass Verify
9. Data Verify
T.tin phiếu
bị xoá
10. Exception
T.tin phiếu
bị xoá
11. Export
12. Group Output (ghép file ĐB)
14. Nhập tin phiếu xấu
13. Bới tìm
phiếu bị xoá
theo
15. Ghép file xã/huyện
16. Kiểm tra + Sửa ID phiếu
17. Công cụ hỗ trợ tìm
phiếu thiếu, nhập phiếu
thiếu, sai lô xã/huyện, bới
tìm phiếu
19. K.tra + Sửa logic
20. K.tra xác minh số lƣợng
phiếu, hộ của file xã.huyện
21. Hiệu chỉnh số liệu
18. Chuyển cấu trúc file DAT
23. Quản trị, giám sát,

cũng có thể thấy ở chừng mực nào đấy trong định nghĩa của IBM về dữ liệu lớn với
ba chữ V: Variety, Velocity và Volume.
+ Volume: chỉ độ lớn của dữ liệu ở mức terabytes (10
12
), rồi petabytes (10
15
bytes),
và cả exabytes (10
18
bytes).
+ Velocity: chỉ tính chất chuyển động liên tục của dòng dữ liệu rất lớn cần xử lý,
khác với các cách truyền thống ta thu nhận và xử lý dữ liệu theo từng mẻ (batch).
+ Variety: chỉ sự đa dạng, sự liên kết chằng chịt của dữ liệu với nhiều cấu trúc khác
nhau, từ dữ liệu quan hệ, đến dữ liệu không cấu trúc nhƣ các văn bản thô…
- Dữ liệu lớn từ đâu ra?
13

Việc lƣợng dữ liệu lớn đang ngày càng rất nhiều quanh ta là một hiện thực khách
quan. Dữ liệu lớn có ở rất nhiều tổ chức, nhiều hoạt động xã hội, kinh doanh, khoa học và
tiềm ẩn nhiều giá trị to lớn.
Chìa khóa của dữ liệu lớn

Hình 2.8: Mô hình tổng quát về khai thác dữ liệu (nguồn WAMDM, Web Group)
Mặc dù đang còn phát triển, ba chìa khóa chính của khai thác dữ liệu lớn luôn đƣợc
xem là:
- Quản trị dữ liệu: tức là lƣu trữ, bảo trì và truy nhập các nguồn dữ liệu lớn.
- Phân tích dữ liệu: tức tìm cách hiểu đƣợc dữ liệu và tìm ra các thông tin hoặc tri
thức quý báu từ dữ liệu
- Hiển thị (visualization) dữ liệu và kết quả phân tích dữ liệu.
2.4. Đánh giá một số ưu, nhược điểm cho lưu trữ dữ liệu Thống kê trên điện

nội bộ của doanh nghiệp, trên mạng diện rộng và Internet. iDragon Clouds là giải pháp điện
toán đám mây riêng hoàn thiện và có đầy đủ chức năng, đƣợc đóng gói sẵn sàng để chuyển
giao cho khách hàng là các đối tác doanh nghiệp và ngƣời dùng cá nhân.
- Mô hình triển khai
15 Hình 3.1: Mô hình triển khai iDragon Clouds
Hạ tầng đám mây iDragon Clouds đƣợc xây dựng bởi các máy chủ đám mây
(DataBox) cung cấp dịch vụ quản lý và lƣu trữ dữ liệu, thiết bị mạng đám mây (CloudBox)
kết nối mạng nội bộ doanh nghiệp với các dịch vụ đám mây và phần mềm máy tính đám
mây (CloudPC), máy tính bảng đám mây (CloudTablet), điện thoại đám mây (CloudPhone),
trình duyệt Web truy cập đám mây (HTML5 WebBrowser). Các phần mềm trên máy chủ và
thiết bị kết nối mạng đƣợc thiết kế, đóng gói và cài đặt cung cấp cả 3 lớp dịch vụ chính của
điện toán đám mây là lớp hạ tầng (Infrastructure), lớp nền tảng (Platform) và lớp ứng dụng
(Software). Đối với máy tính trạm, máy tính xách tay, máy tính bảng, điện thoại thông minh
các phần mềm truy cập dịch vụ đám mây iDragon Clouds sử dụng hai phƣơng thức triên
khai chính là phần mềm sụn (firmware) và phần mềm cài đặt (software). Ngoài ra dịch vụ
điện toán đám mây iDragon Clouds còn có thể truy cập bằng trình duyệt Web hỗ trợ
HTML5.
3.1.2. Các dịch vụ đám mây iDragon Clouds
a) Các dịch vụ nền tảng
b) Các dịch vụ giá trị gia tăng
3.3.3. Các giải pháp phần mềm trên nền tảng đám mây iDragon Clouds
a) iDragon® Cloud Explorer (iDCE)
16

b) iDragon®Cloud Scanner (iDCS)
c) iDragon®Cloud Sensor Monitor (iDCSM)
d) iDragon®Cloud Customer Care (iD3C)

Việc tạo lập và duy trì DC Metadata phải dễ dàng
Ngữ nghĩa được dùng trong DC Metadata phải thông dụng và dễ hiểu
DC Metadata có tính quốc tế và tính địa phương cao
DC Metadata có tính mở rộng cao
- Cú pháp của Dublin Core Metadata
+ dùng HTML/XHTML
Các tài liệu HTML/XHTML sử dụng nhãn "<META>" để lƣu trữ các Metadata. Nếu
có dữ liệu Metadata thì các thông tin này phải xuất hiện trong phần HEAD của tài liệu
HTML/XHTML.
Trình duyệt web hay bất cứ phần mền nào tƣơng tự có thể hiểu các dữ liệu metadata,
bắt đầu sau dòng "<HEAD>" và kết thúc trƣớc dòng "</HEAD>", và nhƣ thế có thể trích
lấy dữ liệu metadata một cách tự động. Metadata không xuất hiện trong phần định dạng và
xuất ra của tài liệu, các trình duyệt web có thể nhận metadata và không xử lý chúng, nhƣng
những máy tìm kiếm (search engine) hiện nay đều có khả năng sử dụng thông tin metadata
trong các tài liệu HTML/XHTML.
Trong trang XHTML, mỗi định nghĩa phần tử bản ghi bắt đầu với "<META" và kết
thúc với "/>". Bên trong nhãn META, hai cặp thuộc tính/gía trị đƣợc dùng để định nghĩa
metadata, cặp đầu tiên là tên (NAME), cặp thứ hai là nội dung (CONTENT):
<META NAME="DC.Creator" CONTENT="Browning, Elizabeth"/>
Bất kỳ phần tử metadata nào đều cũng có thể bỏ qua hoặc lặp lại. Khi có các phần tử
lặp lại, nó đƣợc định nghĩa một cách rời rạc nhƣ sau :
18

<META NAME="DC.Creator" CONTENT="Marx, Karl"/>
<META NAME="DC.Creator" CONTENT="Engels, Friedrich"/>
Có thể viết lại trƣờng hợp này bằng cách chỉ dùng một thuộc tính NAME với nhiều
dấu ";" để phân định các gía trị cho thuộc tính CONTENT nhƣ sau:
<META NAME="DC.Creator" CONTENT="Marx, Karl;Engels, Friedrich"/>
Theo quy ƣớc, tiền tố "DC" phải đƣợc viết hoa và các tên của phần tử phải viết hoa
ký tự đầu tiên.

<tennganhkd>Sản Xuất Và Lắp Ráp Linh Kiện Đồng Hồ Đo Nƣớc </tennganhkd>
<nganh_kd>26520</nganh_kd>
</head>
<data>
<ld11>235</ld11>
<ld91>0</ld91>
<ld101>198</ld101>
<ld111>0</ld111>
<ld121>16</ld121>
<ld131>2</ld131>
<ld141>19</ld141>
<ld151>0</ld151>
<ld161>0</ld161>
</data>
</VFPData>
3.3.2. Cài đặt thử nghiệm
Hệ thống thử nghiệm sẽ yêu cầu các Cục Thống kê Tỉnh/Thành phố đăng ký theo kênh
riêng để có tài khoản đăng nhập hệ thống. Sau khi đã có tài khoản, ngƣời sử dụng sẽ đăng
nhập hệ thống băng trình duyệt Internet Explore hoặc Firefox thông thƣờng. Màn hình giao
diện chính có dạng nhƣ sau:

20

Một số thông tin cơ bản của Doanh nghiệp.

Biểu đồ so sánh trình độ lao động trong từng doanh nghiệp

Biều đồ so sánh trình độ chuyên mộn đào tạo lao động trong tinh.
21


có khả năng công nghệ thông tin hóa ở nƣớc ta hoặc không triệt để vì lý do kinh tế, điều
kiện môi trƣờng hay trình độ tin học của ngƣời sử dụng… thì nay có thể giải quyết đƣợc
theo hƣớng mô hình này.
Do hạn chế về thời gian thực hiện, luận văn dừng lại ở đề xuất một mô hình triển
khai ứng dụng. Tác giả rất mong đƣợc sự góp ý chỉ bảo của các Thầy, các Cô.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status