Nghiên cứu phát triển hệ thống tính toán lưới để hỗ trợ giải quyết các bài toán có khối lượng tính toán lớn. - Pdf 13



BỘ KHOA HỌC VÀ CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC.01/06-10

Đề tài:
NGHIÊN CỨU, PHÁT TRIỂN HỆ THỐNG TÍNH TOÁN LƯỚI
ĐỂ HỖ TRỢ GIẢI QUYẾT CÁC BÀI TOÁN
CÓ KHỐI LƯỢNG TÍNH TOÁN LỚN
Chủ nhiệm đề tài nhánh: PGS. TS. Vũ Đức Thi

Viện Công nghệ thông tin

8574

Hà Nội, 9 - 2009

1
3.2. Nội dung khoa học công nghệ đã thực hiện 70
3.3. Kết luận: Các kết quả đã đạt được 76
CHƯƠNG 4. QUẢN LÝ THỰC THI CÔNG VIỆC TRÊN HỆ THỐNG
LƯỚI 79
2
4.1. Tổng quan về hệ thống quản lý thực thi trong lưới 79
4.2. Giải pháp xây dựng hệ thống quản lý thực thi trong VNGrid 83
4.3. Triển khai hệ thống quản lý thực thi trong VNGrid 88
4.4. Thử nghiệm cài đặt 97
CHƯƠNG 5. GIẢI PHÁP AN TOÀN, BẢO MẬT VÀ XÁC THỰC CHO HỆ
THỐNG LƯỚI 99

5.1. Giới thiệu về an ninh lưới 99
5.2. Hạ tầng an ninh lưới 108
5.3. An ninh hạ tầng lưới 115
CHƯƠNG 6. ACCESS GRID VÀ TRIỂN KHAI TRÊN VNGRID 120
6.1. Nghiên cứu Access Grid 120
6.2. Nghiên cứu và triển khai giao thức IP Multicast trên Grid 121
6.3. Nghiên cứu AGTK để triển khai việc truyền nhận dữ liệu đa phương tiện
trên Access Grid 121

6.4. Ứng dụng chia sẻ của Access Grid 123
6.5. Kết nối giữa các tổ chức 124
CHƯƠNG 7. TRIỂN KHAI CÔNG CỤ GIÁM SÁT LƯỚI 124

10.2. Lưới dữ liệu và các công nghệ hỗ trợ lưới dữ liệu 180
10.3. Triển khai dịch vụ lưới dữ liệu trên VNGrid Portal 189
10.4. Kết luận 196
CHƯƠNG 11. TRIỂN KHAI BÀI TOÁN TIN SINH HỌC 197
11.1. Giới thiệu 197
11.2. Hệ thống cập nhật tự động dữ liệu từ ngân hàng dữ liệu NCBI 199
11.3. Hệ thống căn chỉnh để tìm mức độ tương đồng của các trình tự sinh
học 200

11.4. Hệ thống lập bản đồ gen trong việc chẩn đoán bệnh từ các quần thể
khác nhau 209

11.5. Hệ thống căn chỉnh nhiều chuỗi lưới hóa dựa trên việc xây dựng cây
phân loài 210

CHƯƠNG 12. NGHIÊN CỨU TRIỂN KHAI THỬ NGHIỆM BÀI TOÁN
THÁM MÃ KHỐI TRÊN HỆ THỐNG LƯỚI 218

12.1. Mô tả sơ lược sản phẩm 218
12.2. Tổng kết giải thuật song song thám mã vét cạn trên GRID 258
12.3. Giải thuật song song thám mã vét cạn trên GRID 261
CHƯƠNG 13. TRIỂN KHAI BÀI TOÁN DỰ BÁO KHÍ TƯỢNG THỦY
VĂN 263

13.1. Mở đầu 263
13.2. Nội dung khoa học công nghệ đã thực hiện 265 4


DANH MỤC CÁC HÌNH VẼ
Hình 0.1: Lưới tính toán 11

Hình 0.2: Lưới như một tổ chức ảo 13
Hình 0.3: Diễn đàn lưới toàn cầu GGF 18
Hình 0.4: Các tổ chức phát triển công cụ hỗ trợ lưới 19
Hình 0.5: Dự án BioGrid 20
Hình 0.6: Dự án lưới tính toán khoa học của Bộ Năng lượng, Hoa Kỳ 21
Hình 0.7: Dự án tính toán lưới trong vật lý phân tử 23
Hình 0.8: Dự án thương mại hóa tài nguyên trên lưới 24
Hình 0.9: Dự án e-Science 25
Hình 0.10: Tổ chức PRAGMA 26
Hình 1.1: Cấu trúc của GT4 29
Hình 1.2: Các dịch vụ cơ bản của GT 31
Hình 1.3: Kiến trúc Globus Toolkit 4.0 32
Hình 1.4: Quản lý tài nguyên trong GT 33
Hình 1.5: Dịch vụ định vị toàn cầu 35
Hình 1.6: Dịch vụ chỉ mục 40
Hình 1.7: Ví dụ về kiến trúc bảo mật trong GT4 44 6
Hình 1.8: Cơ chế thực hiện của GRAM 45
Hình 1.9: Mô hình của một trạm TTL 48
Hình 1.10: Globus ToolKit 4 50
Hình 2.1: Lớp các dịch vụ OGSA và WSRF 56
Hình 2.2: Kiến trúc của GT4.x 58

Hình 8.4: Cách 1 - Batch Anywhere 154
Hình 8.5: Cách 2 - Independent Concurrent Batch 155
Hình 8.6: Cách 3 - Parallel Batch 156
Hình 8.7: Cách 4 - Service 157
Hình 8.8: Cách 5 - Parallel Services 157
Hình 8.9: Cách 6 - Tightly Coupled Parallel Programs 158
Hình 9.1: Kiến trúc tổng quan của Gridsphere 161
Hình 9.2: Vòng đời của một Portlet 162
Hình 9.3: Portlet dữ liệu sẵn sàng để sử dụng 164
Hình 9.4: Portlet lưới dữ liệu trong VNGridportal 165
Hình 9.5: Liệt kê tệp tin, thư mục trong lưới 166
Hình 9.6: Tạo thư mục mới trên lưới 166
Hình 9.7: Đổi tên/thư mục trong lưới 167
Hình 9.8: Xóa tệp tin hoặc thư mục 167
Hình 9.9: Tải tệp tin lên lưới 168
Hình 9.10: Trang chủ VNGrid Portal 177
Hình 10.2: Kiến trúc lưới dữ liệu 5 tầng do Ian Foster đề xuất 183
Hình 10.3: Lấy về giấy ủy nhiệm 192
Hình 10.4: Danh sách giấy ủy nhiệm 193
Hình 10.5 Portlet lưới dữ liệu trong VNGridportal 193
Hình 10.6: Liệt kê tệp tin, thư mục trong lưới 194
Hình 10.7: Tạo thư mục mới trên lưới 194
Hình 10.8: Đổi tên/thư mục trong lưới 195
Hình 10.9: Xóa tệp tin hoặc thư mục 195
Hình 10.10 Tải tệp tin lên lưới 196
Hình 11.1: Mô hình làm việc của hệ thống 200
Hình 11.2: Sơ đồ của thuật toán PhylTree 211 8

mà một máy tính riêng lẻ, dẫu có cấu hình rất mạnh không thể đảm trách được.
Xuất phát từ những nhu cầu đó, các kỹ thuật tính toán lưới hóa, tính toán phân
tán được đề xuất và đã phần nào đáp ứng
được các yêu cầu này. Tuy nhiên,
tham vọng của các nhà chuyên môn không dừng lại ở đó. Mong muốn tạo ra
một sức mạnh tính toán lớn hơn, với khả năng chia sẻ tài nguyên trên phạm vi
toàn cầu, tận dụng các phần mềm, cũng như tài nguyên vật lý phân tán về mặt
địa lý. Các tổ chức giải quyết vấn đề này bằng hai cách:
- Đầu tư thêm trang thiết bị, cơ sở hạ tầng tính toán (mua thêm máy chủ,
máy trạm, siêu máy tính, cluster ). Cách làm này h
ết sức tốn kém.
- Có một cách làm khác hiệu quả hơn đó là phân bố hợp lý lại các nguồn
tài nguyên trong tổ chức hoặc thuê thêm các nguồn tài nguyên từ bên ngoài (dự
án với chi phí rẻ hơn nhiều so với việc đầu tư cho cơ sở hạ tầng tính toán).
Thực tế cho thấy một phần lớn các nguồn tài nguyên đang được sử dụng lãng
phí: các máy để bàn công sở thường chỉ hoạt động khoảng 5% công su
ất, ngay
cả các máy chủ cũng có thể chỉ phải hoạt động với 20% công suất. Việc tận
dụng hiệu quả các nguồn tài nguyên này có thể mang lại một sức mạnh tính
toán khổng lồ
Cách giải quyết thứ hai chính là mục tiêu của tính toán lưới. Tính toán
lưới hướng đến việc chia sẻ và sử dụng hiệu quả các nguồn tài nguyên thuộc về
nhiều tổ chức trên một quy mô rộng lớ
n (thậm chí là quy mô toàn cầu). Chính
các công nghệ mạng và truyền thông phát triển mạnh mẽ trong những năm qua
đã biến những khả năng này dần trở thành hiện thực. Các nghiên cứu về tính
toán lưới đã và đang được tiến hành là nhằm tạo ra một cơ sở hạ tầng lưới cho
phép dễ dàng chia sẻ và quản lý các tài nguyên đa dạng và phân tán trong môi
trường lưới.


- Globus Alliance tạo ra bộ công cụ Globus Toolkit (GT) mã nguồn mở,
bao gồm các thư viện ph
ần mềm và các dịch vụ cho phép người phát triển tạo
ra các ứng dụng lưới. Thư viện của GT cung cấp các hàm đảm bảo vấn đề như
an ninh, cơ sở hạ tầng thông tin, quản lí tài nguyên lưới, tính tin cậy, tính
khả chuyển
- Global Grid Forum quản lí các tiến trình chuẩn cho việc đặc tả kiến 11
trúc các dịch vụ lưới OGSA (Open Grid Services Architecture) và OGSI (Open
Grid Services Infrastructure). Các chuẩn OGSA, OGSI và bộ cung cụ Globus
Toolkit giúp cho các nhà phát triển triển khai một cách thuận tiện các giải pháp
tính toán lưới trong nhiều lĩnh vực nghiên cứu chuyên sâu ở Mỹ và châu Âu
như: dự án tìm kiếm các tín hiệu ngoài trái đất SETI (Search for Extraerrestrial
Intelligence), dự án về nghiên cứu bản đồ gen người, dự án IPG (Information
Power Grid) của NASA Ðó là những ứng dụng tiêu biểu tạo sự thành công
ban đầu của tính toán lưới trong giai đoạn nghiên cứu.

Hình 0.1: Lưới tính toán
Hình 0.1 là một ví dụ về lưới, như một mạng liên kết các tài nguyên
phân tán về mặt địa lý, các tài nguyên rất phong phú, đa dạng, bao gồm tập các
siêu máy tính, các thiết bị truyền thông vệ tinh, các kho lưu trữ, các cluster tính
toán hiệu năng cao, các tổ chức ảo liên kết trong lưới. Người dùng trong lưới
cũng hết sức đa dạng, từ các người dùng thông thường, cho tới các người dùng
chuyên dụng, có kiến thức sâu về chuyên môn như
các nhà nghiên cứu, các nhà


Hình 0.2: Lưới như một tổ chức ảo
- Các tài nguyên không chỉ thuộc về một tổ chức mà thuộc về rất nhiều
tổ chức tham gia lưới. Các tổ chức phải tuân thủ một số quy định nhất định khi
tham gia vào lưới, nhưng nói chung là hoạt động độc lập, tức là các tài nguyên
này đều có quyền tự trị. Các tổ chức khác nhau thường có chính sách sử dụng
hay cho thuê tài nguyên của họ khác nhau và do vậy c
ũng gây khó khăn cho
việc quản lý.
- Các tài nguyên phân tán rộng khắp về mặt địa lý, do vậy phải có các cơ
chế quản lý phân tán.
- Đảm bảo an toàn thông tin cho một môi trường phức tạp như môi
trường lưới là rất khó khăn, trong khi đây là một trong những điểm ưu tiên
hàng đầu.
Theo Ian Foster, một hệ thống lưới là hệ thống có 3 đặc điểm chính sau:
- Phối hợp các tài nguyên phân tán từ nhiều miền qu
ản trị khác nhau.
- Sử dụng các chuẩn mở và các giao thức mở.
- Mang lại cho người dùng chất lượng dịch vụ không tầm thường.
Điểm thứ 2 rất đáng lưu ý. Vì lưới là một môi trường thu hút nhiều tổ
chức tham gia nên không thể coi nhẹ vai trò của các chuẩn mở và các giao thức
mở, cũng giống như việc sử dụng các chuẩn này đã giúp cho mạng Internet
bùng nổ mạnh mẽ trong những n
ăm 90 của thế kỉ trước.
0.1. Giới thiệu chung về tính toán lưới
Tính toán lưới (TTL) có nghĩa là tất cả hoặc một phần của nhóm máy
tính và thiết bị lưu trữ trong mạng được “ảo hóa” (virtualized) thành một máy
tính lớn. Khi một người sử dụng chiếc máy tính cá nhân tham gia, đóng góp
sức mạnh xử lý trong một mạng lưới, muốn chạy một ứng dụng đòi hỏi thêm
sức mạ

Hadron Collider (LHC) được xây dựng tại trung tâm nghiên cứu CERN của
Thụy Sĩ. Các thí nghiệm vật lý hạt nhân được thực hiện sẽ tạo ra những lượng
dữ liệu khổng lồ: khoảng 13 petabyte mỗi năm (1 petabyte = 1.024 terabyte,
tức là hơn 1.000.000 gygabyte). LCG gắn với một phương thức xử lý dữ liệu
trên lưới chứ không thuần túy là một cỗ máy, siêu máy tính thực sự và tốn kém.
Theo Hội đồng nghiên cứu thiên văn và vật lý hạt nhân Anh (PPARC), đến năm
2007, LCG sẽ có sức mạnh tương đương 100.000 máy tính nhanh nhất hiện
nay được kết hợp lại và tạo ra một siêu máy tính ảo. Thiết bị này có thể được
mở rộng và phát triển thêm nế
u cần thiết. Các kỹ sư tham gia dự án GridPP 15
phát triển bộ phận tải các nhiệm vụ tính toán, luân chuyển bên trong LCG. Tại
những điểm thích hợp nhất, thực thi các chương trình ứng dụng và gửi trả kết
quả trong thời gian thực.
0.2. So sánh tính toán lưới với một số mô hình tính toán khác
0.2.1. World Wide Web
WWW hiện nay đang phát triển mạnh mẽ và được sử dụng rộng khắp.
Sử dụng các chuẩn mở và các giao thức mở (TCP, HTTP, XML, SOAP).
WWW có thể đượ
c sử dụng để xây dựng các tổ chức ảo. Tuy nhiên, nó vẫn còn
thiếu một số đặc tính quan trọng như các cơ chế chứng thực một lần, ủy nhiệm,
các cơ chế phối hợp sự kiện
0.2.2. Các hệ thống tính toán phân tán
Các công nghệ tính toán phân tán hiện tại bao gồm CORBA, J2EE và
DCOM khá thích hợp cho các ứng dụng phân tán. Tuy nhiên, chúng không

ổ chức. Tuy nhiên, không đòi hỏi cao về an ninh và mô hình chia sẻ tài
nguyên cũng đơn giản hơn.
Ngoài ra, môi trường lưới liên kết các nguồn tài nguyên mạnh hơn, đa
dạng hơn và chặt chẽ hơn.
0.2.5. Công nghệ tính toán hiệu năng cao
Như đã nói ở trên, để giải quyết những bài toán lớn người ta có thể đầu
tư cho cơ sở hạ tầng tính toán. Để giải quyết những bài toán rất lớ
n và phức
tạp, người ta phải xây dựng những hệ thống siêu máy tính. Các hướng nghiên
cứu trong tính toán hiệu năng cao chủ yếu bao gồm:
- Nghiên cứu chế tạo những siêu máy tính tuần tự đơn bộ vi xử lý với tốc
độ rất cao. Cách làm này gặp phải các giới hạn về vật lý như độ truyền dẫn của
bán dẫn, tốc độ điện từ, nhiễu điện t

- Nghiên cứu chế tạo các siêu máy tính lưới hóa bao gồm rất nhiều bộ xử
lý hoạt động lưới hóa trên một bảng mạch chủ. Cách làm này đòi hỏi phải có
những phần mềm thích hợp để tận dụng năng lực tính toán của hệ thống ví dụ:
hệ điều hành lưới hóa phân tán, trình biên dịch lưới hóa, ngôn ngữ lập trình
lưới hóa Tuy nhiên, việc nghiên cứu chế tạo ra các siêu máy tính nói chung
mới chỉ
được thực hiện ở các nước phát triển và giá thành của một hệ thống
siêu máy tính như vậy (bao gồm cả phần cứng lẫn phần mềm hệ thống, công cụ
phát triển) có thể lên đến hàng triệu đô la. Xây dựng hệ thống tính toán hiệu
năng cao bằng cách kết nối nhiều máy tính thông thường với nhau thành một
cluster. Bằng cách này trung tâm CDAC của Ấn Độ đã tạo ra được siêu máy
tính xếp thứ
173 trong số top 500 siêu máy tính của thế giới. Trung tâm NCHC 17

siêu máy tính hiện có và chủ yếu là do quy mô cực kỳ rộng lớn của nó.
Cuối cùng, cũng cần phải nói rằng tính toán lưới không phải là chìa khóa
vạn năng dùng để giải quyết mọi vấn đề. Nó được dùng để bổ trợ chứ không
phải là thay thế hoàn toàn các công nghệ tính toán hiện tại. Các công nghệ tính
toán đã tồn tại cũng đã giải quyết từng phần các yêu cầu do tính toán lưới đặt ra 18
(các yêu cầu về chia sẻ tài nguyên phân tán), tuy nhiên tính toán lưới hiện nay
có thể giải quyết các vấn đề đó một cách tập trung và bài bản hơn với một ngữ
cảnh rộng hơn rất nhiều.
0.3. Các tổ chức tham gia vào quá trình phát triển của tính toán lưới
Các tổ chức tham gia vào quá trình phát triển của tính toán lưới có thể
chia ra làm bốn nhóm lớn sau:
0.3.1. Các tổ chức phát triển các chuẩn cho lưới
Đại diện cho nhóm này là diễn đàn l
ưới toàn cầu (GGF – Global Grid
Forum) và các tổ chức chuẩn hóa quốc tế khác như OASIS (Organization for
the Advancement of Structured Information Standards), W3C (World Wide
Web Consortium), IETF (the Internet Engineering Task Force) và DMTF (the
Distributed Management Task Force). Hiện nay một trong những hoạt động
chính của GGF là phát triển chuẩn dịch vụ lưới OGSA.
trong chương trình công nghệ thông tin của chính phủ Nhật Bản, với sự phối
hợp giữa các bộ giáo dục, văn hóa, thể thao, khoa học và công nghệ. Dự án như
là một bước khởi đầu để xây dựng mạng siêu máy tính nhằm giải quyết những
vấn đề của sinh học và y khoa đặt ra. Dự án bao gồm 3 mục tiêu chính: 20

Hình 0.5: Dự án BioGrid
- Phân tích để triển khai một mạng siêu máy tính.
- Nghiên cứu về công nghệ lưới dữ liệu (data grid technology) cho phép
giải quyết các bài toán với những kiểu dữ liệu khác nhau của các cơ sở
dữ liệu lớn.
- Nghiên cứu về công nghệ tính toán lưới (computing grid technology)
qua đó tham gia giải quyết những bài toán xử lý dữ liệu đòi hỏi nguồn tài
nguyên tính tính toán rất mạnh (ultra high-speed computing). 21
Dự án DOE Science Grid: Dự án này của Bộ Năng lượng, Hoa Kỳ
(Hình 0.6). Đây là dự án được xây dựng quy mô lớn nhằm phối hợp giữa nhiều
cơ quan khoa học của Mỹ. Nhằm tạo cơ sở hạ tầng công nghệ thông tin
(cyberinfrastructure) phục vụ cho việc phát triển và triển khai các lĩnh vực tính
toán phân tán (distributed computing), xử lý dữ liệu và khai thác nguồn tài

trên môi trường tính toán lưới và cả những vấn đề an toàn, an ninh của hệ
thống.
- Triển khai cơ sở hạ tầng tính toán trong toàn Vương quốc Anh theo
khuôn mẫu lướ
i tính toán.
Mặc dù xuất phát từ như cầu của những nhà vật lý phân tử, nhưng hệ
thống về sau cũng được sự tham gia của các nhà khoa học trong các lĩnh vực
khác. Từ đó đã hình thành nên một tổ chức ảo (VO – Virtual Organization),
động lực quan trọng trong việc xây dựng các hệ thống tính toán lưới. Từ đó đã
hình thành nên hệ thống UK Grid, mà GridPP và các dự án khác như AstroGrid
(nghiên cứu thiên văn), BioSimGrid (sinh học), IXI (y tế) và các dự án công
nghi
ệp (DAME, G-Civil, GEODISE) là những bộ phận. Hệ thống này như có
tên gọi NGS – UK National Grid Service ( />), nhằm cung
cấp nguồn tài nguyên tính toán và lưu trữ cho các nhà khoa học. 23

Hình 0.7: Dự án tính toán lưới trong vật lý phân tử
Dự án Economy Grid – ECOGRID: Sự phát triển nhanh chóng của Grid
còn đưa đến một lĩnh vực nghiên cứu mới đó là thương mại hóa tài nguyên trên
Grid, cụ thể là tài nguyên tính toán, tài nguyên lưu trữ và các dạng tài nguyên
khác như phần mềm, thiết bị chuyên dụng. Trong hướng nghiên cứu này, cần
tìm ra các cơ chế cho phép người sở hữu tài nguyên và người sử dụng tài
nguyên có diễn tả các yêu cầu về chất lượng, kh
ối lượng tài nguyên (người


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status