BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------
LÊ TRỌNG TUỆ
NGHIÊN CỨU MÔ HÌNH CƠ SỞ DỮ LIỆU PHÂN TÁN
ỨNG DỤNG CHO HỆ THỐNG THÔNG TIN ĐẤT ĐAI
TỈNH KHÁNH HOÀ
LUẬN VĂN THẠC SĨ KỸ THUẬT
Chuyên ngành Công nghệ thông tin
Hà Nội – Năm 2014
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------
LÊ TRỌNG TUỆ
NGHIÊN CỨU MÔ HÌNH CƠ SỞ DỮ LIỆU PHÂN TÁN
ỨNG DỤNG CHO HỆ THỐNG THÔNG TIN ĐẤT ĐAI
TỈNH KHÁNH HOÀ
Chuyên ngành: Công nghệ thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
Học viên
Lê Trọng Tuệ
MỤC LỤC
Trang
Trang phụ bìa
Lời cam đoan
Danh mục các ký hiệu, các chữ viết tắt
Danh mục các bảng
Danh mục các hình vẽ, đồ thị
MỞ ĐẦU
1
Chương 1 – TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN
5
1.1. Thế nào Hệ cơ sở dữ liệu phấn tán
5
1.1.1. Khái niệm xử lý phân tán
5
1.1.2. Hệ thống phân tán
1.2.2.4 Độ tin cậy qua các giao dịch phân tán
11
1.2.2.5 Cải tiến hiệu năng
11
1.2.2.6 Dễ dàng mở rộng hệ thống
12
1.3 Hệ quản trị CSDL phân tán
12
1.3.1 Các định nghĩa
12
1.3.2 Hệ quản trị CSDL phân tán thuần nhất
15
1.3.3 Hệ quản trị CSDL phân tán không thuần nhất
15
1.4 Các mô hình kiến trúc của Hệ quản trị cơ sở dữ liệu phấn tán.
26
1.5.1 Ưu điểm
26
1.5.2 Nhược điểm.
28
Chương 2 - XÂY DỰNG HỆ CSDL PHÂN TÁN CHO HỆ THỐNG
THÔNG TIN ĐẤT ĐAI.
29
2.1 Cách thức để thiết kế hệ thống thông tin đất đai phân tán
29
2.2 Các chiến lược phân tán dữ liệu
31
2.2.1 Tập trung dữ liệu
31
2.2.2 Chia nhỏ dữ liệu
31
36
2.4.1 Lý do phân mảnh.
37
2.4.2 Các kiểu phân mảnh.
37
2.4.3 Mức độ phân mảnh.
37
2.4.4 Các quy tắc phân mảnh.
37
2.4.5 Các kiểu cấp phát
38
2.4.6 Các yêu cầu thông tin
39
2.5 Các phương pháp phân tán
2.7 Giải pháp đồng bộ cơ sở dữ liệu phấn tán
51
Chương 3 - ỨNG DỤNG CHO HỆ THỐNG THÔNG TIN ĐẤT ĐAI
TỈNH KHÁNH HÒA
3.1 Tổng quan dữ liệu đất đai và hiện trang hệ thống mạng của tỉnh
52
52
3.1.1 Tổng quan dữ liệu đất đai
52
3.1.2 Hiện trang hệ thống mạng của tỉnh
53
3.2 Mô hình Hệ thống thông tin đất đai tổng thể hướng phân tán
55
3.2.1 Mô hình tổng thể CSDL đất đai phân tán tỉnh Khánh Hòa
55
3.2.2 Phân tích dữ liệu phân tán và các hoạt động xử lý thông tin
57
81
3.5 Xây dụng CSDL đất đai từ các nguồn dữ liệu theo quy định của
ngành TNMT.
81
3.6. Hệ quản trị cơ sở dữ liệu phân tán cho HTTT đất đai tỉnh Khánh
Hòa
83
3.6.1 Lựa chọn Hệ quản trị CSDL phân tán thuần nhất
83
3.6.2 Sử dụng Hệ CSDL Client/Server ( Khách/Chủ)
83
3.6.3 Mô tả hoạt động và yêu cầu cài đặt Hệ quản trị CSDL phân
tán
84
3.6.4 So sánh giữa mô hình CSDL đất đai tập trung Mô hình
CSDL đất đai phân tán của tỉnh Khánh Hòa
95
TÀI LIỆU THAM KHẢO
97
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
CPU
: Central Processing Unit.
WAN
: Wide-area network.
LAN
: Local Area NetWork.
DB
: Database.
DDB
: Distributed database.
: Extensible Markup Language.
CSDL
: Cơ sở dữ liệu.
CNTT
: Công nghệ thông tin.
VPĐK
: Văn phòng đăng ký.
UBND
: Ủy ban nhân dân.
GCN
: Giấy chứng nhận.
QSDĐ
: Quyền sử dụng đất.
TNMT
: Tài nguyên Môi trường.
Hình 1.3.2. Kiến trúc mô hình hệ QTCSDLPT thuần nhất ..................................... 15
Hình 1.3.3. Kiến trúc mô hình hệ QTCSDLPT không thuần nhất. ......................... 16
Hình 1.4.1. Lựa chọn cài đặt hệ quản trị CSDL ..................................................... 17
Hình 2.4.5. Kiến trúc tham chiếu Client/Server. .................................................... 22
Hình 1.4.6a. Kiến trúc tham chiếu CSDL phân tán. ............................................... 23
Hình 1.4.6b. sơ đồ chức năng của hệ quản trị CSDL phân tán tích hợp. ................. 24
Hình 1.4.6c. Các thành phần của một hệ quản trị CSDL phân tán. ......................... 25
Hình 2.1.Mô hình tổng thể CSDL đất đai thống nhất từ Trung ương đến địa phương. ...... 30
Hình 2.3.1. Sơ đồ thiết kế tổng thể......................................................................... 32
Hình 2.3.2.1. Sơ đồ thiết kế CSDL phân tán theo mô hình từ trên xuống ............... 34
Hình 2.5.4a. Phân đoạn hỗn hợp. ........................................................................... 45
Hình 2.5.4b. Tái xây dựng phân đoạn hỗn hợp ...................................................... 45
Hình 3.1.2a. Hiện trang hệ thống mạng WAN của tỉnh Khánh Hòa năm 2013. ...... 53
Hình 3.1.2b. Hệ thống mạng tại Trung tâm dữ liệu tỉnh Khánh Hòa. ..................... 54
Hình 3.1.2c. Hệ thống mạng tại Tại UBND các huyện, thị xã, thành phố của tỉnh
Khánh Hòa. ........................................................................................................... 55
Hình 3.2.1a. Mô hình tổng thể CSDL đất đai tỉnh Khánh Hòa. .............................. 56
Hình3.2.1b. Mô hình tổng thể CSDL đất đai tỉnh Khánh Hòa đến cấp Trung ương.57
Hình 3.4.3. Mô hình thực thể quan hệ của hệ thống thông tin đất đai tỉnh Khánh
Hòa........................................................................................................................ 71
Hình 3.4.4. Lược đồ tổng thể cho hệ thống ............................................................ 73
Hình 3.5. Quy trình tổng thể để xây dựng CSDL đất đai từ các nguồn dữ liệu ....... 82
Hình 3.6.1. Kiến trúc mô hình hệ QTCSDLPT thuần nhất của tỉnh ........................ 83
Hình 3.6.3a. Mô hình tổng thể và liên thông thông tin của HTTT đất đai Khánh Hòa ...... 85
Hình 3.6.4.1. Mô hình CSDL đất đai tập trung ...................................................... 88
Hình 3.6.4.2. Mô hình CSDL đất đai phân tán tỉnh Khánh Hòa ............................. 89
Hình 3.6.5.1. Mô hình vận hành CSDL đất đai cấp tỉnh ......................................... 90
Hình 3.6.5.2. Mô hình vận hành CSDL đất đai cấp huyện ..................................... 91
mỗi giây. Kết quả của những cải tiến về mặt kỹ thuật đem lại sự kết nối dễ dàng
1
nhiều hệ thống máy tính với nhau để tạo một mạng cao tốc. Chúng thường được gọi
là mạng máy tính hoặc hệ phân tán.
Từ đó cho thấy máy tính đã có đủ khả năng xây dựng hệ thống thông tin và hệ
cơ sở dữ liệu. Một mặt đã hình thành và phát triển các mô hình lý thuyết cho hệ cơ
sở dữ liệu và mặt khác những nguồn phát triển hệ thống ứng dụng ngày càng có
nhiều kinh nghiệm, hệ thống thông tin hình thành trên cơ sở kết nối các máy tính
khác nhau.
Những năm gần đây, hệ cơ sở dữ liệu phân tán được phát triển dựa trên cơ sở
dữ liệu và mạng máy tính. Cơ sở dữ liệu phân tán gồm nhiều cơ sở dữ liệu tích hợp
lại với nhau thông qua mạng máy tính để trao đổi dữ liệu, thông tin. Cơ sở dữ liệu
được tổ chức và lưu trữ ở những vị trí khác nhau trong mạng máy tính và chương
trình ứng dụng làm việc trên cơ sở truy cập dữ liệu ở những điểm khác nhau đó.
Dựa vào các nghiên cứu và công trình khoa học về hệ phân tán. Luận văn đi vào
nghiên cứu mô hình CSDL phân tán nhằm xây dựng mô hình Hệ thống thông tin đất
đai tỉnh Khánh Hòa.
3. Mục đích, đối tượng, phạm vi nghiên cứu
Từ năm 2008 đến nay, ngành Tài nguyên và Môi trường không ngừng nổ lực
trong việc xây dựng một hệ thống thông tin hiện đại, nhằm đáp ứng các mục tiêu
quản lý Nhà nước về đất đai theo hướng xây dựng Chính phủ điện tử và thực hiện
chủ trương kinh tế hóa của ngành. Kết quả có nhiều hệ thống thông tin đất đai được
nhiều đơn vị trong nước nghiên cứu xây dựng, các hệ thống cơ bản đều được xây
dựng và hoàn thiện trên cơ sở luật hiện hành. Tuy nhiên, các hệ thống thông tin đất
đai được đề xuất thực hiện tại tỉnh Khánh Hòa chỉ chú trọng vào việc thiết kế mô
hình CSDL theo mô hình tập trung, trong khi đó công tác quản lý đất đai lại phân
cấp quản lý, cập nhật thông tin. Hơn nữa, CSDL đất đai ngoài các dữ liệu thuộc tính
điểm của CSDL đất đai nói chung và Khánh Hòa nói riêng.
Đề tài đã đạt được một số kết quả đó là: đã trình bày một cách hệ thống, chi tiết
theo hướng thực nghiệm là một tài liệu cần thiết cho những người muốn tìm hiểu,
thiết kế CSDL đất đai phân tán và triển khai ứng dụng phân tán. Qua kết quả phân
tích thiết kế, bước đầu đã thiết kế được CSDL đất đai phân tán phù hợp với đặc
điểm của Khánh Hòa phục vụ cho việc xây dựng hệ thống thông tin đất đai của tỉnh.
Trong tương lai dựa vào lý thuyết thiết kế CSDL phân tán này có thể ứng dụng vào
các hệ thống lớn và có đối tượng sử dụng rộng.
3
5. Phương pháp nghiên cứu
Để thực hiện được mục tiêu và nhiệm vụ đặt ra trong đề tài, emáp dụng hai
phương pháp nghiên cứu đó là: phương pháp nghiên cứu lý thuyết và phương pháp
nghiên cứu thực nghiệm. Đối với phương pháp nghiên cứu lý thuyết: tiến hành
nghiên cứu và thu thập các tài liệu liên quan đến CSDL phân tán, thiết kế CSDL
phân tán, các công cụ có thể triển khai quản trị CSDL phân tán, các công cụ thiết kế
giao diện chạy được trên hệ thống mạng của tỉnh Khánh Hòa. Sau đó, thu thập các
tài liệu liên quan đến các quy định về xây dựng CSDL đất đai của ngành Tài nguyên
và Môi trường, các loại dữ liệu thuộc tính của ngành. Đối với phương pháp thực
nghiệm: em đi sâu vào phân tích yêu cầu thực tế của hệ thống thông tin đất đaivà
khảo sát thực trạng CSDL đất đai của tỉnh để xác định được các chức năng, quy
trình hoạt động của hệ thống. Tiếp theo vận dụng cơ sở lý thuyết liên quan như
CSDL phân tán, thiết kế CSDL phân tán vào thiết kế hệ thống thông tin đất đai và
đánh giá kết quả đạt được.
4
-
Khái niệm thứ nhất liên quan đến việc tính toán trên Client/Server. Trong đó
ứng dụng được chia ra thành hai phần, phần của Server và phần của Client và được
vận hành ở hai nơi. Trong tính toán phân tán này cho phép truy nhập trực tiếp dữ
liệu và xử lý dữ liệu trên Server và Client.
-
Khái niệm thứ hai là việc thực hiện các tác vụ xử lý phức tạp trên nhiều hệ
thống. Không gian nhớ và bộ xử lý của nhiều máy cùng hoạt động chia nhau tác vụ
xử lý. Máy trung tâm sẽ giám sát và quản lý các tiến trình này. Có trường hợp thông
qua Internet, hàng nghìn máy cùng xử lý một tác vụ.
Có thể định nghĩa hệ xử lý phân tán như sau: Hệ xử lý phân tán là một tập
hợp các phần tử xử lý tự trị (không nhất thiêt đồng nhất) được kết nối với nhau bởi
một mạng máy tính và cùng phối hợp thực hiện những công việc gán cho chúng.
Phần tử xử lý ở đây để chỉ một thiết bị tính toán có khả năng thực hiện chương trình
trên nó.
1.1.2 Hệ thống phân tán
Hệ thống phân tán là tập hợp các máy tính độc lập kết nối với nhau thành một
mạng máy tính được cài đặt các hệ cơ sở dữ liệu và các phần mềm hệ thống phân
tán tạo khả năng cho nhiều người sử dụng truy nhập chia sẻ nguồn thông tin chung.
Các máy tính trong hệ thống phân tán có kết nối phần cứng lỏng lẻo, có nghĩa là
không chia sẻ bộ nhớ, chỉ có một hệ điều hành trong toàn bộ hệ thống phân tán. Các
mạng máy tính được xây dựng dựa trên kỹ thuật Web, ví dụ như mạng Internet,
mạng Intranet… là các mạng phân tán.
1.1.3 Định nghĩa Hệ CSDL phân tán
các file có thể truy nhập lẫn nhau. Như vậy, hệ cơ sở dữ liệu phân tán (DDBS) = Cơ
sở dữ liệu phân tán (DDB) + Hệ quản trị CSDL phân tán (DDBMS).
Hình 1.1.3c Mô hình Hệ CSDL phân tán
Hình 1.1.3d Mô hình không phải Hệ CSDL phân tán
1.2 Cơ sở dữ liệu phấn tán
1.2.1 Định nghĩa
Cơ sở dữ liệu là tập hợp các dữ liệu có liên quan với nhau, được lưu trữ trên
máy tính, có nhiều người sử dụng và được tổ chức theo một mô hình. Dữ liệu là
những sự kiện có thể ghi lại được và có ý nghĩa. Cơ sở dữ liệu phân tán là tập hợp
dữ liệu logic thuộc về cùng một hệ thống nhưng trải rộng ra nhiều điểm trên mạng
máy tính. Như vậy có hai vấn đề của CSDL phân tán với tầm quan trọng tương
đương nhau:
8
- Phân bố trên một mạng máy tính: Toàn bộ dữ liệu của CSDL phân tán
không được lưu trữ ở một nơi mà lưu trữ trên nhiều trạm thuộc mạng máy tính, điều
này giúp chúng ta phân biệt CSDL phân tán với CSDL tập trung đơn lẻ.
- Liên quan logic: Toàn bộ dữ liệu của CSDL phân tán có một số các thuộc
tính ràng buộc chúng với nhau, điều này giúp chúng ta có thể phân biệt một CSDL
phân tán với một tập hợp CSDL cục bộ hoặc các tập tin lưu trữ tại các vị trí khác
nhau trong một mạng máy tính.
1.2.2 Các đặc điểm của cơ sở dữ liệu phân tán
1.2.2.1 Điều khiển tập trung
Điều khiển tập trung (Centralized Control) là một đặc điểm của cơ sở dữ liệu
tập trung, toàn bộ dữ liệu được tập trung lại nhằm để tránh sự dư thừa dữ liệu, đảm
bảo được tính độc lập của dữ liệu. Dữ liệu được quản lý tập trung bởi người quản trị
vị trí này đến một vị trí khác. Tuy nhiên, tốc độ thực hiện của các chương trình ứng
dụng thì bị ảnh hưởng.
Độc lập dữ liệu trong cơ sở dữ liệu tập trung được thể hiện thông qua một
kiến trúc nhiều mức, các mức này có những mô tả khác nhau về dữ liệu và những
ánh xạ biến đổi giữa các mức. Sự trong suốt phân tán trong cơ sở dữ liệu phân tán
được thê hiện bằng cách bổ sung thêm các mức trong suốt vào kiến trúc nhiều mức
của cơ sở dữ liệu tập trung.
1.2.2.3 Giảm dư thừa dữ liệu
Trong các cơ sở dữ liệu tập trung, sự dư thừa dữ liệu được giảm thiểu, vì
tránh sự không nhất quán giữa nhiều bản sao bằng cách chỉ có một bản sao và tiết
kiệm vùng nhớ lưu trữ. Các ứng dụng chia sẻ chung, truy xuất đến các tập tin dữ
liệu. Tuy nhiên, trong các cơ sở dữ liệu phân tán, sự dư thừa dữ liệu là một đặc
điểm cần thiết, vì các lý do sau:
-
Làm tăng tính cục bộ của các ứng dụng nếu dữ liệu được nhân bản tại tất cả
các vị trí mà ứng dụng cần dữ liệu này. Khi đó, các ứng dụng cục bộ được thực hiện
nhanh hơn vì không cần phải truy xuất dữ liệu từ xa.
10
-
Làm tăng tính sẵn sàng của hệ thống ứng dụng, vì một vị trí có sự cố sẽ
không làm ngưng sự thực hiện của các ứng dụng ở những vị trí khác nếu dữ liệu tại
vị trí bị hỏng được nhân bản tại các vị trí khác.
Tuy nhiên, sự nhân bản dữ liệu cần phải xem xét kỹ lưỡng dựa vào hai loại
Vì mỗi trạm chỉ xử lý một phần CSDL, sự tranh chấp về CPU và các dịch vụ
vào/ra không nghiêm trọng như trong các hệ CSDL tập trung.
-
Tính cục bộ làm giảm trễ truy nhập từ xa thường gặp trên các mạng diện
rộng.
Hầu hết các hệ CSDL phân tán được cấu trúc nhằm tận dụng tối đa những ưu
điểm của tính cục bộ dữ liệu. Lợi ích đầy đủ của việc giảm tranh chấp và giảm chi
phí truyền chỉ có thể có được bằng cách phân mảnh và phân tán dữ liệu hợp lý.
Hai là tính song song của các hệ thống phân tán có thể được khai thác để
thực hiện song song liên truy vấn và truy vấn nội bộ. Liên truy vấn song song là khả
năng thực hiện nhiều truy vấn tại cùng thời điểm, còn nội truy vấn song song là
phương pháp tách một truy vấn đơn thành các truy vấn con và mỗi truy vấn con
được thực hiện tại các trạm khác nhau, truy nhập các phần khác nhau của CSDL
phân tán.
1.2.2.6 Dễ dàng mở rộng hệ thống
Trong môi trường phân tán, dễ dàng tăng kích thước dữ liệu và hiếm khi cần
sửa đổi trong các hệ thống lớn. Việc mở rộng thường có thể được thực hiện bằng
cách tăng khả năng lưu trữ và xử lý của mạng. Rõ ràng là không thể có được sự gia
tăng “khả năng” một cách tuyến tính, vì điều này phụ thuộc vào chi phí phân tán.
Tuy nhiên, vẫn có thể có những cải tiến có ý nghĩa, khả năng mở rộng hệ thống dễ
dàng mang tính kinh tế, chi phí giảm.
1.3 Hệ quản trị CSDL phân tán
1.3.1 Các định nghĩa
Hệ quản trị CSDL phân tán được định nghĩa là một hệ thống phần mềm cho
phép quản lý các hệ CSDL phân tán và làm cho sự phân tán trở nên “trong suốt” đối
với người sử dụng. Hệ CSDL phân tán được xây dựng dựa trên hai công nghệ cơ
-
Các ứng dụng truy nhập CSDL từ xa .
-
Cung cấp các mức trong suốt phân tán.
-
Hỗ trợ quản trị và điều khiển CSDL, bao gồm các bộ công cụ, thu thập thông
tin từcác trình tiện ích, cung cấp cách nhìn tổng quan về các file dữ liệu trên mạng.
-
Khả năng mở rộng với các hệ thống khác nhau.
-
Cung cấp khả năng điều khiển đồng thời và phục hồi các giao tác phân tán.
Hình 1.3.1a Hệ CSDL phân tán
Các hệ QTCSDL phân tán thường hỗ trợ về điều khiển tương tranh và khôi
phục các tiến trình phân tán. Khả năng truy cập từ xa có thể thực hiện được bằng 2
cách. Cách thứ nhất (hình 1.3.1b) trình ứng dụng yêu cầu truy cập từ xa. Yêu cầu
13
này được định tuyến tự động bởi hệ QTCSDL phân tán(DDBMS) tới máy chủ chứa