HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOUANETHEVA PHOLSENA NGHIÊN CỨU CÁC GIẢI PHÁP CÔNG NGHỆ
PHÂN TÁN DỮ LIỆU VÀ ỨNG DỤNG QUẢN LÝ
NHÂN SỰ PHÂN TÁN TRONG CƠ QUAN NHÀ NƯỚC LÀO
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học: TS PHẠM THẾ QUẾ
từng bước chứng minh tính ưu việt của nó hơn hẳn các hệ
2
thống tập trung truyền thống. Trên thực tế, các hệ thống phân
tán đã thay thế dần các hệ thống tập trung.
Nhu cầu thu thập, lưu trữ, xử lý và trao đổi thông tin
của các hoạt động xã hội và kinh tế ngày càng cao. Yêu cầu tổ
chức các hệ xử lý phân tán là yêu cầu bức thiết. Vậy, để hiểu
thêm về vấn đề này em chọn đề tài “Nghiên cứu các giải pháp
công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự
phân tán trong cơ quan Nhà nước Lào”.
Cấu trúc của luận văn được tổ chức thành 3 chương:
• Chương 1, tôi trình bày các vấn đề liên quan đến cơ sở
dữ liệu phân tán, đặc biệt làm rõ ưu và nhược điểm của
cơ sở dữ liệu phân tán, các mô hình có thể triển khai hệ
thống phân tán, các loại truy xuất, các mức trong suốt
của cơ sở dữ liệu phân tán.
• Chương 2, trình bày các chiến lược phân tán, các
phương pháp thiết kế, các vấn đề thiết kế, các phương
pháp phân mảnh, phân bố cho các mảnh.
• Chương 3, trình bày về bài toán, các mô hình và các
yêu cầu quản lý của hệ thống quản lý nhân sự trong
Quốc Hội nước Cộng hòa Dân chủ Nhân dân Lào ; trình
bày quy trình thiết kế cơ sở dữ liệu phân tán và triển
khai thử nghiệm.
3
1.2.3 Hiệu quả công việc
Sự tồn tại một số hệ thống xử lý điạ phương đạt được
thông quan việc xử lý song song. Có thuận lợi trong việc phân
tích dữ liệu phản ánh điều kiện phụ thuộc của các ứng dụng,
cực đại hoá tính địa phương của ứng dụng.
Trao đổi thông tin qua lại giữa các bộ xử lý có chi phí
cức tiểu. Công việc xử lý được phân chia cho các bộ xử lý khác
nhau và tránh được các tắc nghẽn thông tin trên mạng hoặc các
dịch vụ chung của toàn hệ thống.
1.2.4 Độ tin cậy và tính sẵn sàng
Cho phép truy nhập có độ tin cậy và tính sẵn sàng cao
hơn so với truy nhập tập trung. Đòi hỏi kỹ thuật phức tạp. Lỗi
xuất hiện trong một cơ sở dữ liệu phân tán có thể xảy ra nhiều
hơn, vì số các thành phần cấu thành lớn hơn, nhưng ảnh hưởng
của lỗi chỉ ảnh hưởng tới các ứng dụng sử dụng các vị trí-site
lỗi. Sự hỏng hóc của toàn hệ thống ít khi xảy ra.
Công nghệ cơ sở dữ liệu phân tán là sự kết hợp giữa
hai vấn đề phân tán và hợp nhất:
• Phân tán: phân tán dữ liệu trên các site của mạng
• Hợp nhất: hợp nhất về mặt logic các dữ liệu phân tán
sao cho chúng xuất hiện với người sử dụng giống như
với cơ sở dữ liệu đơn lẻ duy nhất.
Công nghệ cơ sở dữ liệu phân tán được phát triển dủa
trên s
ự phát triển của kỹ thuật tính toán, kỹ thuật truyền thông
và mạng máy tính.
5
1.3 Đặc trưng cơ bản của cơ sở dữ liệu phân tán
Phần này so sánh cơ sở dữ liệu phân tán với cơ sở dữ
• Làm tăng tính cục bộ của các ứng dụng. Các ứng
dụng cục bộ được thực hiện nhanh hơn, không cần
phải truy xuất dữ liệu từ xa.
• Làm tăng tính sẵn sàng của hệ thống ứng dụng, nếu
dữ liệu tại vị trí bị hỏng được nhân bản tại các vị trí
khác.
1.3.4 Độ tin cậy qua các giao dịch phân tán
Hệ quản trị cơ sở dữ liệu phân tán cải thiện độ tin cậy
qua các giao dịch phân tán, vì các thành phần được nhân bản
hạn chế được các vị trí lỗi riêng lẻ. Lỗi của trạm riêng, hoặc lỗi
của truyền thông làm cho một hoặc nhiều trạm mất liên lạc,
không đủ để phá vỡ toàn bộ hệ thống.
Nếu biết cách hỗ trợ cho các giao dịch phân tán và các
giao thức ứng dụng, thì người sử dụng vẫn có thể truy nhập
được tới phần khác trong cơ sở dữ liệu phân tán.
1.3.5 Cải tiến hiệu năng
Được cải tiến dựa vào hai điểm:
a) Hệ quản trị cơ sở dữ liệu phân tán có khả năng phân
mảnh cơ sở dữ liệu khái niệm và cho phép cục bộ hoá dữ liệu.
b) Tính song song của các hệ thống phân tán có thể được
khai thác để thực hiện song song liên truy vấn và nội bộ.
1.3.6 Dễ dàng mở rộng hệ thống
Th
ực hiện bằng cách tăng khả năng lưu trữ và xử lý của
mạng. Khả năng mở rộng hệ thống dễ dàng mang tính kinh tế,
chi phí giảm.
7
1.3.7 Tính toàn vẹn, phục hồi và điều khiển tương tranh
Các phương pháp cung cấp các giao tác. Mỗi một giao
8
Server – điều khiển, lưu trữ CSDL, xử lý các truy
vấn và quản lý việc khai thác tài nguyên trên mạng
của các Clients.
Client – Khai thác tài nguyên qua Server
Mô hình CSDL client/server giống với mô hình CSDL
file-server nhưng trên thực tề mô hình CSDL Client/Server có
nhiều thuận lợi hơn mô hình file-server.
1.4.2 Mô hình CSDL phân tán
-Hai mô hình CSDL File-Server và Client/Server:dữ liệu và
chương trình ứng dụng truy nhập dữ liệu nằm trên 2 bộ xử lý
khác nhau.
-Mô hình CSDL phân tán:CSDL ở trên nhiều máy khác nhau.
Hình 1.3 Distributed database model
9
CHƯƠNG II
KỸ THUẬT PHÂN TÁN DỮ LIỆU
2.1 Khái niệm và sự cần thiết phân mảnh dữ liêụ
Phân mảnh là chia CSDL thành các mảnh dữ liệu nhỏ
hơn và xử lý mỗi mảnh nhận được như một CSDL độc lập, chỉ
được thực hiện khi nó tăng hiệu quả, và có độ tin cậy.
Có 2 kiểu phân mảnh:
- 1. Phân mảnh ngang: CSDL được phân hoạch thành các
CSDL con, mỗi CSDL con là một tập hợp các bộ thỏa mãn
đồ khái niệm toàn cục của hệ cơ sở dữ liệu.
b) Thông tin về ứng dụng: Để thực hiện việc phân
mảnh một quan hệ, cần phải có thông tin định tính và thông tin
định lượng.
c) Thông tin định tính về các ứng dụng cần phải có:
• Độ tuyển hội sơ cấp (Minterm Selectivity): là số bộ của
quan hệ sẽ được chọn theo vị từ hội sơ cấp cho trước.
• Tần số ứng dụng người sử dụng truy xuất dữ liệu. Nếu
Q = {q
1
, q
2
, … , q
q
} là tập truy vấn, ký hiệu acc(q
i
) là
tần số truy xuất của truy vấn q
i
trong một khoảng thời
gian đã cho.
• Tần số truy xuất hội sơ cấp là tần số truy xuất của hội
sơ cấp m, ký hiệu là acc(m).
11
2.3.3 Phân mảnh ngang nguyên thủy
Phân mảnh ngang nguyên thủy được định nghĩa bằng
một phép chọn trên quan hệ chủ của lược đồ cơ sở dữ liệu.
)(RR
i
có tính cực tiểu. Đây là một đặc tính cảm tính.Nếu một vị từ
đơn giản có liên đới đến việc phân mảnh , phải có tính liên đới
(relevant) trong việc xác định một phân mảnh.
Gọi m
i
và m
j
là hai vị từ hội sơ cấp. Gọi f
i
và f
j
là hai
mảnh tương ứng được định nghĩa theo m
i
và m
j
.
Khi
đó p
i
là có liên đới khi và chỉ khi:
)(
)(
)(
)(
ji
fcard
macc
fcard
macc
S
2
S
3
a) Đồ thị kết nối
hoàn toàn
R
R
2
R
R
S
1
S
2
S
3
S
3
R
R
j
), Q={q
1
, q
2
, , q
q
} là tập
các câu truy vấn của người sử dụng. Các câu truy vấn Q sẽ
chạy trên quan hệ R(A
1
, A
2
,…, A
n
).
Các vector Use(q
i
,*) được hiểu là câu truy vấn q
i
được chạy
trên cơ sở dữ liệu.
b) Ma trận lực hút AA( Attribute Affinity Matrix) của
thuộc tính: R(A
1
,A
2
l
(q
k
) là số lần truy xuất các thuộc tính(Ai,Aj) cho q
k
tại vị trí
S
l
và acc
l
(q
k
) là số đo tần số truy xuất ứng dụng q
k
tại vị trí S
l
.
2.4.3 Thuật toán tụ nhóm
Thuật toán thực hiện bằng cách nhóm các thuộc tính
của một quan hệ dựa trên các giá trị lực hút thuộc tính trong ma
trận AA đầu vào. Số đo lực hút chung lớn nhất là AM (Global
Affinity Measure). Ma trận lực hút tụ CA (Cluster Affinity) là
Kết quả, gồm có 3 bước :
Use(q
i
,A
j
) =
i=1 q và j=1 n
Hình 2.4 Cấp phát điểm tách
2.5 Bài toán phân bố dữ liệu
2.5.1 Khái niệm
Là bài toán để giải quyết các vấn đề không thuận lợi
nhu là: các mảnh được mô hình hóa không thích hợp hoàn toàn
như các tệp riêng, số mảnh nhiều hơn so với các quan hệ toàn
cục Những vấn đề đặt ra này là phân bố dữ liệu sao cho tối
ưu đối với các ứng dụng.
A
1
A
2
.
A
i
A
i+1
.
A
1
Khi đó đặc tả chính xác như sau:
++
∑∑ ∑
∈
=
∈
∈ ISj
jjij
m
i
ISj
j
ISj
ijjj
j
j
j
dxctcux )min(min
1
'
• Dữ liệu được truy nhập bởi truy vấn là những mảnh
dữ liệu được phân rã, được gọi là dữ liệu cục bộ.
• Phép truy vấn đại số trên các mảnh phải được mở
rộng với các thao tác truyền thông và tối ưu hoá
chức năng tham chiếu các nguồn tài nguyên.
2.6.1 Vấn đề xử lý truy vấn
Vì có nhiều giải pháp biến đổi, mỗi giải pháp khác nhau
có thể tiêu thụ tài nguyên của mạng máy tính khác nhau. Vậy,
cần phải lựa chọn một giải pháp khi thực hiện, nó tiêu thụ tài
nguyên của mạng là tối thiểu. Có hai phương pháp tối ưu hóa
truy vấn cơ bản: phương pháp biến đổi một câu truy vấn phép
tính đại số quan hệ thành câu truy vấn tương đương ở mức thấp
hơn dưới dạng một biểu thức đại số quan hệ và phương pháp
chọn lựa trong số các câu truy vấn dạng biểu thức đại số quan
hệ tương đương, một biểu thức có chi phí thời gian thực hiện
và chi phí sử dụng tài nguyên là ít nhất.
2.6.2 Mục đích của việc xử lý truy vấn
Là biến đổi một câu truy vấn ở mức cao trên một cơ sở
dữ liệu phân tán thành một giải pháp thực hiện hiệu quả được
xác định dưới dạng ngôn ngữ mức thấp trên các cơ sở dữ liệu
cục bộ. Ngôn ngữ mức cao có thể hiểu là các phép tính quan
hệ, các ngôn ngữ mức thấp là sự mở rộng của đại số quan hệ
và các thao tác truyền dữ liệu giữa các vị trí dữ liệu.
2.6.3 Phân rã truy vấn
Có ch
ức năng ánh xạ câu truy vấn phân tán ở dạng phép
tính quan hệ thành câu truy vấn đại số trên quan hệ toàn cục.
Thông tin cần thiết cho việc biến đổi phân rã truy vấn phân tán
17
và thuận lợi. Ở bên phía Quốc hội địa phương cũng có chức
năng quản lý nhân viên ở trong tỉnh, có các chức năng xem, tìm
kiếm, tra cứu những thông tin của các nhân viên trong tỉnh và
báo cáo lại cho Văn phòng Quốc hội ở trung tâm.
3.1.1 Mô hình Quốc hội Cộng hòa Dân chủ Nhân dân Lào
Nước Cộng hòa Dân chủ Nhân dân Lào bao gồm 17
tỉnh và mỗi tỉnh đều có Quốc hội địa phương riêng nhưng tất cả
đều thuộc vào trung tâm Văn phòng Quốc hội ở Viêng Chăn.
Trung tâm văn phòng Quốc hội Lào ở Viêng Chăn có nhiều Ủy
Ban như:Ủy ban Pháp luật, Ủy ban Kinh tế, Ủy ban Xã hội
Hinh 3.1 b
ản đồ nước Cộng hòa Dân chủ Nhân dân Lào
19
3.1.2 Yêu cầu quản lý
Hình 3.2 Biểu đồ phân cấp chức năng của hệ quản lý nhân sự
3.1.3 Mẫu dữ liệu
Bao gồm các bảng mẫu dữ liệu như:
- tbWORK (Bảng đại biểu Quốc hội)
- tbSTAFF (Bảng Nhân Viên)
- tbTITLE (Bảng Chức Vụ)
- tbEDUCATE (Bảng Trình độ học tập của Nhân Viên)
- bFAMILY (Bảng gia đình của Nhân Viên)
- tbPROVINCE (Bảng Tỉnh)
20
3.1.4 Mẫu quan hệ giữa các bảng
22
3.3.1 Cấu hình mạng
Hình 3.5 Hệ thống xử lý phân tán giữa các Quốc hội Cộng hòa
Dân chủ Nhân dân Lào
Khi ở bên Văn phòng Quốc hội làm một câu truy vấn,
t
ất cả Quốc hội địa phương nằm ở các Tỉnh sẽ cũng làm câu
truy vấn đồng thời như ở bên Văn phòng Quốc hội.
23
3.3.2 Quy trinh xử lý dữ liệu phân tán
Quá trình xử lý hệ thống quản lý nhân sự Quốc hội Cộng hòa
Dân chủ Nhân dân Lào được chia thành nhiều vấn đề nhỏ
tương ứng với các tầng khác nhau, trong đó mỗi tầng xử lý một
số vấn đề cụ thể. Chức năng các tầng bao gồm: phân rã truy
vấn, tập trung hoá dữ liệu, tối ưu hoá truy vấn toàn cục và tối
ưu hoá truy vấn cục bộ.
VD: Văn phòng Quốc hội có yêu cầu tính tất cả tổng số đại
biểu quốc hội là dân tộc "Lao Xung" có trình độ đại học và có
tuổi trên 40 tuổi.
Hinh 3.7 Mô hình x
ử lý phân tán hệ thông quản lý nhân sự của
Quốc hội Cộng hòa Dân chủ Nhân dân Lào
24
KẾT LUẬN
Với sự phát triển mạnh mẽ của hệ thống phân tán và