Mục lục
MỞ ĐẦU
MỞ ĐẦU
Hiện nay việc ứng dụng công nghệ thông tin trong các trường đại học đã
mang lại những lợi ích lớn lao cho công tác quản lý của phòng đào tạo cũng như
nhà trường. Hệ thống quản lý thông tin trong các trường đại học là một hệ thống
lớn gồm nhiều phòng, ban, khoa và có nhiều đối tượng sử dụng.
Tuy nhiên đa số các trường đại học có các ứng dụng công nghệ thông tin còn
rời rạc và không thống nhất, trong đó mỗi khoa, mỗi phòng, ban đều sử dụng các
ứng dụng đáp ứng yêu cầu cụ thể của đơn vị mình, các công cụ, phần mềm, cơ
sở dữ liệu cũng khác nhau. Từ đó dẫn đến các khó khăn trong công tác quản lý
như: dữ liệu chưa được đồng bộ, chưa xây dựng được hệ thống thông tin thống
nhất phục vụ việc trao đổi dữ liệu giữa các phòng ban, khoa.
Từ thực trạng trên rất cần thiết xây dựng một mô hình kho dữ liệu phục vụ
đào tạo một cách tối ưu, giải pháp tối ưu nhất là xây dựng các kho dữ liệu cục bộ
tại các phòng, ban, khoa: trước hết nhằm phục vụ cho nhu cầu dữ liệu của chính
phòng, ban, khoa đó; sau đó có thể tiến hành tích hợp các kho dữ liệu cục bộ
thành kho dữ liệu thống nhất trong toàn trường. Mô hình kho dữ liệu phân tán sẽ
đáp ứng được những yêu cầu trên, nó giúp việc tổ chức lưu trữ và khai thác dữ
liệu một cách hiệu quả, từ đó xây dựng được hệ thống quản lý thông tin thống
nhất trong toàn trường.
Đó cũng chính là mục tiêu và nội dung báo cáo của nhóm 5. Với tên đề tài:
"Tìm hiểu về kho dữ liệu phân tán và ứng dụng trong các trường đại học", chúng
tôi mong muốn mang đến cho người đọc cái nhìn tổng quan về kho dữ liệu phân
tán và ứng dụng cụ thể của nó vào việc quản lý thông tin trong các trường đại
học.
Nội dung báo cáo gồm bốn phần chính như sau:
- Chương 1: Giới thiệu một số khái niệm cơ bản
- Chương 2: Giới thiệu mô hình kho dữ liệu phân tán
- Chương 3: Quy trình xây dựng và tích hợp kho dữ liệu phân tán ở các trường đại học.
- Chương 4: Tổng kết
Cấu trúc mở rộng của DM mở rộng làm cho nó linh hoạt hơn so với DM phụ thuộc. Nó
thường được lấy trong các tổ chức nhỏ hơn, thiếu nguồn để xây dựng một kho dữ liệu tập
trung, hoặc là những môi trường cần kết hợp lớn, nơi mà chúng có thể thay thế những kho dữ
liệu tập trung bị thất bại.
3
4
Hình 1: Data Mart phụ thuộc ( Dependent Data Mart)
1.4 Cơ sở dữ liệu phân tán ( Distributed Database)
Một CSDL phân tán là sự tập hợp dữ liệu phân tán về mặt luận lý, chúng cùng một hệ
thống nhưng được trải rộng ở nhiều nơi (site) của một mạng máy tính [5].
Định nghĩa này nhấn mạnh hai khía cạnh quan trọng như nhau của một
CSDL phân tán là:
Sự phân tán (Distribution): Dữ liệu không tập trung ở một nơi (hiểu theo
nghĩa bộ xử lý - processor), điều mà chúng ta có thể phân biệt với một CSDL
tập trung, đơn lẻ.
Sự tương quan luận lý (Logical correlation): Nghĩa là dữ liệu có những tích
chất liên hệ mật thiết với nhau, điều mà chúng ta phân biệt một CSDL phân tán
với một tập hợp các CSDL cục bộ ( local database) hoặc các tập tin thường trú ở
những nơi khác nhau của một mạng máy tính.
Các mức trong suốt phân tán ( distribution transparency): là tính độc lập của
chương trình ứng dụng đối với việc phân tán dữ liệu, ẩn đi các chức năng phân
tán từ phía người dùng. Trong hệ thống phân tán, yêu cầu về trong suốt vị trí đối
với người sử dụng dữ liệu là rất quan trọng, người dùng không cần biết dữ liệu
được lưu trữ vật lý ở đâu trong hệ thống mạng. Nếu có các data link cần thiết,
người dùng có thể truy cập vào đối tượng dữ liệu từ xa như thể trên máy cục bộ.
Vấn đề trong suốt phân tán được thực hiện thông qua phân mảnh dữ liệu: phân
rã các quan hệ toàn cục thành các mảnh, có thể thực hiện bằng cách áp dụng hai
loại phân mảnh khác nhau:
- Phân mảnh ngang (horizontal fragmentation):
- Phân mảnh dọc (vertical fragmentation):
Việc tích hợp dữ liệu giữa các nguồn đơn giản, dễ quản lý;
Thời gian đáp ứng các truy vấn nhanh.
7
Hình 4: Mô hình kho dữ liệu phân tán thuần nhất
Tuy nhiên, kho dữ liệu phân tán thuần nhất thích hợp đối với những hệ thống xây dựng
mới và có chiến lược từ đầu, còn với những hệ thống thừa kế dữ liệu từ các nguồn đã có thì
công việc chuyển đổi và tích hợp dữ liệu mất rất nhiều thời gian và phức tạp, đòi hỏi phải có
công cụ chuyển đổi.
2.2 Kho dữ liệu phân tán không thuần nhất (heterogenous Distributed Data Warehouses)
Kho dữ liệu phân tán không thuần nhất là kho dữ liệu mà trong đó các kho
dữ liệu cục bộ (DM) ở các nơi (site) có thể không dùng chung một hệ quản trị cơ
sở dữ liệu.
Kiến trúc kho dữ liệu phân tán không thuần nhất có một số ưu điểm sau:
Kế thừa được các nguồn dữ liệu ở các DM đã tồn tại;
Thích hợp cho các hệ thống xây dựng trên cơ sở mở rộng hệ thống đã có;
Tính tự trị cao.
Tuy nhiên hệ thống phân tán không thuần nhất gặp khó khăn trong việc tích
hợp, chuyển đổi cũng như công tác quản trị dữ liệu vì mỗi DBMS có cấu trúc dữ
liệu, ràng buộc, cách thức truy vấn , bảo mật dữ liệu khác nhau.
8
2.3. Quản trị kho dữ liệu phân tán
Nhiệm vụ chính để tạo lập và quản trị kho dữ liệu phân tán gồm các công
việc chính sau:
Chuyển đổi dữ liệu: Nhiệm vụ rất quan trọng khi khởi tạo một kho dữ liệu
là cho phép người quản trị có thể chuyển đổi dữ liệu từ các định dạng khác
nhau (MS Excel, MS Access, XML, SQL SERVER) từ các nguồn khác nhau
đã tồn tại trước đó về định dạng thống nhất.
Tích hợp dữ liệu: Chức năng tích hợp dữ liệu cho phép người quản trị dữ
liệu có thể tích hợp dữ liệu từ các Data Mart khác nhau trong công ty.
Nguyên tắc của tích hợp dữ liệu giữa các Data Mart là các Data Mart trao
nhiều so với kho dữ liệu tập trung và thường là các đơn vị đã có sẵn.
- Không giới hạn dữ liệu ở các kho cục bộ và ở kho toàn cục. Nếu lượng dữ liệu
trong kho vượt quá giới hạn cho phép của một tiến trình phân tán, thì một tiến
trình khác sẽ được thêm vào mạng.
- Việc truyền dữ liệu và các truy vấn nhiều bàng không gặp vấn đề lớn về công
nghệ.
2.4.2. Nhược điểm của kho dữ liệu phân tán
- Trong môi trường phân tán, người sử dụng sẽ gặp khó khăn trong các vấn đề
tích hợp dữ liệu, lọc dữ liệu, chuyển đổi dữ liệu, đồng bộ dữ liệu, vì dữ liệu
được phân tán ở nhiều nơi, mỗi kho cục bộ sử dụng các DBMS khác nhau nên
có công nghệ khác nhau, cấu trúc dữ liệu, ràng buộc dữ liệu, khác nhau.
- Nếu kho dữ liệu được trải rộng trên nhiều máy chủ thì sẽ tăng chi phí quản lý
dữ liệu và nhân lực quản lý.
- Có thể xảy ra tình trạng dư thừa dữ liệu nếu có nhiều DM cùng lưu trữ một số
dữ liệu như nhau.
- Trong môi trường phân tán, vai trò và trách nhiệm có thể không rõ ràng.
10
CHƯƠNG 3. QUY TRÌNH XÂY DỰNG VÀ TÍCH HỢP KHO DỮ LIỆU
PHÂN TÁN Ở CÁC TRƯỜNG ĐẠI HỌC
Nhìn chung, quy trình xây dựng và tích hợp kho dữ liệu phân tán ở các
trường đại học được thực hiện như sau:
1. Xác định các yêu cầu dữ liệu và các nguồn dữ liệu của các phòng, ban, khoa.
2. Xây dựng các Data Mart độc lập:
- Xác định các dữ liệu cần lưu trữ trong các Data Mart;
- Xác định các nguồn dữ liệu đã có và kế thừa;
- Xây dựng cấu trúc các Data Mart độc lập.
3. Tích hợp các DM độc lập từ các khoa, phòng, ban: Nắm được các Data Mart
chứa dữ liệu gì? Kiểu dữ liệu? Các yêu cầu trao đổi dư liệu giữa các Data
Mart,
4. Xây dựng kho dữ liệu chung để lưu trữ các dữ liệu được tích hợp từ các Data
môn
Sinh viên, giảng viên, điểm
sinh viên, chương trình đào
tạo, các lớp của từng khoa
SQL Server
Oracle
DB2
Không
3 Phòng hành
chính
Hồ sơ sinh viên, hồ sơ cán
bộ, các chế độ ưu tiên, hợp
đồng lao động, tài sản
MS Excel
MS Access
SQL Server
Không
4 Phòng tài vụ Học phí, chế độ miễn giảm
của sinh viên, lương, thu
nhập, chế độ ưu đãi của cán
bộ
MS Excel
MS Access
SQL Server
Chương
trình quản
lý lương
5 Phòng nghiên
cứu khoa học và
hợp tác quốc tế
nên khối lượng dữ liệu rất lớn, vì vậy cần chọn một DBMS có khả năng hỗ trợ
mạnh cho công tác lưu trữ, bảo trì dữ liệu. Một trong các DBMS hỗ trợ tốt nhất
cho việc này là Oracle.
14
CHƯƠNG 4. TỔNG KẾT
Qua quá trình tìm hiểu về kho dữ liệu và kho dữ liệu phân tán cho thấy đây
là giải pháp rất hiệu quả để tổ chức quản lý và triển khai các hệ thống thông tin
lớn trong môi trường ứng dụng công nghệ thông tin.
Các trường đại học là các đơn vị có nhu cầu xử lý dữ liệu lớn, khối lượng dữ
liệu lưu trữ nhiều, yêu cầu thường xuyên cập nhật, phân cấp giữa các khoa,
phòng, ban, Vì vậy việc ứng dụng kho dữ liệu phân tán vào các trường đại học
trở thành yêu cầu rất cần thiết cho sự phát triển và ứng dụng công nghệ thông tin
thống nhất trong toàn trường, góp phần giải quyết những khó khăn trong tổ chức
quản lý, thu thập, lưu trữ và sử dụng thông tin trong toàn trường. Là cơ sở để các
trường đại học lớn xây dựng hệ thống thông tin thống nhất nhằm đáp ứng yêu
cầu ngày càng cao trong công tác quản lý và giảng dạy của nhà trường, tạo môi
trường thuận lợi để nhà trường đẩy nhanh tiến trình xây dựng môi trường đào
tạo trực tuyến phù hợp với xu hướng phát triển của xã hội.
15
TÀI LIỆU THAM KHẢO
[1]. J. Bischoff & T. Alexander, Data Warehouse: Practical Advice from the
Experts, Prentice Hall, 2002
[2]. L. John, “Operational Data Stores: Building an Effective Strategy”, Data
Warehouse: Practical Advive from the Experts, Prentice Hall, NJ, 1997
[3]. W. H. Inmon, Building the Data Warehouse Third Edition
[4]. A. Moeller (2001), Distributed Data Warehousing Using Web Technology
[5]. M.Tamer Ozsu- Patrick Valduriez – Trần Đức Quang biên dịch (1999),
Nguyên lý các hệ cơ sở dữ liệu phân tán, tập I và II, NXB Thống kê.
[6]. />[7].