(Luận văn thạc sĩ) xây dựng hệ thống trợ giúp ra quyết định phục vụ công tác quản lý các đề tài nghiên cứu khoa học và công nghệ của các đơn vị trực thuộc bộ khoa học và công nghệ - Pdf 70

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI THỊ LIÊN HƯƠNG

XÂY DỰNG HỆ THỐNG TRỢ GIÚP RA QUYẾT ĐỊNH PHỤC
VỤ CÔNG TÁC QUẢN LÝ CÁC ĐỀ TÀI NGHIÊN CỨU
KHOA HỌC VÀ CÔNG NGHỆ CỦA CÁC ĐƠN VỊ TRỰC
THUỘC BỘ KHOA HỌC VÀ CÔNG NGHỆ

LUẬN VĂN THẠC SĨ

Hà Nội - 2010


2

MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. 1
DANH MỤC CÁC TỪ VIẾT TẮT .................................................................... 5
DANH MỤC CÁC BẢNG ................................................................................. 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................. 7
MỞ ĐẦU ........................................................................................................... 8
1. Lý do chọn đề tài: ....................................................................................... 8
2. Tổng quan tình hình nghiên cứu: ................................................................. 9
3. Mục tiêu nghiên cứu: ............................................................................... 11
4. Phạm vi nghiên cứu: ................................................................................. 11
5. Mẫu khảo sát: ............................................................................................ 12
6. Vấn đề nghiên cứu: ................................................................................... 12
7. Giả thuyết nghiên cứu: .............................................................................. 12
8. Phƣơng pháp chứng minh giả thuyết: ........................................................ 13

2.2.3. Hai mơ hình phân tích hệ thống có cấu trúc ................................. 34
2.2.4. Phương pháp luận xây dựng kho dữ liệu ...................................... 34
2.2.5. Công cụ thực hiện ........................................................................ 35
2.2.6. Bộ cơng cụ Microsoft SQL Server 2005 ........................................ 36
2.3. Phân tích, thiết kế hệ thống ................................................................ 36
2.3.1. Những yêu cầu chung về hệ thống ................................................ 36
2.3.2. Thiết kế cơ sở dữ liệu ................................................................... 37
2.3.3. Xây dựng mơ hình cấu trúc cơ sở dữ liệu ..................................... 40
2.3.4.
............................................................................... 40
2.4. Kết luận .............................................................................................. 41
CHƢƠNG 3. XÂY DỰNG KHO DỮ LIỆU VÀ GIẢI PHÁP XỬ LÝ PHÂN
TÍCH TRỰC TUYẾN ...................................................................................... 42
3.1.
......................................... 42
3.1.1. Phân tích hệ thống ....................................................................... 42
3.1.2. Phân tích chức năng ..................................................................... 42
3.1.3. Nội dung thơng tin cần khai thác .................................................. 44
3.1.4. Phân tích về dữ liệu ...................................................................... 45
3.2. Xây dựng các khối và các chiều cho giải pháp OLAP ......................... 47
3.2.1. Xây dựng tiến trình trợ giúp cho bài tốn ..................................... 47
3.2.2. Xây dựng các khối và các chiều cho OLAP .................................. 49
3.3 Kết luận .............................................................................................. 51
............................. 52
4.1.
............................................................................. 52
4.1.1.
.................................................................. 52
4.1.2.
................................................................... 52


CNTT & TT

Công nghệ thông tin và
truyền thông

KH&CN

Khoa học và Công nghệ

Database

CSDL

Cơ sở dữ liệu

Data warehouse

DW

Kho dữ liệu

Decision Support System

DSS

Hệ trợ giúp ra quyết định

Metadata


4. Hình 1.3.1. Các phép tốn OLAP
5. Hình 2.3.1. Sơ đồ quan hệ thơng tin đề tài nghiên cứu khoa học
6. Hình 3.2.1. Tiến trình trợ giúp
7. Hình 3.2.2. Mơ hình dữ liệu đa chiều
8. Hình 3.2.3. Mơ hình dữ liệu khối
9. Hình 4.1.2. Sơ đồ chi tiết cài đặt hệ thống
10. Hình 4.3.1. Tạo một Analysis Services Project mới
11. Hình 4.3.2. Xác định dữ liệu nguồn
12. Hình 4.3.3. Chọn dữ liệu để xử lý
13. Hình 4.3.4. Xác định bảng sự kiện và bảng chiều
14. Hình 4.3.5. Lựa chọn đơn vị đo
15. Hình 4.3.6. Phân tích và hiển thị dữ liệu của khối


8

MỞ ĐẦU
1. Lý do chọn đề tài:
Sự phát triển vượt bậc và không ngừng đổi mới của ngành CNTT&TT đã
và đang tác động mạnh mẽ, sâu sắc và toàn diện đến mọi mặt trong đời sống
chính trị, kinh tế, văn hóa, xã hội trên tồn thế giới. Cuộc cách mạng KH&CN
này đã và đang tạo ra cơ hội cho những biến đổi cơ bản và những thành công to
lớn của các nước trên thế giới. Trong vài thập kỷ gần đây, nhiều nước trên thế
giới đã nắm bắt được cơ hội ứng dụng CNTT&TT, tận dụng thế mạnh của nó để
thúc đẩy phát triển kinh tế-xã hội, tạo ra những bước đột phá, đưa đất nước tiến
mạnh lên phía trước.
Để hội nhập với xu thế phát triển chung của thế giới và các nước trong
khu vực, Bộ Chính trị đã ban hành Chỉ thị số 58-CT/TW ngày 17/10/2000 về
đẩy mạnh ứng dụng và phát triển CNTT phục vụ sự nghiệp cơng nghiệp hóa,
hiện đại hóa đất nước, trong đó đã khẳng định: “Ứng dụng và phát triển CNTT ở

trong hoạt động của cơ quan nhà nước giai đoạn 2009-2010. Tuy đã đạt được
một số kết quả nhất định nhưng vẫn còn tồn tại nhiều vấn đề bất cập cần giải
quyết trong việc triển khai các ứng dụng CNTT phục vụ công tác quản lý nhà
nước của Bộ KH&CN, đặc biệt là tổ chức quản lý các chương trình, đề tài
nghiên cứu khoa học. Cho đến nay, Bộ KH&CN vẫn chưa xây dựng được “Hệ
thống trợ giúp ra quyết định hỗ trợ cơng tác quản lý các chương trình, đề tài
nghiên cứu khoa học” để tạo ra một công cụ đảm bảo việc cung cấp thông tin
đầy đủ, kịp thời và chính xác, nâng cao một bước hiệu quả cơng tác quản lý nhà
nước về hoạt động nghiên cứu KH&CN theo hướng hình thành Bộ KH&CN
điện tử (e-MOST), góp phần đưa KH&CN trở thành động lực thúc đẩy phát triển
kinh tế-xã hội. Do vậy, việc nghiên cứu xây dựng “Hệ thống trợ giúp ra quyết
định hỗ trợ công tác quản lý chương trình, đề tài nghiên cứu khoa học” để hỗ trợ
việc lựa chọn tổ chức và cá nhân chủ trì thực hiện các nhiệm vụ KH&CN phù
hợp, góp phần nâng cao năng lực quản lý các nhiệm vụ nghiên cứu triển khai
của Bộ và gắn kết hoạt động nghiên cứu khoa học với thực tiễn sản xuất đang là
một nhu cầu rất cấp thiết hiện nay.
2. Tổng quan tình hình nghiên cứu:
Chính phủ của nhiều nước trên thế giới đã triển khai xây dựng các hệ
thống thông tin điện tử phục vụ công tác quản lý từ những năm 1980. Từ những
năm 1990, mạng Internet phát triển thành xa lộ thơng tin tồn cầu, nhiều nước
trên thế giới đang phát triển mạnh xu hướng tích hợp các cơ sở dữ liệu (CSDL)
để xây dựng các hệ thống hỗ trợ ra quyết định nhằm đáp ứng các yêu cầu thống
nhất nội dung thông tin và trao đổi dữ liệu trên diện rộng. Các hệ thống hỗ trợ ra
quyết định này đã và đang được áp dụng ở nhiều nước có nền công nghiệp
CNTT phát triển như: Mỹ, Canada, Đức, Anh, Pháp, Ấn Độ, Hàn Quốc,
Singapore... và hoạt động rất hiệu quả trong các lĩnh vực an ninh quốc phòng,
quản lý đất đai, dân cư, y tế.... trên nền tảng của các hệ quản trị CSDL như: MS
SQL Server, Oracle, Sybase... Đặc biệt, trong thập kỷ vừa qua, khi mà công
nghệ Internet tốc độ cao ngày càng phát triển và thâm nhập vào mọi mặt của đời
sống xã hội thì việc xây dựng các hệ thống hỗ trợ ra quyết định lại càng đóng vai

vậy, các thông tin của các CSDL này hầu như không được chia sẻ và hiệu quả
rất hạn chế.
Chính vì vậy, việc xây dựng hệ thống thơng tin tích hợp phục vụ công tác
quản lý nhà nước về KH&CN đang là một trong các nhiệm vụ trọng tâm, ưu tiên
của Bộ KH&CN trong giai đoạn hiện nay. Đặc biệt là ứng dụng CNTT để xây
dựng hệ thống CSDL tích hợp phục vụ công tác quản lý, thống kê các nhiệm vụ
KH&CN của Bộ, hỗ trợ công tác xây dựng kế hoạch và quản lý hoạt động
nghiên cứu và phát triển KH&CN. Hệ thống thông tin này không những phải
đáp ứng tốt yêu cầu quản lý các nhiệm vụ KH&CN mà còn hỗ trợ công tác tư
vấn ra quyết định giao chỉ tiêu kế hoạch hàng năm, lựa chọn tổ chức và cá nhân
chủ trì thực hiện nhiệm vụ KH&CN đồng thời sẽ góp phần nâng cao năng lực


11

quản lý các nhiệm vụ nghiên cứu triển khai của Bộ KH&CN. Hệ thống trợ giúp
ra quyết định này cần được thiết kế và xây dựng dựa trên các công cụ phát triển
phần mềm tiên tiến, phù hợp với xu thế ứng dụng CNTT hiện nay trên thế giới;
sử dụng công cụ phát triển phần mềm trên web là ASP.NET và CSDL tích hợp
được quản lý, lưu trữ trên cơ sở hệ quản trị dữ liệu MS SQL Server với hệ thống
bảo mật thông tin cao. Hệ thống trợ giúp ra quyết định cần được xây dựng trên
cơ sở khai phá dữ liệu trong các CSDL quản lý các đề tài nghiên cứu KH&CN
đã có sẵn tại Bộ KH&CN. Hệ thống có khả năng phân tích dữ liệu theo u cầu
truy vấn trực tiếp hoặc theo các kịch bản có sẵn để cung cấp cho các nhà quản lý
các thông tin đầy đủ về cơ quan và cá nhân chủ trì, về quá trình phê duyệt nhiệm
vụ, về tiến độ triển khai thực hiện, về các kết quả và kinh phí… của các chương
trình, đề tài nghiên cứu KH&CN để cơ quan quản lý có thể nắm bắt được thực
trạng tình hình thực hiện; trên cơ sở đó sẽ đánh giá và quyết định việc cho phép
tiếp tục thực hiện hay buộc phải dừng lại đồng thời hệ thống sẽ hỗ trợ việc lựa
chọn triển khai các đề tài nghiên cứu mới mà không bị chồng chéo, trùng lặp với

Cài đặt và đánh giá kết quả thử nghiệm chương trình hỗ trợ cơng tác quản
lý các chương trình, đề tài nghiên cứu khoa học tại Bộ KH&CN.
5. Mẫu khảo sát:
Các đơn vị trực thuộc Bộ KH&CN.
Kết quả triển khai dự án Tin học hóa quản lý nhà nước tại một số Bộ,
ngành Trung ương.
6. Vấn đề nghiên cứu:
Hiện trạng ứng dụng CNTT trong công tác quản lý các nhiệm vụ nghiên
cứu và phát triển của Bộ KH&CN hiện nay như thế nào?
H thống
(Decision Support System) và các giải pháp
xây dựng CSDL tích hợp của hệ thống, hình thành kho dữ liệu, tối ưu hóa
như thế nào?
nghiên cứu khoa học

công tác
&CN thế nào là phù hợp?

7. Giả thuyết nghiên cứu:
Hiện trạng phát triển ứng dụng CNTT phục vụ công tác quản lý tại Bộ
KH&CN:
Hạ tầng cơ sở kỹ thuật có khả năng đáp ứng cơ bản cho việc triển khai các
dự án ứng dụng CNTT phục vụ công tác quản lý. Một số ứng dụng CNTT đã
được triển khai thực hiện phục vụ công tác quản lý, chỉ đạo, điều hành của Lãnh
đạo Bộ cũng như chuyên môn, nghiệp vụ của chuyên viên. Một số dịch vụ công
đã được xây dựng tuy mới ở mức sơ khai. Nhận thức của cán bộ, cơng chức về
vai trị và tác dụng của CNTT được nâng cao... Tuy nhiên, việc ứng dụng CNTT
để nâng cao năng lực điều hành, quản lý, phục vụ người dân và doanh nghiệp tại
Bộ KH&CN chưa thực sự hiệu quả, chưa đạt mục tiêu đề ra do Chính phủ quy
định.

Một số thông tin hỗ trợ ra quyết định: Kiểm tra đề tài/dự án như vậy hoặc
tương tự đã được đăng ký hay thực hiện chưa, từ đó quyết định cho phép/khơng
cho phép thực hiện đề tài/dự án đăng ký; Đánh giá hiệu quả thực hiện nhiệm vụ
trong những năm trước của một đơn vị để ra quyết định xét duyệt/loại bỏ nhiệm
vụ không hiệu quả/trùng lặp của những năm tiếp theo; Đánh giá hiệu quả triển
khai kinh phí cấp cho thực hiện nhiệm vụ tại đơn vị hàng năm, từ đó quyết định
mức kinh phí sẽ cấp những năm tiếp theo.
8. Phƣơng pháp chứng minh giả thuyết:
Đề thực hiện các nội dung nghiên cứu, các phương pháp nghiên cứu sau
sẽ được sử dụng:
Phương pháp nghiên cứu tài liệu: Thu thập và nghiên cứu các tài liệu liên
quan về kết quả triển khai ứng dụng CNTT vào công tác quản lý nhà nước, các
bài báo khoa học, các văn bản quy phạm pháp luật liên quan.


14

Phương pháp điều tra: Để xác định thực trạng việc ứng dụng CNTT trong
công tác quản lý nhà nước tại Bộ KH&CN, đề tài đã tiến hành điều tra khảo sát
29 đơn vị trực thuộc Bộ KH&CN thuộc các khối quản lý nhà nước và đơn vị sự
nghiệp.
Phương pháp thiết kế hệ thống: Thiết kế và xây dựng hệ thống trợ giúp ra
quyết định hỗ trợ công tác quản lý các chương trình, đề tài nghiên cứu khoa học
9. Kết cấu luận văn:
Kết cấu của bản Luận văn gồm những nội dung chính sau:
Mở đầu;
Chương 1: Tổng quan;
Chương 2: Phân tích, thiết kế hệ thống trợ giúp ra quyết định hỗ trợ quản
lý hoạt động KH&CN;
Chương 3: Xây dựng kho dữ liệu và giải pháp xử lý phân tích trực tuyến;

tương tác người máy, các phương pháp mô phỏng, công nghệ phần mềm và
truyền thông.
1.1.2. Phân loại hệ trợ giúp ra quyết định
Các tác giả khác nhau đưa ra các cách phân loại khác nhau. Sử dụng mối
liên kết với người dùng như một tiêu chí đánh giá, Haettenschwiler đã phân tách
hệ hỗ trợ quyết định thành các loại: hệ hỗ trợ quyết định bị động, chủ động và
kết hợp. Hệ bị động là hệ thống trợ giúp cho tiến trình ra quyết định nhưng
không thể cung cấp giải pháp hay tư vấn rõ ràng cho quyết định. Hệ chủ động có
thể khắc phục được điều đó. Hệ kết hợp cho phép người ra quyết định sửa đổi,
hoàn thành hay cải tiến những tư vấn quyết định do hệ thống cung cấp trước khi
gửi đi kiểm tra. Sau khi hệ thống xem xét các thông tin của người ra quyết định
gửi đến sẽ sửa đổi, bổ sung và gửi lại để người ra quyết định kiểm tra lần nữa.
Quá trình trên sẽ lại được bắt đầu lại từ đầu cho tới khi đưa ra được các giải
pháp thống nhất.


16

Daniel Power cũng có cách phân loại khác cho hệ hỗ trợ quyết định. Sử
dụng mơ hình trợ giúp như tiêu chuẩn phân loại, Power phân chia hệ hỗ trợ
quyết định thành hệ hỗ trợ quyết định hướng giao tiếp, hệ hỗ trợ quyết định
hướng tài liệu, hệ hỗ trợ quyết định hướng tri thức và hệ hỗ trợ quyết định
hướng mơ hình:
- Hệ hỗ trợ quyết định hướng mơ hình (Model-driven DSS) tập trung vào
truy nhập và thao tác trên mơ hình thống kê, tài chính, tối ưu hoặc mơ phỏng. Hệ
hỗ trợ quyết định hướng mơ hình sử dụng dữ liệu và các tham số do người dùng
cung cấp để trợ giúp cho người ra quyết định trong việc phân tích tình huống, hệ
thống này khơng cần phải có nhiều dữ liệu.
- Hệ hỗ trợ quyết định hướng giao tiếp (Communication-driven DSS) hỗ trợ
trong trường hợp nhiều người cùng làm 1 cơng việc, trong đó sử dụng các cơng

(c) một hệ thống đích mơ tả các điểm chính của thành phần liên quan;
(d) tri thức thu lượm từ các nguồn dữ liệu bên ngồi, các CSDL tri thức,
CSDL cơng việc, các kho dữ liệu và siêu cơ sở dữ liệu, các mô hình và
phương pháp tính tốn, các thủ tục, các máy tìm kiếm, các chương trình
quản trị và hệ thống báo cáo;
(e) mơi trường hoạt động để chuẩn bị, phân tích và xây dựng tài liệu cho
các phiên bản quyết định.
Theo Arakas dự kiến một cấu trúc chung có 5 thành phần
(a) Hệ thống quản lý dữ liệu
(b) Hệ thống quản lý mơ hình
(c) Máy tri thức
(d) Giao diện người dùng
(e) Người dùng
1.2.

Kho dữ liệu (DW)

1.2.1. Dữ liệu tác nghiệp
Hệ thống OLTP cho phép các giao dịch thay đổi dữ liệu trong bảng (ví dụ
bằng các lệnh insert, update, delete, join...) trong quá trình xử lý. Hệ thống cho
phép nhiều ứng dụng truy cập dữ liệu cùng một thời gian.
Các ứng dụng trên client bao gồm tất cả các loại ứng dụng như ngân hàng,
bán vé trực tuyến, bán vé hàng khơng, thanh tốn cước phí... Sử dụng hệ thống
OLTP có các ưu điểm sau:
- Xử lý các tương tác.
- Dễ bảo trì và khống chế dữ liệu thừa.
- Thiết lập dữ liệu quan hệ trọn vẹn.
- Tính hiệu quả cao.
- Giảm thời gian của khách hàng.
Các CSDL trong các hệ OLTP thường được thiết kế thoả mãn 3NF (Third

Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra
một hệ thống chứa đầy đủ thơng tin. Tuy nhiên giải pháp này có hai nhược điểm
lớn:
- Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần
mềm hệ thống. Các chương trình cần có sự thống nhất về định nghĩa dữ liệu
cũng như phương pháp biểu diễn dữ liệu. Vấn đề này rất phức tạp thậm chí đối
với các hệ thống có thiết kế phân tích tốt và hồn tồn khơng khả thi đối với
những hệ thống được mơ tả kém.
- Khi thực hiện các truy vấn để tạo báo cáo thường xuyên phải khoá rất
nhiều bảng, cản trở sự truy xuất của nhân viên khai thác trong quá trình làm việc
hàng ngày và làm ảnh hưởng trực tiếp đến khách hàng.


19

1.2.2. Khái niệm về kho dữ liệu
Là một cách tiếp cận do B.Inmon đề xướng vào những năm 90 của thế kỷ
trước. Đây là sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data
Warehoushing - kỹ thuật xây dựng các kho dữ liệu. Kho dữ liệu được định nghĩa
như một tập hợp các phương tiện cho phép hình dung dữ liệu một cách tổng thể,
hướng đối tượng để giúp cho việc phân tích và ra quyết định.
Những người đầu tiên đưa ra ý tưởng về kho dữ liệu xác định rằng tiến hành
phân tích trực tiếp trên dữ liệu của các hệ xử lý giao dịch không hiệu quả. Các
dữ liệu từ một vài OLTP cần phải được biến đổi và sau đó đưa vào một nơi lưu
trữ dữ liệu duy nhất. Quá trình này được gọi là đưa dữ liệu vào kho dữ liệu, gồm
các cơng đoạn chính sau:
- Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng)
- Liên kết các số liệu (tính trước số liệu tích, tổng, trung bình ...)
- Biến đổi dữ liệu: số liệu được biến đổi thành dạng thích hợp, tổ chức lại
phù hợp với kho dữ liệu

- Khơng có sự chia sẻ thơng tin (Lack of Information Sharing)
- Các nhóm làm việc khác nhau đưa ra những báo cáo trái ngược nhau
- Tạo nên những báo cáo kém hiệu quả
- Tạo nên những báo cáo thiếu sự cập nhật, những báo cáo không hỗ trợ
cho các trường hợp khơng dự đốn trước
Khơng đưa ra được những báo cáo có dữ liệu mang tính lịch sử
Kho dữ liệu là sự tích hợp các dữ liệu từ các OLTP khác nhau nhằm tập hợp
dữ liệu phục vụ q trình phân tích hoạt động kinh doanh nên dữ liệu trong một
hệ thống kho dữ liệu cần thoả mãn một số yêu cầu chính sau:
- Hướng chủ đề: Các hệ thống OLTP có thể chứa hàng trăm giga byte số
liệu, tuy nhiên những số liệu này có thể hồn tồn vơ ích trong việc phân tích
trực tuyến (VD: Địa chỉ, ID khách hàng...). Các dữ liệu kiểu này thường không
được đưa vào kho dữ liệu để hạn chế dữ liệu cần xem xét xuống mức tối thiểu
nhưng cũng bảo đảm các thông tin theo từng vùng chủ đề (Subject area).
- Số liệu có tính lịch sử: Dữ liệu của hàng chục năm được lưu trữ nhằm phát
hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần quan tâm
trong một thời gian dài.
- Số liệu chỉ đọc: Dữ liệu đưa vào kho dữ liệu chỉ để đọc, việc sửa dữ liệu
hầu như khơng được tiến hành do nó có thể dẫn đến phá vỡ sự tồn vẹn. Thơng
thường người ta khơng yêu cầu giảm thời gian đưa dữ liệu vào kho dữ liệu tới
mức tối thiểu, nhưng cần tối ưu hoá kho dữ liệu sao cho các truy vấn phục vụ
cho việc phân tích đạt tốc độ tốt nhất. Các sơ đồ quan hệ sẽ tạo ra các Index hợp
lý cũng như tạo ra sẵn các dữ liệu kết hợp.
- Số liệu không biến động: Thông tin trong kho dữ liệu được tải vào sau khi
dữ liệu trong hệ thống điều hành được cho là quá cũ. Không biến động thể hiện
ở chỗ: Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu
mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xố, điều đó cho phép


21

Cấu trúc của một kho dữ liệu cho phép người xây dựng và người khai thác
có cái nhìn tổng qt về các bộ phận cấu thành nên kho dữ liệu. Sau đây là kiến
trúc tham chiếu điển hình. Một kiến trúc tham chiếu điển hình bao gồm các lớp
và các khối, trong đó các thành phần của một khối nằm trong một hạ tầng máy
tính thống nhất. Các lớp cho phép tổ chức việc xây dựng kho dữ liệu được linh
hoạt với đội ngũ nhân viên ở các lĩnh vực hoạt động khác nhau.


22

Hình 1.2.1 Cấu trúc kho dữ liệu
Các khối bao gồm:
- Khối các nguồn dữ liệu
- Khối tạo dựng kho dữ liệu
- Khối tạo dựng kho dữ liệu cục bộ
- Khối truy nhập và sử dụng
Các lớp được chia thành
- Lớp quản lý dữ liệu
- Lớp quản lý siêu dữ liệu
- Lớp chuyển tải dữ liệu
- Lớp kết cấu hạ tầng
Việc nắm vững cấu trúc khối và lớp cho phép ta linh hoạt trong việc triển
khai các hệ thống kho dữ liệu trên thực tế. Tuỳ nhu cầu và khả năng tài chính,
chúng ta có thể xuất phát từ việc xây dựng các kho dữ liệu cục bộ (các
Datamart) trước để có thể khai thác ngay số liệu theo từng chủ đề. Một cách xây
dựng khác là tổ chức kho dữ liệu tổng thể trước, sau đó sẽ tổ chức các Datamart.
Mỗi phương án đều có những ưu điểm và nhược điểm riêng. Trên thực tế, tuỳ
điều kiện cụ thể, chúng ta có thể chọn giải pháp triển khai thích hợp.
Ngồi ra, các kho dữ liệu trên từng lĩnh vực khác nhau cũng có nhiều đặc
điểm riêng do mỗi lĩnh vực có đặc thù dữ liệu riêng.


Chi nhánh
Bảng chiều

Bán hàng
Bảng sự kiện
thời gian#
chi nhánh#
hàng#
địa điểm#
tiền
số l-ợng

chi nhánh#
tên
loại

hàng#
tên
loại
mác
cung cấp
Địa điểm
Bảng chiều
địa điểm#
tỉnh
huyện

Hỡnh 1.2.2 Sơ đồ hình sao
Sơ đồ hình sao cải thiện đáng kể thời gian truy vấn, cho phép thực hiện một

Bảng sự kiện
thời gian#
chi nhánh#
hàng#
địa điểm#
tiền
số l-ợng

chi nhánh#
tên
loại

Hàng
Bảng chiều
hàng#
tên
loại
mác
nhà cung cấp#
Địa điểm
Bảng chiều
địa điểm#
tỉnh#

Nhà cung cấp
Bảng chiều
nhà cung cấp#
cung cÊp

TØnh

bằng cách xác định khung nhìn quan hệ trên các bảng dữ liệu trong dữ liệu
nguồn (bao gồm các cơ sở dữ liệu tác nghiệp và các nguồn dữ liệu bên ngoài
khác). Tải dữ liệu là việc xây dựng các khung nhìn như vậy và lưu trữ chúng
trong kho dữ liệu. Không giống như các khung nhìn chuẩn trong hệ quản trị cơ
sở dữ liệu quan hệ, khung nhìn lưu trữ trong kho dữ liệu khác với cơ sở dữ liệu
chứa trong các bảng nó xác định trên đó.
Những q trình tiền xử lý bổ sung như sắp xếp và sinh ra thơng tin tóm tắt
cũng được thực hiện trong giai đoạn này. Dữ liệu được phân chia và đánh chỉ số
để tăng hiệu quả sử dụng.
3: Sau khi dữ liệu đã vào kho, cần xác định đơn vị đo để đảm bảo dữ
liệu trong kho thường xuyên được cập nhật so với dữ liệu nguồn. Ở đây cần phải
chú trọng vấn đề kết nối để đảm bảo các bảng dữ liệu trong kho luôn được làm
mới và duy trì các bản sao của các bảng dữ liệu không đồng bộ trong hệ quản trị
cơ sở dữ liệu phân tán. Duy trì các bản sao của các quan hệ nguồn là một phần
quan trọng trong kho dữ liệu và phạm vi ứng dụng là nhân tố quan trọng trong
tính phổ biến bản sao khơng đồng bộ mặc dù trong thực tế bản sao không đồng
bộ trái với nguyên tắc của dữ liệu phân tán độc lập.
4: Một việc quan trọng nữa trong quá trình duy trì kho dữ liệu là theo
dõi dữ liệu đang được lưu giữ trong kho dữ liệu. Vấn đề này được giải quyết
bằng cách lưu trữ thông tin dữ liệu trong kho thông qua các danh mục hệ thống.
Các danh mục hệ thống nếu lưu trữ cùng với kho dữ liệu thì rất lớn, do đó nó
được lưu trữ trong một cơ sở dữ liệu riêng gọi là metadata repository. Kích
thước và độ phức tạp của các danh mục chủ yếu phụ thuộc vào kích thước và độ
phức tạp của kho dữ liệu.
1.3.

Xử lý dữ liệu trực tuyến (OLAP)

1.3.1. Lý do sử dụng OLAP
- Các ứng dụng OLAP chủ yếu tập trung vào các truy vấn phức tạp, đặc


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status