0— L
ĐẠI 1IỌC ọ u o c GIA 1IA NỌI
TRƯỜNG d a i h o c ( ô n c n g h é
• •
•
PHAN NHẢT KIÊN
•
T ÍC H H O P D Ủ L IÊ U , K H O DŨ L IÉ U VÀ Ử N G D U N G
TRONG LĨNH v ự c QUẢN LÝ TÀI CHÍNH CÔNG
Ngành: Công nghệ thông tin
Ma số: 1.01.10
LUẬN VĂN THẠC sĩ
NGƯÒI HƯỚNG DÁN KHOA HỌC
rs. ĐỎ VÃN THÀNH
DAI H O C Q U Ố C GIA HẢ N Ò
ĨRUNG TÀM THÔNG TIN ÌHƯ VlẺN
V - LO/
1 là Nội - 2008
1
MỤC LỤC
DANII MỤC CÁC KÝ I III l i. c Ác (I lữ VIH'r I A I
3
DANH MỤC CÁC BẠNCì mi I 4
l)ẠNI I MỤC CÁC HÍNII VI'. DÓ TIIỊ 5
M( ) DẢU
.
7
CHƯƠNG l-TÍCII lỉỢPDĨTl II;.u VÀ KHO DƠI.II.U y
1. rích hợp dừ liệu
/. I Khái niệm lích hợp (ỉữ liệu l)
1.2 Lịch sư phát iriên cua licit hợp (lữ liệu
CHƯƠNG III - ỬNG DỤNíi XẢY DỤÌMG cơ SỜ Dfr l.lị:n CHỦ l)Ẻ Độc I.ẠP TRONCi
QUẢN LÝ TẢI CHÍNH CÒN(Ỉ
.
58
1. Cìiới thiệu vân đè 58
2. Mục tiêu xây dựng cơ sớ dữ liệu cluì dề về thu - chi ngân sách
58
3. Yêu cầu cùa cơ sờ dù' liệu chù đò VC thu - chi ngân sách 59
J. / Yên cần Ví' liệ tlionịỉ chi tien 59
3.2 Yêu cầu khi thiẻl ké cơ sơ dừ liệu 59
3.3 Yêu can ve chia Iiãnịỉ vua ( SDL và kha nàng mớ rộng, nàng cap
.
60
4. Xây dựntỉ hệ thống chi tiêu thu - chi ngàn sách
61
5. Thiel kế Cơ sờ dừ liệu clui dề về thu - chi ngân sách 62
5.1 Mò hình phân rà chức nàng 62
5.2 Mỏ hình cỉữ liệu 64
6. Một so chức năng chu yếu cua C SD1. chú đề về thu - chi lìgân sách
65
7. két luận 79
KÍ T I.UẬN CỈIUNG 80
IÀI I ll.iirilIAM KHẢO SI
PIIỤ I ỤC 82
DANH MỤC CÁC KÝ HIẸU, CÁC CHỪ VIÈT TÁT
K\' hiệu
Lien hợp quốc
MDGs
Millenium Development Goals - Các mục liêu phát triên thiên niên ky
MOLAP
Multidimensional-OI.AP - Xứ lý phân tích trực tuyên kiêu đa chiêu
NSNN
Ngân sách Nhà nước
OLAP
Online Analytical Processing - Xư lý phân tích trực tuyến
OI I P
Online Transaction Processinii - Xứ lý giao dịch trực tuyến
PTBV
Phát tricn bền vừng
KOI .AI’
Relational-* M AP - Xù lý phân tích trục tuyến kiểu quan hệ
DANH MỤC CÁC BẢNG BIẾU
Tồn há 11 «Ị
Bang I : So sánh CSDI tác imhiộp và Kho dừ liệu
Bang 2: So sánh các hộ thốnii OI I P và OLAI’
s
DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ
Tên hình vẽ Trang
I linh I : Biêu dỏ dơn uián cua một kho dừ liệu 9
Hình 2: lỉiêu đỏ niai pháp tích hợp dữ liệu iheo kiêu liên kết lỏng 10
Hinh 3: Mô tá khônu gian ban ụhi cùa các ánh xạ (iAV \á L.AV 13
I lĩnh 4: Mỏ ta quá trình từ dừ liệu don thực hiện ra quyết định 16
Hình 5: Minh hoạ khái niệm lích hợp và chuyên dôi thông tin dữ liệu
từ các CSDL tác ntỉhiệp vào Kho dữ liệu 21
Mình 6: Kiến trúc Kho dù liệu 25
I linh 7: Mò ta mô hình Kho dừ liệu trường hợp 3 chiểu 28
I lình 37: Màn hình dừ liệu sau khi kết xuất ra Líxcel 76
Hình 38: I rinh bá\ két quá phân tích trorm PowerPoint 77
I linh 39: Minh hoạ chức năng hướng dẫn sir dụng CSDL chủ dể 78
6
7
MỞ ĐÁU
Níià\ nay. nhân loại lia 11 li dirim trước một nuliịch l>' là có rất nhièu clĩr liệu
nhirnu lại dõi ihônsỉ tin. Quá trình nỗ lực lîiai tjlivct níỉhịch lv nà) dà dần đến
hình thành một xu lurỡnii nghiên cửu và ứng tiụnu dang rat phô bien và sôi ilộníí
troníi the giới CNTT hiện nay. dó là van lie phát hiện Iri thức từ các cơ sờ dừ
liệu (Knowledge Discovery in Databases - KI)D).
Ọuá trình K.DD ạỏm nhiều iiiai đoạn, tronii dó có hai 2 Ìai doạn quan trọnc
nhất, dó là: xâ\ dựnc kho dữ liệu (Data Warehousing) và khai phá dừ liệu (Data
Vlininụ). Xâ\ dựng kho dừ liệu là iìiai đoạn dâu tien của quá trình KDD. Mục
dich cua giai đoạn nàv là \â \ dựnc một loại cơ sở dữ liệu (CSI)I.) khôna chuẩn
hoá, liru trừ dừ liệu tích hợp, có uiá trị lịch sư và dược chiết xuất từ nhiều nguồn,
lừ nhiều CSDL khác nhau. Các CSDL này nói chIInu thirờnẹ dược phát triển
trên nền các hệ quàn trị CSDI. khác nhau. Vì vậy khi xây dựng kho dừ liệu
tlurờnu phai nghiên cửu ííiai qu\ểt vấn dề tích hợp các hệ thốnu thông tin liên
quan bao gồm cá tích hợp hệ thốnạ phần ciriiũ. phần mềm và dừ liệu.
Luận văn này tập trunẹ chú yếu vào việc kháo cứu những vấn dề I iên quan
đến lích hợp dữ liệu; kiến trúc và các thành phần cơ bản cùa kho dừ liệu: khai
phá dìr liệu, và ứnu dụnii nhừng kiến thức dược kháo cứu để thứ nghiệm xâ\
dựng một loại kho clừ liệu, dó là CSDL chú dề dộc lập (Data Mart), trong lĩnh
vực tài chinh cône ữ Việt Nam.
♦ V» •
l.uận vãn gôm có 3 chương nội dung, không kê các phần mở dầu. kết luận,
lài liệu tham khảo và phụ lục:
• Chương ! - Tíc h lìựp dữ liệu và kho (lừ liệu. Trình bày các khái niệm, lý
tluiyết cơ ban và các van đề liên quan dến tích hợp dữ liệu và kho dữ liệu.
liệu. Nó đà trớ thành tiêu diếm cùa rất nhiều học thuyết và các vấn đẻ mơ còn
can dược uiai íỊUvet. Trong thực hành, tích hợp dữ liệu thườn ụ dược gọi là lích
hợp thâmỉ tin doanh nghiệp {Enterprise information Integration).
1.2 Lịcli sử phát irìên cua tích họp dữ liệu
Ngà) nay. tích hợp dữ liệu khônu còn là van đe mới me. l ừ những năm
1960. sau khi các CSDL xual hiện phô bien và dược sư dụnu một cách rộng rãi.
dà dần dcn nhu cầu chia sẻ hoặc tích hợp các CSDL. Việc tích hợp có thề dược
thực hiện ở nhiều cấp độ trong kiến trúc của CSDL. và một trong nhữ na phươnii
pháp phô biên là xây dựng kho dữ liệu (Data Warehousing - xem hình I ). Ở đó.
dừ liệu từ nhiều niiuồn khác nhau dược trích chọn, clìiiãn hóa và nạp {Extract,
Transform, Load ~ gọi tat là tiến trình ETL) vào một imuồn. và có thế được truv
vấn với một lược dồ dơn lé.
ỉ/ình I : Bien
i1ồ
(lơn gian cua một kho dữ liệu.
Thông Ún từ các c 'SOI. nịỉitòn íhrực Iríclì chọn, clinân hóa và nạ/) vào kho (lữ liệu
Vê mặt kiến trúc. ílà\ cô thô dược \C111 Iilur một pluronu pháp liên kôt chặl
bơi \ì dữ liệu cùng dược tập irune trôna một kho đơn nhât tại thời diêm truy
vấn. Nluriiü van dề phát sinh dối với phươnu pháp Iiàv là khônu dám báo dược
tinh cập nhật tức thòi cua dừ liệ u (\í dụ khi một I1ÜUÔI1 dữ liệu UOC được cập
nhật mới. nhirnti trona kho dữ liệu vần chứa dừ liệu cù hơn), dần liên lien trình
í: I I cần phai dược thi hành lại nhiều lần. Niioài ra. cũna khó có thê xây tiựnu
các kho dừ liệu khi chúnạ ta chi có một niao diện lm\ vấn lới các nmiòn dữ liệu
mà khônu truy cập tới dừ liệu dầy dù.
Tronu nlũrna năm aần đây. việc tích hợp dữ liệu có xu hướng nới lòna liên
kết aiừa các dừ liệu. Y urơrm ỡ đây là cun lí cấp một aiao diện tru\ vân dons
nhài thôn*! qua một lược đo trung gian hay còn uọi là CSDL ào (xem hình 2).
10
Vò bọc
Vó bọc
* w • w w W • c
<r
Ihôrm tin khác nhau về các thành phố như: ihốns kè tội phạm, thời tiết, khách
sạn. nhân khâu, v.v Theo cách truyền thống, thì các thông tin pliai tồn tại iront»
một CSDL dơn nhất với một lược đồ đơn nhất. Tuy nhiên, một số lirợnu Ihônu
tin đa dạnu nhir vậy rat khó và rất tốn kém đê cỏ thê tập hợp tronụ một tô chức
dơn nhất. Thậm chí nếu có ton tại các nuuon thôíiíi tin dể tập hợp dìr liệu, thi
cũ nu sò dẫn đến cỏ thè bị trùnii lập dữ liệu trong các CSDI. tội phạm, các trang
uch vè thời tiết, và các dừ liệu dân số.
Một eiái pháp tích hợp dừ liệu cho van de nàv lù coi các nguồn dừ liệu bên
ngoài đó như là các khunu nhìn thông qua một lược dồ trune Ilian ào. Diều nà>
có nuhĩa là nhừnu nairời phát triển ứng tlụim sẽ xây dự'liu một lược dồ dế mô
hình hóa một cách tốt nhất các loại câu tra lời mà nsười sứ dụng cùa hụ monu
muốn. Lược dồ áo nàv được ạọi là lược đồ tnmg %ian (mediated schema). ! icp
tlico. họ sẽ thiết ke các vo bọc (wrappers) hoặc các bộ điẻii hợp (adapters) cho
mồi Iiíiuồn dữ liệu, cliánu hạn như CSDI tội phạm và trang ueb thời tiêt. Các hộ
dieu hợp nà\ ch 1 dơn uian là cluiãn hóa các kết qua lm\ \ ân cục bộ (dược tra vè
bơi riêna ùrnii tra nu \vcb hoặc limu CSDI ) thành một dạng dồ \ư K cho Irunu
w c > s-
y
*—
tàm lích hợp dừ liệu (\cni hình 2). Khi một iiLurời sư dụng irne dụnu tru\ vân
lược dỏ Irunu tiian. Irung tâm tích hợp dữ liệu sẽ chuân hóa iruy vân nàv thành
các truy vấn thích hợp cho ùrnu nuuôn dừ liệu riêng lè. Và cuôi cùng, các kct
qua cua các truy vấn này sẽ dược kết hợp thành một câu tra lời cho truy van cùa
nmrời sử dụnụ.
Một lợi ích cua íiiái pháp nà\ lù các nuuôn dữ liệu mới có thê được hô SUI1Ỉ2
một cách đơn gian bans cách xây dựnạ một bộ diều hợp cho chium. Điều này
Iirơna phan với các hệ thonu I I I. hoặc một íiiái pháp CSDL dơn nhất, trorm dỏ
toàn bộ tập dừ liệu mới phai dược lích hợp một cách thu côn li vào hệ thổnu.
nhìn toàn cục (GA V) và khung nhìn cục bộ ( I A V ).
13
Khung nhìn toàn cục Khung nhin cục bộ
Hình 3: Mõ lu klìòiìịỉ gian bán ghi cua các (inh xạ GA I ' vil LA I
Trona CÌAV. hệ thons dược rà no. buộc với tập các ban ghi ánh xạ bưi các
hộ trung íỊian (mediators) trong dó tập các han ghi có thê dược biêu diên qua các
nẹuồn có the là rộ 11 ạ hơn và da dạng hơn nhiều. Trong I AV, hệ thống dược rà nu
buộc với tập các bán ehi trong các nguồn. và dúm li có thê dược biêu diền qua
lược đô toàn cục có thê là rộniì hơn nhiều. Vi vậy. các hệ thông I.AV thường
phai dổi phó với các câu trá lời không hoàn chinh.
Trong CiAV. cơ sở dừ liệu loàn cục dược mô hinh hóa nlur một tập các
khung nhìn trên s. I rons trườna hợp này M liên kết mồi phan tử cùa G với một
truy vấn trên s. Việc xử K iruN vấn trờ thành một thao tác dề dà nu hơi vi các
liên kết ui ira G và s đà dược định nuhĩa sẵn từ trước, vấn dè phức tạp là ờ việc
cune cap mà cùa bộ trung gian dê chi dần cho hệ thonu tích hợp dữ liệu biết
chính xác làm thế nào dỏ tru\ xuất các phẩn tứ từ các CSD I. nguồn. Nẻu cỏ
nguồn mới nào dược hổ sunu vào hệ thốn2. thì can phai có sự cập nhật cho bộ
truns íĩian. vù vì vậ\ phươnu pháp CÌAV nên dược áp dụna trona các Irườns hợp
các nẹuồn dừ liệu khôn ự tlurònu xuyên tha\ dõi.
w • w r «
Xét plurơnu pháp G A V doi với hệ thống tích hợp dừ liệu troim ví dụ ư phần
trên, naưừi thict ke hệ ihốni» tnrớc tiên sè phát triên các bộ trunn íỉian cho mỗi
imuon thònií till cua thành pho và sau dó thict kế lược dô loàn cục xoa\ quanh
các hộ trunii íiian nà\. Ví (.III. uia sir một tronu các nmiôn là iranu \vcb vồ thời
■ *<_ *— • v_ ■ w C *—
Iici. Khi dỏ nsirời thiết kê sè bô sun s một phân lử tirơng ứnu với thòi tiẽt vào
lược dô toàn cục. Sau dó thi vân tic chu Y cu lã \ ici mà thích hợp cho hộ iruna
üiitn lio nó sè chuẩn hói) các thuộc tính cua ihời lict thành một truy vấn trôn iranii
\\ch thời liát. Vấn dề này cỏ ihé trở nên phức tạp nỏII có một niiuồn khác liên
quan đốn thời tiết hỡi vi Iiũưừi thiết kế lúc dó sè phái đối mật với việc viết mà de
tronu dó
A<B"
. Neu một ban uhi
hoặc tập các han íìhi dược lha\ \ ào quv tac và thỏa mãn nó (C|U\ tac cỏ giá trị
14
I RUI.), thi la coi han tihi lá I11ỘI thành phần cua lập các càu tru lời irons* tru\
vấn. M ặc dù các ntiôn niiừ hình lỉúrc nhir D ataloụ biêu clicn các iruv vân IÙI\
một cách súc tích \à khônu có nhập nhanti. nhưng các tru\ vân SQL thôim
lliirờnu. non có thê. vần nên dược phàn loại nlnr các iruv vân nòi liêp.
Một thuộc tính quan irọtm cua các trus vân nôi tiêp (vê mặt tích hợp dừ
liệu) là
chặn truy vắn (query containment).
Một truy van A chửa một truy van li
(k\ hiệu là A d H ) nếu các kct quá cua tru\ vấn lỉ lù một tập con cua các kêt qua
cua tru\ vấn A trên bat kv CSDI. nào. Ilai tru\ vấn dược sọi là tương đương nêu
các tập két qua là tirons dươrm trên bất kỳ CSDI nào. Diều này là quan trọna
hởi vì trona cà các hệ thống CÌAV và LAV. các iruy vấn nối tiếp cua người sử
dụnti dều được dạt ra tlìôna qua một lược dỏ ao dại diện bơi một tập các killing
nhìn, hoặc các iru> Nấn nổi ticp "thật". Mục tiêu cua hệ thons tích hợp lá \ ici lại
các truy van dại diện bời các khunu nhìn đè làm cho các kêt quá cua chúnu là
tương đươna hoặc dược chứa tối da hởi truy vấn cùa rmười sứ dụnu.
Irons các hệ thốníi GAV. một neười thiết kế hệ thổnụ sẽ viết mà hộ trung
íiian đế định nuhĩa cách viết lại truy vấn. Mồi phẩn ur tron ạ truy vân cua nturời
V— ■ >_ •
1
I W
tể
W
SƯ dụnạ lirơnu ử nu với một tru\ vấn trên nguồn. Xư lý truy vấn chi đơn gián lù
mờ rộ nu các mục đích con tronu truy van cùa ngirừi sử dụne, llico quy lác dã
tiêp theo. Kiến trúc, mục dich sứ dụnu và kỳ thuật xâ\ dựiiỉì các Kho dữ liệu là
ral khác so với các CSDl. tác nghiệp (Operational Database).
16
Hình 4: Mõ
1(1
(/tui triuli lừ (lữ liệu dền thực hiện ra t/iạ cl định
Dữ liệu phát sinh tù' c;ic hoại dộnu liànu I1ÍÙI\ và dược tlui thập \ư l\’ dê
phục vụ cônu việc nghiệp \ụ cua một dơn vị. lô chức được uọi là d ữ liệu lác
nghiệp (O p eratio nal Data). CSDI tác níihiệp phục vụ cho các xir lý g ia o clịclì
trực tuyên (O nline Transaction P rocessing - OI I P), cụ thô nói chu 11 li chúna dêu
hỗ trợ \ iệc chiết \uấl. lônu hợp. tinh loàn tự tlộnụ các dừ liệu irone CSDL: \â\
dựiiỉi báo cáo tốnụ hợp hoặc chuyên dè tự dộnu. truy vấn tim kiểm thỗrm tin ụr
tlộns. cập nhật và khai thác dược CSDL từ xa Nlũrns thông tin. dừ liệu dược
chiếi xuất từ CSDỈ lác nahiệp thường là loại thôna tin. dìr liệu mà neười SU'
dụng cơ han dà hicl trước, hàm lượng trí tuệ của thôrrn tin không cao và chi dáp
ứn<> cho hoạt độim tác nghiệp, nluìnu quyết định mans íiiá trị "Iiũủn hạn".
Kho dữ liệu trái lại phục vụ cho các x ư /Ý p h ân tích trực tuyên {O n Li ne
A nalytical P rocessing - Ol.AP). nhàm phát hiện thônu tin. tri thức mới với hàm
lirựim trí tuệ cao. kho dữ liệu thực chat là tập hợp các dừ liệu VC tat cà các chu
dò liên quan den toàn hộ hoạt dộna cùa một dơn vị, tô chức nào đó. Các Kho dữ
liệu lưu trữ dừ liệu lịch sir. phụ thuộc thời gian, không thể sưa dối dược, và được
tích hợp từ nhiều hệ thôn» thõng tin. CSD1. tác nehiệp được phát triên dựa trên
nhiều hệ quàn trị CSDL khác nhau. Mô hình cư hán nhất cùa Kho dữ liệu là
CSDL nhiều chiều.
Kho dữ liệu thườn» rat do sộ và xây dựnu cù nu khá ton kém. Khi Kho dừ
liệu chi tập truim vào một chú dè nào đó thì dược sợi là Cơ sở dữ liệu cliu (lẻ
(D ata M art). Nlnr vậy Cơ sỡ dừ liệu chù dề chính là một tập con cùa Kho dừ
liệu dược tập trung vào một sô chù dồ dược lựu chọn.
Kho dừ liệu dược ra dời khoảng I0 nãm liần dày. nham khác phục tình
trạntì con nẹười dã có rất nhiều (Jữ liệu nhưnii khai thác sứ dụng chưa dược hao
vào cỏ thổ trà lời dược câu hói dó cỏ thể suy ra dược hay không từ tập tri Ihức dà
cho bane, cách thực hiện cơ chế SUY luận trên tập tri thức dó. L ĩn h vự c này thuộc
vê Trí tuệ nhân tạo tronu CNTT. Chậm hơn vài năm so với sự xuất hiện cùa
KI)[), một lĩnh vực khác chu yếu dựa trên nền ta nu cua In' tuệ nhân tạo dà ra
« . » w •
dời dược sọi là Tác nh ân th õ n g m in h (In telligent Agent). Các côn li cụ thònu
minh tác níihiệp hiện nay dược xây dựna chú yếu theo kỹ thuật, công nehệ cua
Tác nhân thỏnu minh. ví dụ như các phần mềm tin học cho robot, phần mỏm
đánh cừ. khám chữa bệnh troniì y học. phần mềm lự dộng lái ô tô. máy bay. tàu
hoa dược xây tlựnii theo côntì nuhệ như vậy. Tác nhân thông minh dược xem
là bước phát triển mới cúa Trí tuệ nhân tạo.
3. Kho dữ liệu
/ Khải niệm kho dừ liệu
Kho dừ liệu cuns càp các kiên trúc và côníi cụ cỊLian 1} cho doanh nuhiệp de
tô chức, khai thác và sư dụng dừ liệu một cách cỏ hệ ihong nham dira ra nlùnm
quyết dịnh manu tính chiến lược. Níiày nay rất nhiều các tỏ chức đã nhận thấv
18
rail a các hệ thônu kho dữ liệu là một cônu cụ cạnh tranh rât hữu ích. thúc dày sự
lw. • w
m/
phát triôn chung cua the íiiứi. í rong nhiêu năm nân ilâv. 11 li ười ta dã chi phi
nhiều triệu đô-la cho \ iộc xâ\ dựníi các kho dừ liệu doanh niíhiệp. Nhiêu nuười
dã cho ranụ. với sự cạnh tranh tro nu mỗi ngành CỎI1U nahiộp. thi việc xâ\ dựng
kho dữ liệu là MÌ khi liếp ihị cuối cù nu bat buộc phai có dô có ihẽ cỉáp im s dược
các nhu cầu cùa khách hànu.
Khái niệm kho dừ liệu dà dược dinh ntihĩa theo nhiòu cách khác nhau, nên
• • • • V-
khó có thè dira ra một dinh nghĩa chính xác, hoàn chỉnh, lliêu một cách dơn
• • C'
•
các thòniỉ tin mà một tô chức can tic dưa ra các (.Ịiivct (.lịnh chiến lược. Một kho
dừ liệu cù nu ilurờnu dược \cm như một kiến trúc được xây dự rte bần ti cách tích
hợp dừ liệu lừ nhiều nụuồn không dồne nhất dô hỗ trự các im \ Nấn có hoặc
kliônii có cau trúc, các háo cáo phân tích và dưa ra các quvêt định.
Việc \â \ dựníi kho dừ liệu cùng rât hữu dụnu nêu nhìn từ nóc dộ tích hợp
các cơ sơ dừ liệu không dồng nhất. Rất nhiều lò chức tlìirờna tập hợp nhiều loại
dừ liçu hồn tạp khác nhau và duy trì các cơ sở dử liệu lớn từ nhiêu nguôn thônũ
tin phân tán. tự trị và khônu đồnu nhất. Việc tích hợp các dữ liệu dó và làm cho
\ìệc tru\ cập vào dừ liệu trơ nên dề dànu và hiệu qua. đén na\ Nần luôn là một
khao khát và thách ihírc to lớn. Dà có rất nhiều níihiên cứu và nỗ lực irons
w • w
neành cônu níihiệp dừ liệu nham tới mục tiêu này.
Phirơnu pháp liếp cận truyền thốrm cho việc tích hợp các dừ liệu khònu
dont! nhát là xâv dựns các vo bọc (w ra p p ers) và các bộ tích h ợ p (inten*rcifors)
ha> bộ in m iỊ g ia n (m e d ia to rs) ữ phía trên các cơ sơ cỉừ liệu hỗn tạp. Khi một
truy van dược dưa tứi phía một máy khách, một từ diên dặc tà dừ liệu sẽ dược sir
dụnu dê phiên dịch truy van dó thành các truy vấn thích hợp cho các phiu dừ liệu
hỗn tạp khác có liên quan. Sau dó những truy vấn này sẽ dược ánh xạ và dược
íúri lới các hộ xử K truy van cục bộ. Các kết quà tra về từ các phía dìr liệu hỗn
lạp sẽ dược tích hợp tron li một bộ tra lời toàn cục. Phirơng p h á p tiếp cận (lịnh
liirớng tru y vấn (querv -driven ap p ro ach ) nàv dòi hỏi sự xư lý tích hợp và chắt
lọc thồnu tin rất phức tạp. và dôi hói sự cạnh tranh íiiừa các neuồn dừ liệu trong
việc xử lý cục hộ lại mồi nguồn. Nó có the sc rat tốn kém và không hiệu quả đối
với các truy vun thườn!» xuvên, dặc hiệt là nhừng truy vấn đòi hỏi sự tích hợp.
3.2 N h ữ n g đặc đ iể m c ơ b(in c ủ a k h o (ilĩ liệ u
Mọi kho dừ liệu, lus có rất nhiều đặc diêm khúc nhau tùy thuộc vào nội
dunu và mục clích khai thác, nhưng nhìn chung (Jeu có nhừna, dặc diêm cư ban
sau đây:
T ín h h ư ở n g c h ú d è. Một kho dữ liệu thường dược tô chức theo các chu dề
chính đe eiúp cho tổ chức có the dề dàng xác định dược nhìrtm thôn» tin cần
1 ộn dn \ : lnh \ in X
l);i chi: s 5S dừng 1
c
r > i
III. IHNG
tilA O DtCH NGN SCH
o
cú
a
r
Tớch hp
KH O D LI Kl
Via dn vi: 168
Mự ditằ \ : 168
1 ụn dn v: Bnh \ in X
So ti kho.m: 123456
sr.
o
3
<a
3-
Chuyn ttũi
rờn n v: Bnh vin X
a chi: s 58 ng 1
Ng\ ihónh lp: 01 012005
Ngv cp m: 01 04. 2005
S li khoỏn: 123456
III IIIểNU
Kho dữ liệu
I)ữ liệu niihiệp vụ
Ánh chụp dừ liệu
Thà Ịỉiuii iiỊỉàn intHỊỉ núm. ihirừnỊi lừ 30-60 HịỊÙy
Thời ỊỊiun (lài: 5-10 mĩm lioặc hill hơn
Có thi’ cò veil rò thời íỉian hoặc không Luôn có yếu lõ thời gian
Dữỉiặi có the cập nhặt Khi (lữ liệu <1ũ chrợc chụp lại tliì
k illin g cặp nhật dược
T in h bền vũng;. Một kho dừ liệu luôn liru trừ riônụ rẽ về mặt vật K các dừ
liệuchuân hỏa từ dữ liệu ứnu dụníỉ tron a môi inrờng vận hành. Nhờ sự riêng rè
này. một kho dừ liệu khônu dòi hói phái có các cơ chc xử lý giao dịch, phục hồi
và Hôm soát dồnu, thời. I)ừ liệu irons Kho dữ liệu là dữ liệu chỉ dọc và chi có
thẻ lược kiêm tra. khỏne dược sửa dồi bởi nmrời sứ tlụna đầu cuối. Nó chi cho
phép llụrc hiện hai thao tác cơ ban: N ạp (lữ liệu vào kho ( in itia l loa ding o f data)
và 7/7/1' CỘỊ) vào các YÌnìii Ị rong kho (lữ liệu {access ofikua).
D ữ lie n kh ô nil b iến (IÔHỊỈ Khi dừ liệu Ironii hộ tlìốiiũ dieu hành tác imhiệp
dtrợc cho là quá cù. nỏ sè dược tai vào Kho dữ liệu, rinh khônu hiến dộnu thê
hiện ờ chồ: l)ữ liệu ilirực lưu trừ làu dài tronu kho dử liệu. Mặc dù có them dừ
• • • w • •
liệu mới nhập vào nhưnu dữ liệu cũ trona Kilo van khônu bị \oá. diều dó cho
phép cun li cáp thônu tin vè một khoán a thời uian dài. cuniĩ cấp du số liệu cần
thicl cho các mô hình nuhiộp vụ phân tích, dự báo. tù' dó có dược những quyết
dịnli hợp lý. phù hợp với các quy luật tiến hoá cua lự nhiên.
ỉ)ũ liên có íín h tÔHii h o p : Dữ liệu tác nghiệp thuần tuÝ khône dược lưu trừ
trone Kho dừ liệu. Dừ liệu tôn» hợp được tích lại qua nhièu aiai đoạn khác nhau
theo các chú diêm như dà nêu trôn.
3.3 S ự k h á c n lia u g iữ a các h ệ th ố ng C SD L tác n g h iệ p và c á c k h o (lữ liệu
ì—
chiếu đến nhừntt dữ liệu trôna quá khứ cùa tô chức dó hoặc dừ liệu cua các tô
chức khác. Trái lại. một hệ thống OLAP thường tiếp nối nhiều phiên hãn cùa
một lược do CSDI. trôna, suốt quá trình phát triền cùa một to chức, đồng thời
cùn a xem xét den các tlìònu tin dừ liệu cua các tò chức khác, tích hợp thông tin
từ nhiều nguồn dữ liệu khác nhau.
C ác k iê u tru y c â p : Phương thức truy cập chú yếu cua một hộ thổnc OLTP
thường là truy cập theo kiêu giao dịch. Còn việc truy cập vào các hệ thons
OLAP hầu hết là các thao tác chi dọc. bởi vì hầu hốt các kho dừ liệu chi lưu trữ
các thônu tin manii tính lịch sư hơn là các thônu tin cập nhật mới nhất.
Naoài ra còn có các dặc diêm phân biệt khác giừa OLTP và OLAP hao
gồm: kích thước CSDI-, lần suất hoạt động và hiệu suất, dược tons hợp ironti
Bảnc 2 dưới đâv:
24
r
Hàng 2: So sánh các hệ lllông OU I' vit OLAP
Đ ặ c đ i ể m
O L A P
Đ ạ c Irư n g
X ư lý lác nglìiựp
X ir lỷ lliõiiịi tin
D ịn h h ư ớ n ẹ
G iao dịch Phân lích
N m rờ i d ú n ii
(iia o dịch viên, Quán trị C SD L:
(
'huyên iỊÌd ( 'SDl.
Người dùng cao cáp (nhà quan lý,
D ọ c (ìh i /hiu hét lù chi dọc
25
1 iẽii liêm Dữ lien dâu vào Tỉiòh ịì liu (tân ru
1 hũiotiic
index Ihis/ì ciiíi khóa chinh Oiií'1 nhìcii /in ì
So b;n i*h i 1 Lilly! chục
Hìih ịì triựu
Sỏ m ư ờ i dù nu
l/ùiìí! Iifihbi
HìtHỊi Irìim
K ích thước
n m t h ill'll ( ib HHKìb (ten Th
Ưu tiín Hiệu qua cao, linh sun SÒHÌỊ cao Dạ linh lìo ạl cao
1 h ưó: đo T lìòiiịi hnm íi giao dịch ThõnỊi hrrnií! in iy van. tlìời iỊÌan hòi
íĩíi/l
3.4 K iến trú c k h o d ữ H ên
Kiên trúc cua các kho dữ liệu thường bao gồm 3 lớp, như hình 6 dưới đâ\ :
Qu«iy Repoit
Aiulysiĩ Data Miiuuj
Fiont-Eud Too!'.
OLA? S « IV * I
OLA? SíiYíi
OLA? EiiỊin«
Dau Stoiij*
00
Dali c U.MURỊ
and
D.tl.1 In:*;utiou
E x i « m u 1 ÍO U ICÍ".
Momtouui A d i J i m r. t i a t iC ii