Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông - Pdf 10


1
H

C

VI

N

CÔNG

NGH


BƯU

CHÍNH

VIỄ
N

THÔNG

QUY

TRÌNH

ETL

TRONG

KHO

D


LI

U


NG

D

NG

VÀO

H


Chuyên

ngành:

Khoa

h

c

máy

tính



s

:

60.48.01
TÓM

T



t

i:
HỌC

VIỆN

CÔNG

NGHỆ

BƯU

CHÍNH

VIỄN

THÔNG Người hướng dẫn khoa học:

TS PHẠM THẾ QUẾ
Phản biện
1:………………………………………………………………………….
………………………………………………………………………….

-
Thư việ
n

c

a

H

c

vi

n

Công

ngh
ệ Bưu chính Viễ
n

thông

3

M


thông

sau

nh
ững năm phát triển đang lưu trữ
m

t

kh
ối lượ
ng

d

li

u

kh

ng

l

,

bao


d

ch

v

thuê

bao,

thông

tin

c

nh

b

o

tình

tr

ng

h


vi
ễn thông v.v Lượ
ng

d

li

u

kh

ng

l

này

n
ếu đượ
c
khai thác đúng cách sẽ


m

t

l


các

d

ch

v
ụ chăm sóc khách hàng
hay

các

ng

d

ng

mang

tính

th

c

ti
ễn cao,



vi

c

xây

d

ng

kho

d

li

u

t

nh

ng

ngu

n

d


n

thông.

Tuy

nhiên

vi

c

xây

d

ng

m

t

h

th

ng

nh


thu

t,

đặ
c

bi

t



khi

kích

th
ướ
c

cũn
g

nh
ư

độ


tr


phân

tán

nhi

u

d

ng

không

t
ươ
ng

thích

v

i

nhau,

th



CSDL

đ
ã

đượ
c

xây

d

ng

không

t
ươ
ng

thích

v

i

nhau


xây

d

ng.

Nhi

u

khách

hàng

không

tho

mãn

v

i

nh

ng

h



các

thành

ph

n

khác

nhau,

m

i

thành

ph

n



thi
ế
t

k

chính

ch

u

trách

nhi

m

cho

quá

trình

ETL

(

Extract,

Transform,

Load)

trong


u

ngu

n

khác

nhau,

làm

s

ch,

tùy

ch

nh



chuy
ển đổ
i,





ETL

chi
ếm đế
n

80%

phát

tri

n

d


án



55%

th

i

gian


t
ừ đó có thể
th



hình

hóa,

thi
ế
t

k
ế


t
ối ưu ETL trong việ
c

xây

d

ng

kho



u

[6].

Với mục đích nghiên cứu về
các

quá

trình

ETL
trong việc xây dựng kho dữ liệu, tôi chọn đề
tài

“Nghiên

cứu

qu
y

trình

ETL

trong

kho


thông

.

1.

Mụ
c

đ
ích

c

a

đề

tài:

Ti
ế
p

c

n

các


u:

Vi

c

nghiên

c

u

s


t

p

trung

vào



thuy
ế
t


t

v

i

ngu

n

d


li

u

t

h

4

th

ng

d

li


u

liên

quan

đế
n

các

k

thu

t

ELT

trong

kho

d

li
ệu, các phương pháp xây dự
ng


Lu
ận văn gồm 3 chương
Chương

1:

T

ng

quan

v

ETL

trong

kho

d

li

u

Chương này trình bày các khái niệ
m,

các


u.

T

ng

quan

v

ETL,

các

thành

ph

n



vai

trò

ETL

trong


Chương này tậ
p

trung

vào

chi

ti
ế
t

các

thành

ph

n

c
ủa ETL, các bướ
c

th

c


ph

i

v

i

m

i

thành

ph

n

c

th

trong

m

t

h


tình

hu

ng

trong

nh

ng

bài

toán

c

th

.

Chương

3:

Xây

d


ận văn trình bày mộ
t

th

nghi

m

nh

áp

d

ng

ph

n



thuy
ết đã nêu ở
2
chương trước. Đó là áp dụ
ng

th


t

d

li

u

t

h

th

ng

d

li

u

chi

ti
ế
t

cướ


QUAN

VỀ

ETL

TRONG

KHO

DỮ

LIỆU

1.

Kho

d


li

u

1.1.

Khái



t

p

h

p

d

li

u

tích

h
ợp theo hướ
ng

ch
ủ đề
,
tương đố
i
ổn đị
nh,c

p

nh.[2]

Như vậ
y,



th

th

y

r
ằng thông thườ
ng

m

t

kho

d

li
ệu được xem như một cơ sở
d

li

n
cơ sở
d

li

u

tác

nghi

p.1.1.2.

Các

đặc

trưng

của

kho

dữ

liệu


li

u

trong
đ
ó



ch

a

b

n
đặ
c

tính

sau:

h
ướ
ng

ch
1.1.3.

Kiến

trúc

kho

dữ

liệu



hình

ki
ế
n

trúc

c

a

h


u

ngu

n,

vùng

d

li

u

trung

gian



kho

d

li

u

.



d


li

u

1.1.3.1.

Kho

d


li

u

ch


đề

(Datamart)

Kho

d


nh

ng
đặ
c
đ
i

m

gi

ng

v

i

kho

d

li

u

nh
ư
ng



u

v


m

t

lĩn
h

v

c,

m

t

chuyên

ngành

c

th

.


Siêu

d


li

u

(MetaData)

Metadata



m

t

lo

i

“d

li

u


t

c

u

trúc

n

i

dung

v

d

li

u

bên

trong

c
ơ
s



vi

c

xây

d

ng



t


ch

c

l
ư
u

tr


d



li

u

Cơ sở
d

li

u

t

p

trung



m

t

n

n

t
ảng cơ bả
n


trên

công

ngh

c

a

H

th

ng

qu

n

tr
ị cơ sở
d

li

u

quan

s

d

ng

theo

ba

cách

chính:

Cách

s


d

ng

truy

n

th

ng

trên

các

công

c

truy

v

n



báo

cáo.

Nh




vi

c

trích


sang

d

ng

d

li

u



ch

t

l
ượ
ng

cao





tính

truy

v

n

chu

n

SQL



các

công

c

làm

báo

cáo

truy

n



d


li

u

thì

phân

tích

tr

c

tuy
ế
n



kh



ng



sai.

Tuy

nhiên

phân

tích

tr

c

tuy
ế
n

l

i

không



kh






tính

ch

t

ph

c

t

p

nên

khó



th

s

d

ng

u

(Data

mining)Trong

hoàn

c

nh

hi

n

nay

s

phát

tri

n

c

d

li

u

ph

c

t

p





kích

th
ướ
c

l

n.

Vi


h

c



trong

ho

t
độ
ng

th

c

ti

n.1.1.5.

Thiết

k
ế


đượ
c
đưa
ra

l
ần đầ
u

tiên

b

i

Raph

Kimball
như


m

t

l

a

ch


d

li

u
đượ
c

xác
đị
nh



phân

lo

i

theo

2

ki

u:

s


liên

k
ế
t).

1.1.5.2.

Gi

n
đồ
hình

tuy
ế
t

r
ơ
i

Gi

n
đồ
hình

tuy


sao,

t

i
đó
m

i

cánh

sao

không

ph

i



m

t

b

ng


i

b

ng

theo

chi

u

c

a

gi

n
đồ
hình

sao
đượ
c

chu

n


v

n,

t

i

thi

u

không

gian
đĩa

c

n

thi
ế
t

để

lưu



c

ch


ph

i

k
ế
t

h

p

nh

ng

b

ng



kích


ng



kích
thướ
c

l

n

l

i

không

chu

n

hóa.

1.1.5.3.

Gi

n
đồ

d

a

trên

b

ng

S

ki

n



nh

ng

b

ng

Chi

u


tuy
ế
t

r
ơ
i

trong

đ
ó

t

t

c


các

b

ng

Chi

u



dữ

liệu1.2.1.

Khái

niệm

ETL

H


th

ng

ETL

(Extract-Transform-Load)



n

n

c

thi
ế
t

k
ế
cho

vi

c

trích

xu

t

d


li

u

t



o

các

ngu
ồn độ
c

l

p



th

tích

h

p,



cu

i

cùng


ng

d

ng

hay

ph

c

v

các

m
ục đích kho dữ
li

u.

[7,

tr.xii]1.2.1

Vai

m

t

vai

trò

quan

tr

ng

trong

vi

c

cung

c

p

cho

các


u

phù

h

p.

B

n

ch

t

Kho

d

li

u



quá

trình


li

u

tác

nghi

p



chuy
ển đổ
i

thành

thông

tin



t

ch

c


li

u



h

tr

quy
ết đị
nh

kinh

doanh.

Quá

b
ắt đầ
u

t

các

h



ki

n

s

chi

phí

ít

nh

t

70%

th

i

gian,

n

l

c


li
ệu [7, tr.23] có đưa ra một định nghĩa về
kho

d

li

u

nói

lên

vai

trò

c

a

ETL

trong

kho

d


ngu

n

t

r

t

nhi

u

ngu

n

khác

nhau





th




t

p

d

li

u

excel

hay

t

t

p

d

li

u

thô.




t

h

th

ng

ngu
ồn để
x

lý.

Chuy
ển đổ
i

:
Đây là quá trình rấ
t

ph

c

t
ạp





chuy
ển vào cơ sở
d

li
ệu đích.
T

i

d

li

u
:
Đây là quá trình

đẩ
y

d

li
ệu sau khi đã đượ
c


i

vào

kho

d

li

u.
9

CHƯƠNG

2.

KIẾN

TRÚC



CÁC

THÀNH

PHẦN

CỦA

ức năng ETL thự
c

hi

n

m

t

m
ục đích quan trọ
ng.

Khi

mu

n

chuy

n

d

li

u


c

th

c

hi

n

các

ch
ức năng này đề
u

c

n

thi
ết. Để thay đổ
i

d

li
ệu thành thông tin, trướ
c


th
ể đơn giản là đổ
d

li

u

vào

kho.

D

li

u

ph
ải đượ
c

trích

xu

t



i

d

li

u,



v

n

không

h

u

ích

v
ới ngườ
i

s

d



li

u



m

t

ch
ức năng
cu

i

cùng
. Như vậ
y

ta

ph

i

th

c


chi

phí

cho

h


th

ng

ETL

Nói

chung

ta

s

tiêu

t

n


cầu

với

ETL



các

bướcETL

Cho

bảng

sự

kiệnETL

cho

bảng


xử



dữ

liệu



công

cụ

kiểm

thửKế

hoạch

cho

các

bảng

tổng


lập

các

luật

trích

xuất

dữ

liệuChuẩn

bị

cho

việc

ánh

xạ

giữa



cả

dữ

liệu

trong



ngoàiXác

định

các

dữ

liệu

đích

cần

thiết


trình

ETL.2.1.4.

Các

yếu

tố

quan

trọng

đối

với

ETL

-
Xác định được độ
ph

c

t


ng

đượ
c

các

ch
ức năng trích xuấ
t



chuy
ển đổ
i

phù

h

p.

-
Xác định đượ
c

các


li
ệu để có phương án phù hợ
p.
10

2.2.

Vùng

dữ

liệu

trung

gian

Trong

t

t

c


các

ki
ế


u

g

i



vùng

trung

gian

hay

còn

g

i



vùng

x

lý.




không

thông

qua

(ho

c

r

t

ít)

công
đ
o

n

x



nào.

d

li

u

bao

g

m

vi
ệc xác đị
nh

t

t

c

các

ngu

n

d



Hình

2.2.

Các

xuất

dữ

liệu

2.3.2.1

Các

lo

i

k

thu

t

trích

xu

t

D

li


i.

H

u

h
ế
t

các

thu

c

tính

trong

các

h

th

ng

ngu
ồn rơi vào loạ


thu

c

tính

ngay

th
ời điể
m

này

c

a

th

i

gian.

Các

giá

tr


x

y

ra,

các

giá

tr

thay

đổi. Không có cách nào để
bi
ế
t

bao

lâu

giá

tr

hi


này

không

ph

bi
ến như thể
lo
ại trướ
c.

Trong

lo

i

này,

giá

tr

c

a

m


m

i

th

i

điể
m,

gíá

tr

tr
ạng thái được lưu trữ
v

i

tham

chi
ếu đế
n

th

i


d

li

u,

các

d

li
ệu ban đầ
u

v

i

m

t

th

i

gian

nh

i

ban đầ
u.

Nói

r

ng

ra,



2

lo

i

chính

c

a

trích

xu

li
ệu tĩnh chiế
m

ch

y
ế
u

trong

t
ải ban đầ
u,



trích

xu

t

d

li
ệu thay đổ
i


th

i

gian

th

c

ho

c

trích

xu

t

ch

m

ch

m.

Trong


ch

n,

n

m

b

t

d

li

u

ch

m

ta



2

tùy


gian

th

c

N

m

b

t

d

li

u

qua

b

n

ghi

giao


c

a

h

qu

n

tr
ị cơ sở
d

li
ệu đượ
c

duy

trì

cho

vi

c

khôi


c

p

nh

t

hay

xóa

m

t

b

n

ghi

trong

b
ảng cơ sở
d

li


m

t

b

n

ghi

log.

N

m

b
ắt thông qua trigger cơ sở
d

li

u.

Tùy

ch
ọn này cũng đượ
c


ng

ng

d
ụng cơ sở
d

li

u.

Ta



th

t

o

các

trigger

cho

t


c
ủa trigger đượ
c

ghi

vào

m

t

t
ệp độ
c

l

p



s
ẽ đượ
c

s

d
ụng để



duy

trì

trigger

trong

su

t

các

quá

trình

c

a

h

th

ng


t

trong

các

ng

d

ng

ngu

n.

K

thu
ật này đượ
c

xem

n
hư nắ
m

b


d

ng

ngu
ồn đượ
c

th

c

hi
ện để
h

tr

cho

vi

c

n

m

b


ng

d
ụng liên quan đượ
c

vi
ế
t

cho

các têp và cơ sở
d

li

u

ngu

n

2.3.2.3.

Các

k

thu


trên

ngày

tháng



nhãn

th

i

gian.

M

i

khi

m

t

b
ản ghi đượ
c


m

t

nhãn

bi

u

di

n

b

i

ngày



th

i

gian.

Nhãn


cho

vi

c

trích

xu

t.

Trích

xu

t

b

ng

cách

so

sánh

t


tin

ngu

n

c

th
ể, khi đó kỹ
thu
ật này được xem như biệ
n

pháp

cu

i

cùng.

K

thu
ật này cũng đượ
c

g

gi

a

nh

ch

p

b

i





so

sánh

2

nh

ch

p





chuyển

đổi

dữ

liệu

2.4.1

Các

nhiệm

vụ



bản

của

chuyển

đổi

dữ


b

quá

trình

chuy
ển đổ
i.



th

toàn

b

ho

c

m

t

s

b


g

m

các

lo

i

thao

tác

d


li
ệu để
th

c

hi

n

vi


n

hóa

gi

a

d

li

u

trích

xu

t

t

các

ngu

n

khác



T

ng

h

p.

Khi

vi
ệc lưu trữ
d

li

u

t

ng

h

p
đượ
c

yêu

m

v

này

s

p

x
ếp và đơn giản hóa các trườ
ng

riêng

bi
ết để
làm

cho

chúng

tr

nên

h


nh

d

ng.

-

Gi
ải mã các trườ
ng.

-

Giá

tr

tính

toán



giá

tr

th


.

-

Chuy
ển đổi đơn vị đo lườ
ng.

-

Chuy
ển đổ
i

th

i

gian.

-

T

ng

h

p.



hợp

nhất

dữ

liệu

2.4.3.1. Xác

đị
nh

th

c

th

trong

chuy
ển đổ
i

d

li


ng

khác

nhau,

làm

th
ế
nào
để
t
ổng hơp
các

ngu

n

này



không

s

b


các

b

n

gi,

không

phân

bi
ệt



trùng

nhau

hay

không,

đượ
c

đị
nh


trùng

m
ột cách đị
nh

k

thông

qua

các

gi

i

thu

t

t

độ
ng




u.

V
ấn đề
này



k
ế
t

qu

c

a

vi

c

m

t

ph

n


các

ngu

n



ch

n

ngu
ồn có độ ưu tiên cao
2.4.4.

Chuyển

đổi

các

thuộc

tính

chiều

Trong


các
phương pháp để
x



các

lo
ại thay đổ
i

d

li

u

chi

u.

-
Thay đổ
i

lo

i


li

u

không

c

n

gi

tính

l

ch

s

.

-

Lo
ại 2 thay đổ
i

gi


i

d

ki
ến nơi ngườ
i

dùng

c

n



kh
ả năng phân
tích

các

s

li

u

trong


T
ải

đầ
u

tiên



t

p

h

p

t

t

c

các

b

ng



ng

trên

nh
ững thay đổ
i

khi

c

n

thi
ế
t

m
ột cách đị
nh



Làm

tươi

toàn


b

ng



t

i

l

i

v

i

d

li

u

m

i

(




4



hình

t

i

d

li

u

:

Load,

Append,

Destructive

Merge,

Constructive


i

trong

b

ng,

quá

trình

t

i

s

xóa

d

li
ệu đã có và tả
i

d

li

ải đơn giả
n

t

i

d

li

u

t
ừ file đế
n.

Append.

Ta



th

coi

vi

c

ệu đã
t

n

t

i

trong

b

ng,

ti
ế
n

trình

append

s
ẽ thêm vô điề
u

ki

n


b

ng

m

c

tiêu.

Khi

m

t

b

n

ghi

trùng

v

i

m



th
ể cho phép thêm vào như là
d


li
ệu

trùng.

Trong

trườ
ng

h

p

khác,

b

n

ghi

trùng


Trong



hình

này,ta

t

i

d

li
ệu đầ
u

vào

vào

b

ng

d

li


t

b
ản ghi đã có, khi đó nó cậ
p

nh

t

b

n

ghi đích tương ứ
ng.

N
ế
u

b
ản ghi đầ
u

vào




đã có, khi đó bản ghi đượ
c

thêm

vào

b

ng

d

li
ệu đích.
Constructive

Merge.

Ch
ế độ này hơi khác so vớ
i

Destructive

Merge
.

N
ế

a

b
ản ghi đã có, để
l

i

b

n

ghi

này,

thêm

b

n

ghi

m
ới và đánh
d

u


cho

3

lo

i

t

i

c

a

kho

d

li

u.

*)

Quy

trình


ch
ạy đầ
u

tiên

c

a

t
ải ban đầ
u

ta

s

d

ng

ki

u

t
ải Load, sau đó tiế
p


t
ục thay đổ
i

theo

các

h

th

ng

ngu

n.



v

y,

ta

c

n



ph

n

khóa

chính

ho

c

n
ế
u

nhãn

th

i

gian,

khi đó cấ
u

trúc


ng

Constructive Merge.
Các

b
ản ghi đã có có thể
xóa

b



thay

th
ế
b

ng

d

li

u

m

i.




b

ng

m

c

tiêu

l

ch

s

không

quan

tr

ng.

S

d

ghi

l

i

toàn

b

kho

d

li
ệu. Đôi
khi,

ta

c

n

làm

m

i


m

b

i



m

i

b

ng

chi
ều đượ
c

g

n

v

i

b



t
ải ban đầ
u,

ta



th

duy

trì

kho

d

li

u



c

p

nh


cho

d

li
ệu thay đổ
i

trong

h

th

ng

ngu

n.


Làm tươi


t

i

l


Trong

kho

d


li

u,

ta

s


d

ng

khóa

sinh

b

i

h


a

chúng.



v
ậy, trướ
c

khi

d

li

u

ngu

n



th
ể đưa vào bả
ng

chi

thì

khóa

c

a

s

n

ph

m

c

n

chuy

n

sang

khóa

c


chuy
ển đổi khóa như mộ
t

ph

n

c

a

ch
ức năng
truy
ển đổ
i

ho

c

th

c

hi

n



Tải

lịch

sử



tải

gia

tăng

cho

bảng

sự

kiện

Khóa

c

a

b


p

các

khóa

c

a

b

ng

chi

u.

Do

nguyên

nhân

này,

các

b


u

cho

các

b

ng

s

ki

n,

ta

ph

i

t

o

khóa

k

b

ng

chi

u.

CHƯƠNG

3.

XÂY

DỰNG

MODULE

TRÍCH

XUẤT

DỮ

LIỆU

TRONGETL


yêu

c
ầu đố
i

v

i

ng

d

ng:

-
Đả
m

b
ảo tính đúng đắ
n



m

t


th

các

lu

t

trong

vi

c

trích

rút

d

li

u.

-

ng

d


d

li

u

khác

nhau.
-

Cho

phép

theo

dõi



c

nh

báo

v
ề các thay đổ

trình

khai

thác.

3.1
.2.

Phạm

vi

nguồn

dữ

liệu


li

u

16

-

D

li

u

tiêu

th

cu

c

g

i



SMS


D

li

u

LACCELL

3.2

Phân

tích

yêu

cầu

bài

toán3.2.1.

Kiến

trúcHình

3.2.

Ki
ế
n

trúc


ng

d

ng
V

i

yêu

c


d

li

u

h

th

ng

trích

xu

t

d

li
ệu đượ
c

thi
ế
t

k
ế để

n

i

bao

g

m

-

K
ế
t

n

i

d

li

u

t

h


K
ế
t

n

i

v

i

d

li

u

Oracle

qua

k
ế
t

n
ối cơ sở
d


chuyên

đề

DATA_CALL



li

u

LAC_CELL_DIM:

Chi

u

d

li

u

thông

tin

v

v

trí

c

a


tin

v

ki

u

Chi

u

d

li

u

OWNER_DIM:

Chi

u

d

li

u


li

u

thông

tin

v

t

nh

thành

Chi

u

d

li

u

ACTIVITY_TYPE_DIM:

Chi


u

TIME_CALENDAR_DIM:

Chi

u

d

li

u

th

i

gian


hình

kho

d


3.2.3.
Nguồn

dữ

liệu3.2.2.1.

D

li

u

t

h

th

ng

tr
ả trướ
c

Ngu

c

a

h

th
ống cơ sở
d

li

u

c

a

Vinaphone

s

d

ng

h

qu



a

s


th

i

gian:

th

i

gian

2h-4h

sáng.

Phương

pháp

trích

xuấ
t:


th
ời gian như vậy đây


ki

u

trích

xu
ất đị
nh

k

.

N

m

b
ắt

thay

đổ
i

ng

ngày

tháng



nhãn

th

i

gian.

Các

lu

t

trích

xu

t

d



u

thu

c

d

ng

tho

i

hay

SMS

-

Các

b

n

ghi

d


các

lo

i

tài

kho

n

khác

r

ng.

*)

Ngu

n

d

li

u


thông

tin

v

d

li

u

trên

các

lo

i

tài

kho

n

khác

r


ti

n

t

các

h

th

ng

khác.
DataCallMapping

19



hình

hóa

ánh

x



<<Attribute>>

DATA_CALL_HISTORY

.END_CA LL_DATE_TI

ME <<Ma p>>

<<Ma p>>
AC TI VITY _ T YP E<<Ma p>><<Attribute>>

ACTIVITY_TYPE<<Attribute>>

DATA_CALL_HISTORY

.CALLED _NUMBER<<Attribute>>

DATA_CALL_HISTORY

.CELL_ID

<<Ma p>>
<<Ma p>>


Lọc:

Chỉ

lấy

các

bản

ghi

thuộc

loại

Voice

hoặc

SMS

<<Ma p>><<Ma p>><<Ma p>>



bản

ghi



A1_S+A2_S+A4 _S+A7 _S<>0

(Có

tiêu

thụ

trên

các

TKC,

TKK M,TKKM1,TKKM2) Hình

3.4

u

t

h

th
ống tính cướ
c3.2.2.3.

Trích

xu

t

d

li

u

Lac-cell.

20

3.3.


3: Get Data()

4: Install Data() 5: Get changes()

6: Get Connection M()

7: Check Data()

8: Get Data M() 9: Inform Integrator M()

10: Update data() 11: Identify new source()

12: Assign components()

13:Inform Integrator()


li

u

21

3.4.

Cài

đặt

thử

nghiệm

module

trích

xuất

dữ

liệu3.4.1.

u

hình

ng

d

ng

<translation>
<source

url=“…”,

etc

>
<column

name=“…”>
[<rule

language=“…”>
</rule>]
</column>
[<column

name=“…”>[<rule></rule>]</column>]
</source>

t

v

i

d

li

u

th

nghi

m


d


li

u

22

-

Giao

di

n

chính

-

Ch
ức năng cấ
u

hình

tham

s


xu

t

-

K
ế
t

qu

th

nghi

m

trích

xu

t

d

li

u


-

K
ế
t

qu

th

nghi

m

trích

xu

t

d

li

u

MTA

h

th

ng

th

nghi

m,

xây

d

ng

thi
ế
t

k
ế
module

trích

xu


li

u
ở chương hai
vào trườ
ng

h

p

d

li

u

c

th

.

Bên

c
ạnh đó cũng
ch


lo

i

thông

tin

c

th

v

i

m

t

s

h

n

ch
ế
các


h

n

ch
ế đó, họ
c

viên đề
xu

t,

phân

tích

thi
ế
t

k
ế


xây

d

ng

c

d

li
ệu đầ
u

vào,

ti
ế
p

t

c

phát

tri

n

các

module

chuy
ển đổ

c

ETL

hoàn

ch

nh.
23

KẾT

LUẬN

Lu

n


n

nghiên

c

u


NGHIÊN


H


TH

NG

D


LI

U

KINH

DOANH

TRONG

DOANH

NGHI

P

VI

N


ki
ế
n

trúc,



công

c


để

xây

d

ng

công

c

ETL

ph


các

ph
ươ
ng

pháp,

k

thu

t

trích

xu

t,

chuy
ển

đổ
i,

t

i



p

c

th
ể để
mang

l

i

hi

u

qu

cao

nh

t

cho

h

th

th


nghi

m

t


h


th

ng

ngu

n

d

li

u

kinh

c

ă
n



gi

i

h

n

nên

lu

n

v
ă
n

ch

d

ng

l


cho

m

t

s

ngu

n

d


li

u

chính

c
ủa đơn vị


K
ế
t


d

li

u

t

các

ngu

n

d

li

u

v

i

khuôn

d
ạng khác nhau như Oracle, FoxPro, Excel
.



cho

h

th

ng

th

c

t
ế đang trong quá trình
tri

n

khai.


Trong

tương

tai

học


module

t

i

d

li
ệu để
t

o

ra

môt

h

th

ng

ETL

hoàn

ch



ch


trong

lĩnh

vự
c

vi

n

thông



trong

nhi
ều

lĩnh

vự
c

khác nhau.

ETL

cho

vi

c

xây

d

ng

h

th

ng

d

li

u

kinh

doanh


i

các

doanh

nghi

p.

Vi

c

hi

u

đượ
c

t

m

quan

tr
ọng


trong

vi

c

xây

d

ng

cho

h

th

ng

kho

d

li

u

nói


li

u

nói

chung.
24

TÀI

LI
ỆU

THAM

KH
ẢO

[1]

Arktos : towards the modeling, design, control and execution of ETL processes, Panos
Vassiliadis*,

Zografoula

Vagena,

Spiros


Data

Warehouses,

Juan
Trujillo and Sergio Luj´n-Moraa, Dept. de Lenguajes y Sistemas Inform´ticosa Universidad
de Alicante (Spain).
[3]

Building the Data Warehouse, W.H.Inmon, Copyright © 2005

John Wiley & Sons, Inc.
[4]

Conceptual

Modeling

for

ETL

Processes,

Panos

Vassiliadis,

Alkis


Do,
University of Leipzig, Germany.
[7]

The

Data

Warehouse

ETL

Toolkit

Practical

Techniques

for

Extracting,

Cleaning,
Conforming, and Delivering Data,

Ralph Kimball, Joe Caserta.
[8]

Hierarchical


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status