1
H
Ọ
C
VI
Ệ
N
CÔNG
NGH
Ệ
BƯU
CHÍNH
VIỄ
N
THÔNG
QUY
TRÌNH
ETL
TRONG
KHO
D
Ữ
LI
Ệ
U
Ứ
NG
D
Ụ
NG
VÀO
H
Ệ
Chuyên
ngành:
Khoa
h
ọ
c
máy
tính
Mã
s
ố
:
60.48.01
TÓM
T
Ắ
t
ạ
i:
HỌC
VIỆN
CÔNG
NGHỆ
BƯU
CHÍNH
VIỄN
THÔNG Người hướng dẫn khoa học:
TS PHẠM THẾ QUẾ
Phản biện
1:………………………………………………………………………….
………………………………………………………………………….
-
Thư việ
n
c
ủ
a
H
ọ
c
vi
ệ
n
Công
ngh
ệ Bưu chính Viễ
n
thông
3
M
thông
sau
nh
ững năm phát triển đang lưu trữ
m
ộ
t
kh
ối lượ
ng
d
ữ
li
ệ
u
kh
ổ
ng
l
ồ
,
bao
d
ị
ch
v
ụ
thuê
bao,
thông
tin
c
ả
nh
b
ả
o
tình
tr
ạ
ng
h
vi
ễn thông v.v Lượ
ng
d
ữ
li
ệ
u
kh
ổ
ng
l
ồ
này
n
ếu đượ
c
khai thác đúng cách sẽ
là
m
ộ
t
l
các
d
ị
ch
v
ụ chăm sóc khách hàng
hay
các
ứ
ng
d
ụ
ng
mang
tính
th
ự
c
ti
ễn cao,
vi
ệ
c
xây
d
ự
ng
kho
d
ữ
li
ệ
u
t
ừ
nh
ữ
ng
ngu
ồ
n
d
ễ
n
thông.
Tuy
nhiên
vi
ệ
c
xây
d
ự
ng
m
ộ
t
h
ệ
th
ố
ng
nh
ỹ
thu
ậ
t,
đặ
c
bi
ệ
t
là
khi
kích
th
ướ
c
cũn
g
nh
ư
độ
tr
ữ
phân
tán
ở
nhi
ề
u
d
ạ
ng
không
t
ươ
ng
thích
v
ớ
i
nhau,
th
ệ
CSDL
đ
ã
đượ
c
xây
d
ự
ng
không
t
ươ
ng
thích
v
ớ
i
nhau
xây
d
ự
ng.
Nhi
ề
u
khách
hàng
không
tho
ả
mãn
v
ớ
i
nh
ữ
ng
h
ệ
các
thành
ph
ầ
n
khác
nhau,
m
ỗ
i
thành
ph
ầ
n
có
thi
ế
t
k
chính
ch
ị
u
trách
nhi
ệ
m
cho
quá
trình
ETL
(
Extract,
Transform,
Load)
trong
u
ngu
ồ
n
khác
nhau,
làm
s
ạ
ch,
tùy
ch
ỉ
nh
và
chuy
ển đổ
i,
và
ETL
chi
ếm đế
n
80%
phát
tri
ể
n
d
ự
án
và
55%
th
ờ
i
gian
t
ừ đó có thể
th
ể
mô
hình
hóa,
thi
ế
t
k
ế
và
t
ối ưu ETL trong việ
c
xây
d
ự
ng
kho
ệ
u
[6].
Với mục đích nghiên cứu về
các
quá
trình
ETL
trong việc xây dựng kho dữ liệu, tôi chọn đề
tài
“Nghiên
cứu
qu
y
trình
ETL
trong
kho
thông
”
.
1.
Mụ
c
đ
ích
c
ủ
a
đề
tài:
Ti
ế
p
c
ậ
n
các
ứ
u:
Vi
ệ
c
nghiên
c
ứ
u
s
ẽ
t
ậ
p
trung
vào
lý
thuy
ế
t
t
v
ớ
i
ngu
ồ
n
d
ữ
li
ệ
u
t
ừ
h
ệ
4
th
ố
ng
d
ữ
li
ệ
u
liên
quan
đế
n
các
k
ỹ
thu
ậ
t
ELT
trong
kho
d
ữ
li
ệu, các phương pháp xây dự
ng
Lu
ận văn gồm 3 chương
Chương
1:
T
ổ
ng
quan
v
ề
ETL
trong
kho
d
ữ
li
ệ
u
Chương này trình bày các khái niệ
m,
các
ệ
u.
T
ổ
ng
quan
v
ề
ETL,
các
thành
ph
ầ
n
và
vai
trò
ETL
trong
Chương này tậ
p
trung
vào
chi
ti
ế
t
các
thành
ph
ầ
n
c
ủa ETL, các bướ
c
th
ự
c
ph
ả
i
v
ớ
i
m
ỗ
i
thành
ph
ầ
n
c
ụ
th
ể
trong
m
ộ
t
h
ệ
tình
hu
ố
ng
trong
nh
ữ
ng
bài
toán
c
ụ
th
ể
.
Chương
3:
Xây
d
ự
ận văn trình bày mộ
t
th
ử
nghi
ệ
m
nh
ỏ
áp
d
ụ
ng
ph
ầ
n
lý
thuy
ết đã nêu ở
2
chương trước. Đó là áp dụ
ng
th
ấ
t
d
ữ
li
ệ
u
t
ừ
h
ệ
th
ố
ng
d
ữ
li
ệ
u
chi
ti
ế
t
cướ
QUAN
VỀ
ETL
TRONG
KHO
DỮ
LIỆU
1.
Kho
d
ữ
li
ệ
u
1.1.
Khái
t
ậ
p
h
ợ
p
d
ữ
li
ệ
u
tích
h
ợp theo hướ
ng
ch
ủ đề
,
tương đố
i
ổn đị
nh,c
ậ
p
nh.[2]
Như vậ
y,
có
th
ể
th
ấ
y
r
ằng thông thườ
ng
m
ộ
t
kho
d
ữ
li
ệu được xem như một cơ sở
d
ữ
li
n
cơ sở
d
ữ
li
ệ
u
tác
nghi
ệ
p.1.1.2.
Các
đặc
trưng
của
kho
dữ
liệu
ữ
li
ệ
u
trong
đ
ó
có
ch
ứ
a
b
ố
n
đặ
c
tính
sau:
h
ướ
ng
ch
1.1.3.
Kiến
trúc
kho
dữ
liệu
Mô
hình
ki
ế
n
trúc
c
ủ
a
h
ệ
u
ngu
ồ
n,
vùng
d
ữ
li
ệ
u
trung
gian
và
kho
d
ữ
li
ệ
u
.
d
ữ
li
ệ
u
1.1.3.1.
Kho
d
ữ
li
ệ
u
ch
ủ
đề
(Datamart)
Kho
d
ữ
nh
ữ
ng
đặ
c
đ
i
ể
m
gi
ố
ng
v
ớ
i
kho
d
ữ
li
ệ
u
nh
ư
ng
ệ
u
v
ề
m
ộ
t
lĩn
h
v
ự
c,
m
ộ
t
chuyên
ngành
c
ụ
th
ể
.
Siêu
d
ữ
li
ệ
u
(MetaData)
Metadata
là
m
ộ
t
lo
ạ
i
“d
ữ
li
ệ
u
t
ả
c
ấ
u
trúc
n
ộ
i
dung
v
ề
d
ữ
li
ệ
u
bên
trong
c
ơ
s
ở
vi
ệ
c
xây
d
ự
ng
và
t
ổ
ch
ứ
c
l
ư
u
tr
ữ
d
ữ
li
ệ
u
Cơ sở
d
ữ
li
ệ
u
t
ậ
p
trung
là
m
ộ
t
n
ề
n
t
ảng cơ bả
n
trên
công
ngh
ệ
c
ủ
a
H
ệ
th
ố
ng
qu
ả
n
tr
ị cơ sở
d
ữ
li
ệ
u
quan
s
ử
d
ụ
ng
theo
ba
cách
chính:
Cách
s
ử
d
ụ
ng
truy
ề
n
th
ố
ng
trên
các
công
c
ụ
truy
v
ấ
n
và
báo
cáo.
Nh
ờ
có
vi
ệ
c
trích
sang
d
ạ
ng
d
ữ
li
ệ
u
có
ch
ấ
t
l
ượ
ng
cao
và
có
tính
truy
v
ấ
n
chu
ẩ
n
SQL
và
các
công
c
ụ
làm
báo
cáo
truy
ề
n
d
ữ
li
ệ
u
thì
phân
tích
tr
ự
c
tuy
ế
n
có
kh
ả
nă
ng
sai.
Tuy
nhiên
phân
tích
tr
ự
c
tuy
ế
n
l
ạ
i
không
có
kh
ả
có
tính
ch
ấ
t
ph
ứ
c
t
ạ
p
nên
khó
có
th
ể
s
ử
d
ụ
ng
u
(Data
mining)Trong
hoàn
c
ả
nh
hi
ệ
n
nay
s
ự
phát
tri
ể
n
c
d
ữ
li
ệ
u
ph
ứ
c
t
ạ
p
và
có
kích
th
ướ
c
l
ớ
n.
Vi
ệ
h
ọ
c
và
trong
ho
ạ
t
độ
ng
th
ự
c
ti
ễ
n.1.1.5.
Thiết
k
ế
đượ
c
đưa
ra
l
ần đầ
u
tiên
b
ở
i
Raph
Kimball
như
là
m
ộ
t
l
ự
a
ch
d
ữ
li
ệ
u
đượ
c
xác
đị
nh
và
phân
lo
ạ
i
theo
2
ki
ể
u:
s
liên
k
ế
t).
1.1.5.2.
Gi
ả
n
đồ
hình
tuy
ế
t
r
ơ
i
Gi
ả
n
đồ
hình
tuy
sao,
t
ạ
i
đó
m
ỗ
i
cánh
sao
không
ph
ả
i
là
m
ộ
t
b
ả
ng
ỗ
i
b
ả
ng
theo
chi
ề
u
c
ủ
a
gi
ả
n
đồ
hình
sao
đượ
c
chu
ẩ
n
v
ấ
n,
t
ố
i
thi
ể
u
không
gian
đĩa
c
ầ
n
thi
ế
t
để
lưu
ệ
c
ch
ỉ
ph
ả
i
k
ế
t
h
ợ
p
nh
ữ
ng
b
ả
ng
có
kích
ng
có
kích
thướ
c
l
ớ
n
l
ạ
i
không
chu
ẩ
n
hóa.
1.1.5.3.
Gi
ả
n
đồ
d
ự
a
trên
b
ả
ng
S
ự
ki
ệ
n
và
nh
ữ
ng
b
ả
ng
Chi
ề
u
tuy
ế
t
r
ơ
i
trong
đ
ó
t
ấ
t
c
ả
các
b
ả
ng
Chi
ề
u
dữ
liệu1.2.1.
Khái
niệm
ETL
H
ệ
th
ố
ng
ETL
(Extract-Transform-Load)
là
n
ề
n
c
thi
ế
t
k
ế
cho
vi
ệ
c
trích
xu
ấ
t
d
ữ
li
ệ
u
t
ừ
o
các
ngu
ồn độ
c
l
ậ
p
có
th
ể
tích
h
ợ
p,
và
cu
ố
i
cùng
ng
d
ụ
ng
hay
ph
ụ
c
v
ụ
các
m
ục đích kho dữ
li
ệ
u.
[7,
tr.xii]1.2.1
Vai
m
ộ
t
vai
trò
quan
tr
ọ
ng
trong
vi
ệ
c
cung
c
ấ
p
cho
các
u
phù
h
ợ
p.
B
ả
n
ch
ấ
t
Kho
d
ữ
li
ệ
u
là
quá
trình
li
ệ
u
tác
nghi
ệ
p
và
chuy
ển đổ
i
thành
thông
tin
có
t
ổ
ch
ứ
c
li
ệ
u
và
h
ỗ
tr
ợ
quy
ết đị
nh
kinh
doanh.
Quá
b
ắt đầ
u
t
ừ
các
h
ệ
ự
ki
ệ
n
s
ẽ
chi
phí
ít
nh
ấ
t
70%
th
ờ
i
gian,
n
ỗ
l
ự
c
li
ệu [7, tr.23] có đưa ra một định nghĩa về
kho
d
ữ
li
ệ
u
nói
lên
vai
trò
c
ủ
a
ETL
trong
kho
d
ngu
ồ
n
t
ừ
r
ấ
t
nhi
ề
u
ngu
ồ
n
khác
nhau
và
có
th
ể
có
ừ
t
ệ
p
d
ữ
li
ệ
u
excel
hay
t
ừ
t
ệ
p
d
ữ
li
ệ
u
thô.
Vì
t
ừ
h
ệ
th
ố
ng
ngu
ồn để
x
ử
lý.
Chuy
ển đổ
i
:
Đây là quá trình rấ
t
ph
ứ
c
t
ạp
và
chuy
ển vào cơ sở
d
ữ
li
ệu đích.
T
ả
i
d
ữ
li
ệ
u
:
Đây là quá trình
đẩ
y
d
ữ
li
ệu sau khi đã đượ
c
i
vào
kho
d
ữ
li
ệ
u.
9
CHƯƠNG
2.
KIẾN
TRÚC
VÀ
CÁC
THÀNH
PHẦN
CỦA
ức năng ETL thự
c
hi
ệ
n
m
ộ
t
m
ục đích quan trọ
ng.
Khi
mu
ố
n
chuy
ể
n
d
ữ
li
ệ
u
ệ
c
th
ự
c
hi
ệ
n
các
ch
ức năng này đề
u
c
ầ
n
thi
ết. Để thay đổ
i
d
ữ
li
ệu thành thông tin, trướ
c
th
ể đơn giản là đổ
d
ữ
li
ệ
u
vào
kho.
D
ữ
li
ệ
u
ph
ải đượ
c
trích
xu
ấ
t
và
i
d
ữ
li
ệ
u,
nó
v
ẫ
n
không
h
ữ
u
ích
v
ới ngườ
i
s
ử
d
ụ
ữ
li
ệ
u
là
m
ộ
t
ch
ức năng
cu
ố
i
cùng
. Như vậ
y
ta
ph
ả
i
th
ự
c
chi
phí
cho
h
ệ
th
ố
ng
ETL
Nói
chung
ta
s
ẽ
tiêu
t
ố
n
cầu
với
ETL
và
các
bướcETL
Cho
bảng
sự
kiệnETL
cho
bảng
xử
lý
dữ
liệu
và
công
cụ
kiểm
thửKế
hoạch
cho
các
bảng
tổng
lập
các
luật
trích
xuất
dữ
liệuChuẩn
bị
cho
việc
ánh
xạ
giữa
cả
dữ
liệu
trong
và
ngoàiXác
định
các
dữ
liệu
đích
cần
thiết
trình
ETL.2.1.4.
Các
yếu
tố
quan
trọng
đối
với
ETL
-
Xác định được độ
ph
ứ
c
t
ự
ng
đượ
c
các
ch
ức năng trích xuấ
t
và
chuy
ển đổ
i
phù
h
ợ
p.
-
Xác định đượ
c
các
li
ệu để có phương án phù hợ
p.
10
2.2.
Vùng
dữ
liệu
trung
gian
Trong
t
ấ
t
c
ả
các
ki
ế
ệ
u
g
ọ
i
là
vùng
trung
gian
hay
còn
g
ọ
i
là
vùng
x
ử
lý.
mà
không
thông
qua
(ho
ặ
c
r
ấ
t
ít)
công
đ
o
ạ
n
x
ử
lí
nào.
d
ữ
li
ệ
u
bao
g
ồ
m
vi
ệc xác đị
nh
t
ấ
t
c
ả
các
ngu
ồ
n
d
ữ
Hình
2.2.
Các
xuất
dữ
liệu
2.3.2.1
Các
lo
ạ
i
k
ỹ
thu
ậ
t
trích
xu
ấ
t
D
ữ
li
ệ
i.
H
ầ
u
h
ế
t
các
thu
ộ
c
tính
trong
các
h
ệ
th
ố
ng
ngu
ồn rơi vào loạ
thu
ộ
c
tính
ngay
th
ời điể
m
này
c
ủ
a
th
ờ
i
gian.
Các
giá
tr
x
ả
y
ra,
các
giá
tr
ị
thay
đổi. Không có cách nào để
bi
ế
t
bao
lâu
giá
tr
ị
hi
ệ
này
không
ph
ổ
bi
ến như thể
lo
ại trướ
c.
Trong
lo
ạ
i
này,
giá
tr
ị
c
ủ
a
m
ộ
m
ỗ
i
th
ờ
i
điể
m,
gíá
tr
ị
tr
ạng thái được lưu trữ
v
ớ
i
tham
chi
ếu đế
n
th
ờ
i
d
ữ
li
ệ
u,
các
d
ữ
li
ệu ban đầ
u
v
ớ
i
m
ộ
t
th
ờ
i
gian
nh
i
ban đầ
u.
Nói
r
ộ
ng
ra,
có
2
lo
ạ
i
chính
c
ủ
a
trích
xu
li
ệu tĩnh chiế
m
ch
ủ
y
ế
u
trong
t
ải ban đầ
u,
và
trích
xu
ấ
t
d
ữ
li
ệu thay đổ
i
th
ờ
i
gian
th
ự
c
ho
ặ
c
trích
xu
ấ
t
ch
ậ
m
ch
ậ
m.
Trong
ch
ọ
n,
n
ắ
m
b
ắ
t
d
ữ
li
ệ
u
ch
ậ
m
ta
có
2
tùy
gian
th
ự
c
N
ắ
m
b
ắ
t
d
ữ
li
ệ
u
qua
b
ả
n
ghi
giao
c
ủ
a
h
ệ
qu
ả
n
tr
ị cơ sở
d
ữ
li
ệu đượ
c
duy
trì
cho
vi
ệ
c
khôi
c
ậ
p
nh
ậ
t
hay
xóa
m
ộ
t
b
ả
n
ghi
trong
b
ảng cơ sở
d
ữ
li
ệ
m
ộ
t
b
ả
n
ghi
log.
N
ắ
m
b
ắt thông qua trigger cơ sở
d
ữ
li
ệ
u.
Tùy
ch
ọn này cũng đượ
c
ng
ứ
ng
d
ụng cơ sở
d
ữ
li
ệ
u.
Ta
có
th
ể
t
ạ
o
các
trigger
cho
t
ấ
c
ủa trigger đượ
c
ghi
vào
m
ộ
t
t
ệp độ
c
l
ậ
p
và
s
ẽ đượ
c
s
ử
d
ụng để
và
duy
trì
trigger
trong
su
ố
t
các
quá
trình
c
ủ
a
h
ệ
th
ố
ng
t
trong
các
ứ
ng
d
ụ
ng
ngu
ồ
n.
K
ỹ
thu
ật này đượ
c
xem
n
hư nắ
m
b
ắ
d
ụ
ng
ngu
ồn đượ
c
th
ự
c
hi
ện để
h
ỗ
tr
ợ
cho
vi
ệ
c
n
ắ
m
b
ắ
ng
d
ụng liên quan đượ
c
vi
ế
t
cho
các têp và cơ sở
d
ữ
li
ệ
u
ngu
ồ
n
2.3.2.3.
Các
k
ỹ
thu
trên
ngày
tháng
và
nhãn
th
ờ
i
gian.
M
ỗ
i
khi
m
ộ
t
b
ản ghi đượ
c
m
ộ
t
nhãn
bi
ể
u
di
ễ
n
b
ở
i
ngày
và
th
ờ
i
gian.
Nhãn
cho
vi
ệ
c
trích
xu
ấ
t.
Trích
xu
ấ
t
b
ằ
ng
cách
so
sánh
t
tin
ngu
ồ
n
c
ụ
th
ể, khi đó kỹ
thu
ật này được xem như biệ
n
pháp
cu
ố
i
cùng.
K
ỹ
thu
ật này cũng đượ
c
g
gi
ữ
a
ả
nh
ch
ụ
p
b
ở
i
vì
nó
so
sánh
2
ả
nh
ch
ụ
p
và
chuyển
đổi
dữ
liệu
2.4.1
Các
nhiệm
vụ
cơ
bản
của
chuyển
đổi
dữ
b
ộ
quá
trình
chuy
ển đổ
i.
Có
th
ể
toàn
b
ộ
ho
ặ
c
m
ộ
t
s
ố
b
g
ồ
m
các
lo
ạ
i
thao
tác
d
ữ
li
ệu để
th
ự
c
hi
ệ
n
vi
ệ
n
hóa
gi
ữ
a
d
ữ
li
ệ
u
trích
xu
ấ
t
t
ừ
các
ngu
ồ
n
khác
T
ổ
ng
h
ợ
p.
Khi
vi
ệc lưu trữ
d
ữ
li
ệ
u
t
ổ
ng
h
ợ
p
đượ
c
yêu
m
v
ụ
này
s
ắ
p
x
ếp và đơn giản hóa các trườ
ng
riêng
bi
ết để
làm
cho
chúng
tr
ở
nên
h
ữ
nh
d
ạ
ng.
-
Gi
ải mã các trườ
ng.
-
Giá
tr
ị
tính
toán
và
giá
tr
ị
th
ứ
.
-
Chuy
ển đổi đơn vị đo lườ
ng.
-
Chuy
ển đổ
i
th
ờ
i
gian.
-
T
ổ
ng
h
ợ
p.
hợp
nhất
dữ
liệu
2.4.3.1. Xác
đị
nh
th
ự
c
th
ể
trong
chuy
ển đổ
i
d
ữ
li
ệ
ng
khác
nhau,
làm
th
ế
nào
để
t
ổng hơp
các
ngu
ồ
n
này
mà
không
s
ợ
b
ị
các
b
ả
n
gi,
không
phân
bi
ệt
có
trùng
nhau
hay
không,
đượ
c
đị
nh
trùng
m
ột cách đị
nh
k
ỳ
thông
qua
các
gi
ả
i
thu
ậ
t
t
ự
độ
ng
và
u.
V
ấn đề
này
là
k
ế
t
qu
ả
c
ủ
a
vi
ệ
c
m
ộ
t
ph
ầ
n
các
ngu
ồ
n
và
ch
ọ
n
ngu
ồn có độ ưu tiên cao
2.4.4.
Chuyển
đổi
các
thuộc
tính
chiều
Trong
các
phương pháp để
x
ử
lý
các
lo
ại thay đổ
i
d
ữ
li
ệ
u
chi
ề
u.
-
Thay đổ
i
lo
ạ
i
li
ệ
u
không
c
ầ
n
gi
ữ
tính
l
ị
ch
s
ử
.
-
Lo
ại 2 thay đổ
i
gi
ữ
i
d
ự
ki
ến nơi ngườ
i
dùng
c
ầ
n
có
kh
ả năng phân
tích
các
s
ố
li
ệ
u
trong
T
ải
đầ
u
tiên
–
t
ậ
p
h
ợ
p
t
ấ
t
c
ả
các
b
ả
ng
ụ
ng
trên
nh
ững thay đổ
i
khi
c
ầ
n
thi
ế
t
m
ột cách đị
nh
kì
Làm
tươi
toàn
b
ả
ng
và
t
ả
i
l
ạ
i
v
ớ
i
d
ữ
li
ệ
u
m
ớ
i
(
Có
4
mô
hình
t
ả
i
d
ữ
li
ệ
u
:
Load,
Append,
Destructive
Merge,
Constructive
ạ
i
trong
b
ả
ng,
quá
trình
t
ả
i
s
ẽ
xóa
d
ữ
li
ệu đã có và tả
i
d
ữ
li
ải đơn giả
n
t
ả
i
d
ữ
li
ệ
u
t
ừ file đế
n.
Append.
Ta
có
th
ể
coi
vi
ệ
c
ệu đã
t
ồ
n
t
ạ
i
trong
b
ả
ng,
ti
ế
n
trình
append
s
ẽ thêm vô điề
u
ki
ệ
n
b
ả
ng
m
ụ
c
tiêu.
Khi
m
ộ
t
b
ả
n
ghi
trùng
v
ớ
i
m
có
th
ể cho phép thêm vào như là
d
ữ
li
ệu
trùng.
Trong
trườ
ng
h
ợ
p
khác,
b
ả
n
ghi
trùng
Trong
mô
hình
này,ta
t
ả
i
d
ữ
li
ệu đầ
u
vào
vào
b
ả
ng
d
ữ
li
ộ
t
b
ản ghi đã có, khi đó nó cậ
p
nh
ậ
t
b
ả
n
ghi đích tương ứ
ng.
N
ế
u
b
ản ghi đầ
u
vào
là
đã có, khi đó bản ghi đượ
c
thêm
vào
b
ả
ng
d
ữ
li
ệu đích.
Constructive
Merge.
Ch
ế độ này hơi khác so vớ
i
Destructive
Merge
.
N
ế
a
b
ản ghi đã có, để
l
ạ
i
b
ả
n
ghi
này,
thêm
b
ả
n
ghi
m
ới và đánh
d
ấ
u
cho
3
lo
ạ
i
t
ả
i
c
ủ
a
kho
d
ữ
li
ệ
u.
*)
Quy
trình
ch
ạy đầ
u
tiên
c
ủ
a
t
ải ban đầ
u
ta
s
ử
d
ụ
ng
ki
ể
u
t
ải Load, sau đó tiế
p
t
ục thay đổ
i
theo
các
h
ệ
th
ố
ng
ngu
ồ
n.
Vì
v
ậ
y,
ta
c
ầ
n
ph
ầ
n
khóa
chính
ho
ặ
c
n
ế
u
nhãn
th
ờ
i
gian,
khi đó cấ
u
trúc
ng
Constructive Merge.
Các
b
ản ghi đã có có thể
xóa
b
ỏ
và
thay
th
ế
b
ằ
ng
d
ữ
li
ệ
u
m
ớ
i.
mà
b
ả
ng
m
ụ
c
tiêu
l
ị
ch
s
ử
không
quan
tr
ọ
ng.
S
ử
d
ghi
l
ạ
i
toàn
b
ộ
kho
d
ữ
li
ệu. Đôi
khi,
ta
c
ầ
n
làm
m
ớ
i
m
b
ở
i
vì
m
ọ
i
b
ả
ng
chi
ều đượ
c
g
ắ
n
v
ớ
i
b
ả
t
ải ban đầ
u,
ta
có
th
ể
duy
trì
kho
d
ữ
li
ệ
u
và
c
ậ
p
nh
cho
d
ữ
li
ệu thay đổ
i
trong
h
ệ
th
ố
ng
ngu
ồ
n.
Làm tươi
–
t
ả
i
l
Trong
kho
d
ữ
li
ệ
u,
ta
s
ử
d
ụ
ng
khóa
sinh
b
ở
i
h
ủ
a
chúng.
Vì
v
ậy, trướ
c
khi
d
ữ
li
ệ
u
ngu
ồ
n
có
th
ể đưa vào bả
ng
chi
thì
khóa
c
ủ
a
s
ả
n
ph
ẩ
m
c
ầ
n
chuy
ể
n
sang
khóa
c
ủ
chuy
ển đổi khóa như mộ
t
ph
ầ
n
c
ủ
a
ch
ức năng
truy
ển đổ
i
ho
ặ
c
th
ự
c
hi
ệ
n
Tải
lịch
sử
và
tải
gia
tăng
cho
bảng
sự
kiện
Khóa
c
ủ
a
b
ợ
p
các
khóa
c
ủ
a
b
ả
ng
chi
ề
u.
Do
nguyên
nhân
này,
các
b
ệ
u
cho
các
b
ả
ng
s
ự
ki
ệ
n,
ta
ph
ả
i
t
ạ
o
khóa
k
b
ả
ng
chi
ề
u.
CHƯƠNG
3.
XÂY
DỰNG
MODULE
TRÍCH
XUẤT
DỮ
LIỆU
TRONGETL
ố
yêu
c
ầu đố
i
v
ớ
i
ứ
ng
d
ụ
ng:
-
Đả
m
b
ảo tính đúng đắ
n
vè
m
ặ
t
th
ủ
các
lu
ậ
t
trong
vi
ệ
c
trích
rút
d
ữ
li
ệ
u.
-
Ứ
ng
d
d
ữ
li
ệ
u
khác
nhau.
-
Cho
phép
theo
dõi
và
c
ả
nh
báo
v
ề các thay đổ
trình
khai
thác.
3.1
.2.
Phạm
vi
nguồn
dữ
liệu
li
ệ
u
16
-
D
ữ
li
ệ
u
tiêu
th
ụ
cu
ộ
c
g
ọ
i
và
SMS
D
ữ
li
ệ
u
LACCELL
3.2
Phân
tích
yêu
cầu
bài
toán3.2.1.
Kiến
trúcHình
3.2.
Ki
ế
n
trúc
ứ
ng
d
ụ
ng
V
ớ
i
yêu
c
ầ
d
ữ
li
ệ
u
h
ệ
th
ố
ng
trích
xu
ấ
t
d
ữ
li
ệu đượ
c
thi
ế
t
k
ế để
n
ố
i
bao
g
ồ
m
-
K
ế
t
n
ố
i
d
ữ
li
ệ
u
t
ừ
h
ệ
K
ế
t
n
ố
i
v
ớ
i
d
ữ
li
ệ
u
Oracle
qua
k
ế
t
n
ối cơ sở
d
ữ
chuyên
đề
DATA_CALL
ữ
li
ệ
u
LAC_CELL_DIM:
Chi
ề
u
d
ữ
li
ệ
u
thông
tin
v
ề
v
ị
trí
c
ủ
a
tin
v
ề
ki
ể
u
Chi
ề
u
d
ữ
li
ệ
u
OWNER_DIM:
Chi
ề
u
d
ữ
li
ệ
u
ữ
li
ệ
u
thông
tin
v
ề
t
ỉ
nh
thành
Chi
ề
u
d
ữ
li
ệ
u
ACTIVITY_TYPE_DIM:
Chi
ệ
u
TIME_CALENDAR_DIM:
Chi
ề
u
d
ữ
li
ệ
u
th
ờ
i
gian
Mô
hình
kho
d
3.2.3.
Nguồn
dữ
liệu3.2.2.1.
D
ữ
li
ệ
u
t
ừ
h
ệ
th
ố
ng
tr
ả trướ
c
Ngu
c
ủ
a
h
ệ
th
ống cơ sở
d
ữ
li
ệ
u
c
ủ
a
Vinaphone
s
ử
d
ụ
ng
h
ệ
qu
ả
ử
a
s
ổ
th
ờ
i
gian:
th
ờ
i
gian
2h-4h
sáng.
Phương
pháp
trích
xuấ
t:
th
ời gian như vậy đây
là
ki
ể
u
trích
xu
ất đị
nh
k
ỳ
.
N
ắ
m
b
ắt
thay
đổ
i
ng
ngày
tháng
và
nhãn
th
ờ
i
gian.
Các
lu
ậ
t
trích
xu
ấ
t
d
ữ
ệ
u
thu
ộ
c
d
ạ
ng
tho
ạ
i
hay
SMS
-
Các
b
ả
n
ghi
d
các
lo
ạ
i
tài
kho
ả
n
khác
r
ỗ
ng.
*)
Ngu
ồ
n
d
ữ
li
ệ
u
thông
tin
v
ề
d
ữ
li
ệ
u
trên
các
lo
ạ
i
tài
kho
ả
n
khác
r
ừ
ti
ề
n
t
ừ
các
h
ệ
th
ố
ng
khác.
DataCallMapping
19
Mô
hình
hóa
ánh
x
ạ
<<Attribute>>
DATA_CALL_HISTORY
.END_CA LL_DATE_TI
ME <<Ma p>>
<<Ma p>>
AC TI VITY _ T YP E<<Ma p>><<Attribute>>
ACTIVITY_TYPE<<Attribute>>
DATA_CALL_HISTORY
.CALLED _NUMBER<<Attribute>>
DATA_CALL_HISTORY
.CELL_ID
<<Ma p>>
<<Ma p>>
Lọc:
Chỉ
lấy
các
bản
ghi
thuộc
loại
Voice
hoặc
SMS
<<Ma p>><<Ma p>><<Ma p>>
bản
ghi
có
A1_S+A2_S+A4 _S+A7 _S<>0
(Có
tiêu
thụ
trên
các
TKC,
TKK M,TKKM1,TKKM2) Hình
3.4
u
t
ừ
h
ệ
th
ống tính cướ
c3.2.2.3.
Trích
xu
ấ
t
d
ữ
li
ệ
u
Lac-cell.
20
3.3.
3: Get Data()
4: Install Data() 5: Get changes()
6: Get Connection M()
7: Check Data()
8: Get Data M() 9: Inform Integrator M()
10: Update data() 11: Identify new source()
12: Assign components()
13:Inform Integrator()
ữ
li
ệ
u
21
3.4.
Cài
đặt
thử
nghiệm
module
trích
xuất
dữ
liệu3.4.1.
u
hình
ứ
ng
d
ụ
ng
<translation>
<source
url=“…”,
etc
>
<column
name=“…”>
[<rule
language=“…”>
</rule>]
</column>
[<column
name=“…”>[<rule></rule>]</column>]
</source>
t
v
ớ
i
d
ữ
li
ệ
u
th
ử
nghi
ệ
m
d
ữ
li
ệ
u
22
-
Giao
di
ệ
n
chính
-
Ch
ức năng cấ
u
hình
tham
s
xu
ấ
t
-
K
ế
t
qu
ả
th
ử
nghi
ệ
m
trích
xu
ấ
t
d
ữ
li
ệ
u
-
K
ế
t
qu
ả
th
ử
nghi
ệ
m
trích
xu
ấ
t
d
ữ
li
ệ
u
MTA
h
ệ
th
ố
ng
th
ử
nghi
ệ
m,
xây
d
ự
ng
thi
ế
t
k
ế
module
trích
xu
ữ
li
ệ
u
ở chương hai
vào trườ
ng
h
ợ
p
d
ữ
li
ệ
u
c
ụ
th
ể
.
Bên
c
ạnh đó cũng
ch
ỉ
lo
ạ
i
thông
tin
c
ụ
th
ể
v
ớ
i
m
ộ
t
s
ố
h
ạ
n
ch
ế
các
h
ạ
n
ch
ế đó, họ
c
viên đề
xu
ấ
t,
phân
tích
thi
ế
t
k
ế
và
xây
d
ự
ng
c
d
ữ
li
ệu đầ
u
vào,
ti
ế
p
t
ụ
c
phát
tri
ể
n
các
module
chuy
ển đổ
c
ụ
ETL
hoàn
ch
ỉ
nh.
23
KẾT
LUẬN
Lu
ậ
n
vă
n
nghiên
c
ứ
u
“
NGHIÊN
H
Ệ
TH
Ố
NG
D
Ữ
LI
Ệ
U
KINH
DOANH
TRONG
DOANH
NGHI
Ệ
P
VI
Ễ
N
ki
ế
n
trúc,
và
công
c
ụ
để
xây
d
ự
ng
công
c
ụ
ETL
ph
ụ
các
ph
ươ
ng
pháp,
k
ỹ
thu
ậ
t
trích
xu
ấ
t,
chuy
ển
đổ
i,
t
ả
i
ợ
p
c
ụ
th
ể để
mang
l
ạ
i
hi
ệ
u
qu
ả
cao
nh
ấ
t
cho
h
ệ
th
th
ử
nghi
ệ
m
t
ừ
h
ệ
th
ố
ng
ngu
ồ
n
d
ữ
li
ệ
u
kinh
c
ă
n
có
gi
ớ
i
h
ạ
n
nên
lu
ậ
n
v
ă
n
ch
ỉ
d
ừ
ng
l
cho
m
ộ
t
s
ố
ngu
ồ
n
d
ữ
li
ệ
u
chính
c
ủa đơn vị
K
ế
t
d
ữ
li
ệ
u
t
ừ
các
ngu
ồ
n
d
ữ
li
ệ
u
v
ớ
i
khuôn
d
ạng khác nhau như Oracle, FoxPro, Excel
.
cho
h
ệ
th
ố
ng
th
ự
c
t
ế đang trong quá trình
tri
ể
n
khai.
Trong
tương
tai
học
module
t
ả
i
d
ữ
li
ệu để
t
ạ
o
ra
môt
h
ệ
th
ố
ng
ETL
hoàn
ch
ỉ
ch
ỉ
trong
lĩnh
vự
c
vi
ễ
n
thông
mà
trong
nhi
ều
lĩnh
vự
c
khác nhau.
ETL
cho
vi
ệ
c
xây
d
ự
ng
h
ệ
th
ố
ng
d
ữ
li
ệ
u
kinh
doanh
i
các
doanh
nghi
ệ
p.
Vi
ệ
c
hi
ể
u
đượ
c
t
ầ
m
quan
tr
ọng
trong
vi
ệ
c
xây
d
ự
ng
cho
h
ệ
th
ố
ng
kho
d
ữ
li
ệ
u
nói
li
ệ
u
nói
chung.
24
TÀI
LI
ỆU
THAM
KH
ẢO
[1]
Arktos : towards the modeling, design, control and execution of ETL processes, Panos
Vassiliadis*,
Zografoula
Vagena,
Spiros
Data
Warehouses,
Juan
Trujillo and Sergio Luj´n-Moraa, Dept. de Lenguajes y Sistemas Inform´ticosa Universidad
de Alicante (Spain).
[3]
Building the Data Warehouse, W.H.Inmon, Copyright © 2005
John Wiley & Sons, Inc.
[4]
Conceptual
Modeling
for
ETL
Processes,
Panos
Vassiliadis,
Alkis
Do,
University of Leipzig, Germany.
[7]
The
Data
Warehouse
ETL
Toolkit
Practical
Techniques
for
Extracting,
Cleaning,
Conforming, and Delivering Data,
Ralph Kimball, Joe Caserta.
[8]
Hierarchical