1
ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH
TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ
PHÁT TRIỂN NÔNG THÔN VIỆT NAM
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2013
2
ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH
TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ
PHÁT TRIỂN NÔNG THÔN VIỆT NAM
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý hệ thống thông tin
Mã số: Chuyên ngành đào tạo thí điểm
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: Chức danh khoa học và Họ tên
3
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết luận được đưa ra trong luận văn là trung thực,
có nguồn gốc rõ ràng.
Tác giả luận văn
Lê Mạnh Tuấn
4
LỜI CẢM ƠN
Để hoàn thành được hoàn thành được công trình nghiên cứu này, ngoài sự nỗ
các dữ liệu dạng file,… 17
Data Warehouse (Kho dữ liệu tập trung): bao gồm CSDL tích hợp và các CSDL
chủ đề 17
BI:tầng ứng dụng khai thác và phân tích thông tin hỗ trợ quyết định; các end-user
tương tác với hệ thống qua tầng BI này 17
Administration: Metadata và quản trị hệ thống 17
2.1.2. Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI 17
2.1.3. Phân biệt giữa hệ thống OLTP và hệ thống DSS 18
1.5. Các phương pháp luận xây dựng hệ thống DW&BI 18
2.2.1. Phương pháp luận Top-down 19
2.2.2. Phương pháp luận Bottom-up 19
2.2.3. Phương pháp luận Spiral 19
2.2.4. Ưu/Nhược điểm của từng phương pháp 20
2.2.5. Cơ sở lựa chọn phương pháp luận 21
CHƯƠNG III. THIẾT KẾ MỘT HỆ THỐNG DATA WAREHOUSE VÀ BI 22
1.6. Thiết kế logic một hệ thống DW và BI 22
3.1.1. Phạm vi công việc và phương pháp thực hiện của giai đoạn Thiết kế logic
22
3.1.2. Thiết kế tổng thể 23
DSA nguồn: chứa dữ liệu tương ứng với một nguồn cụ thể, ở dạng 1:1 về nội
dung và cấu trúc, phạm vi dữ liệu là một phiên 24
DSA đích: chứa dữ liệu tổng hợp từ các DSA nguồn, phạm vi dữ liệu là một
phiên, cấu trúc DSA ở dạng thuận tiện cho việc chuyển đổi dữ liệu vào CSDL tích
hợp 24
3.1.3. Thiết kế chi tiết từng thành phần 25
Các trường thông tin tổng hợp (aggregate data): các giá trị tổng hợp và tính sẵn
(ví dụ: tổng số lượng, tổng tiền, số lượng lớn nhất, số lượng nhỏ nhất, số lượng
trung bình,…) 26
Các trường thông tin dẫn xuất (derived data): các giá trị được tính theo công thức
dựa trên các trường thông tin tổng hợp đã có 26
Không cần các trường aggregate, derived 31
Primary Key: kiểu số, dùng Surrogate Key nếu Primary Key hiện thời chưa phải
là kiểu số 31
Foreign Key: sang các bảng dimension 31
Các trường measure 31
Với bảng fact: thường chia partition theo chiều thời gian (tức là chia theo trường
FK link sang bảng dimension thời gian) 31
Với các bảng dimension lớn, có sự tăng trưởng dữ liệu: chia partition theo trường
có nhu cầu tìm kiếm chủ yếu (nếu xác định được) 31
Thiết kế các index 31
Thiết kế giải pháp phi chuẩn: 31
là CSDL có cấu trúc tương đương với EM (CSDL hình bông tuyết), là nơi chứa
dữ liệu kết quả cuối cùng của giai đoạn xử lý, làm sạch và tích hợp trước khi đưa
vào EM 32
chỉ có một DSA đích 32
là CSDL có cấu trúc tương đương với dữ liệu nguồn (mô hình CSDL quan hệ
thông thường) và chứa dữ liệu nguyên bản của nguồn (sau đó mới xử lý, làm sạch).
32
Có nhiều DSA nguồn: ứng với mỗi dữ liệu nguồn cần một DSA nguồn 33
7
Vẽ sơ đồ ERD cho DSA đích giống với ERD của EM (nên tạo các bảng trùng tên
với bảng tương ứng trong EM) 33
Thiết kế các bảng dimension, các bảng fact, các bảng slave giống như trong EM
33
Thiết kế các index: tương như index EM 33
Mục tiêu của thiết kế các DSA nguồn: 33
Dựa trên tài liệu khảo sát dữ liệu nguồn, xác định danh sách các nguồn dữ liệu
cần đưa vào kho dữ liệu tập trung, với mỗi nguồn dữ liệu thiết kế một DSA nguồn:
33
Làm sạch: chuẩn hóa hoặc loại bỏ các dữ liệu không hợp lệ, không toàn vẹn. 34
Các OLAP cube 37
Với mỗi CSDL, cần thiết kế: 38
từ Data Source sang DSA 38
từ các DSA nguồn sang DSA đích 38
từ DSA đích sang EM 38
từ EM sang các DM 38
Lớp dữ liệu tham chiếu 38
8
Các thông tin kết quả 38
Các công cụ khai thác, cổng thông tin. 38
3.2.2. Thiết kế mô hình vật lý của hệ thống 38
3.2.3. Thiết kế vật lý các CSDL trong DW 39
Mức 1 – Disk to Disk: backup dữ liệu từ đĩa của hệ thống ra đĩa backup 40
Mức 2 – Disk to Tape: chuyển dữ liệu từ đĩa backup ra tape (có thể lấy tape ra và
mang đi chỗ khác được) 40
3.2.4. Thiết kế chi tiết tiến trình ETL 40
Nếu bảng được thiết kế ở dạng có lưu vết các thay đổi dữ liệu: Căn cứ vào lưu
vết để lọc ra những bản ghi mới hoặc thay đổi trong khoảng thời gian chu kỳ 41
Nếu bảng không có lưu vết (chỉ có dữ liệu mới nhất): Sử dụng phương pháp so
sánh giữa bảng dữ liệu nguồn với bảng dữ liệu tương ứng trong DW để tìm ra các
bản ghi mới hoặc có thay đổi 41
Với các bảng chi tiết giao dịch 41
Các bảng giao dịch chi tiết luôn có trường thời gian thể hiện thời điểm giao dịch
hoặc thời điểm lưu bản ghi giao dịch, căn cứ vào trường này xác định các bản ghi
được thêm mới trong khoảng thời gian của chu kỳ 41
Làm sạch: 41
Bổ sung: 41
Cập nhật trực tiếp: Cập nhật giá trị mới cho các bản ghi được xác định là thay đổi
ở bảng dimension tương ứng. Trong trường hợp này, kể từ thời điểm cập nhật, kết
quả truy vấn sẽ thay đổi theo giá trị mới nhất. Ví dụ: một doanh nghiệp chuyển đổi
Tổng hợp từ các thành phần đã tính ở trên 46
3.2.7. Lập yêu cầu về cấu hình phần cứng 46
Số lượng người sử dụng, số lượng session truy cập đồng thời 46
Tính sẵn sàng của hệ thống, thời gian tối đa dừng hệ thống trong giờ, ngoài giờ46
Thời gian tối đa cho một lần tra cứu thông tin, báo cáo,… 46
Đảm bảo toàn vẹn dữ liệu 46
Các yêu cầu khác 46
Lưu trữ dữ liệu 46
Hệ điều hành và hệ quản trị CSDL 47
Dự phòng 47
Sao lưu 47
CHƯƠNG IV. PHÂN TÍCH THIẾT KẾ DATA WAREHOUSE VÀ BI TẠI
NHNo&PTNN VIỆT NAM 48
1.8. Phân tích hệ thống 48
4.1.1. Kiến trúc vật lý hệ thống CSDL tại NHNo&PTNT Việt Nam 48
4.1.2. Kiến trúc logic CSDL phần nghiệp vụ tín dụng 48
KẾT LUẬN 49
TÀI LIỆU THAM KHẢO 50
PHỤ LỤC 51
10
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Stt Từ, cụm từ Nội dung Ghi chú
1 NHNo&PTNN Ngân hàng Nông nghiệp và Phát triển
Nông thôn Việt Nam
2 CN Chi nhánh
3 CNTT Công nghệ thông tin
4 DW Kho dữ liệu (Data Warehouse)
5 BI Hệ thống hỗ trợ ra quyết định (Business
Intelligence)
6 DW&BI Data Warehouse và Business Intelligence
lược kinh doanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu.
Tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam việc xây dựng
kho dữ liệu và hệ thống hỗ trợ ra quyết định về hoạt động tín dụng là rất cần thiết. Kho
dữ liệu sẽ thu thập dữ liệu từ hệ thống nghiệp vụ, cung cấp các thông tin hữu ích cho
các nhà quản lý có thể có những thông tin chính xác, nhanh chóng, hỗ trợ cho việc ra
các quyết định kịp thời và có lợi nhất cho hoạt động tín dụng của NHNo. Ngoài ra,
kho dữ liệu còn hỗ trợ trong công việc quản trị rủi ro tín dụng – một vấn đề hết sức
quan trọng trong bối cảnh khó khăn hiện tại của các ngân hàng.
Xuất phát từ nhu cầu thực tế tại NHNo, luân văn sẽ thực hiện “Áp dụng kho dữ
liệu và hệ thống hỗ trợ ra quyết định trong hoạt động tín dụng tại Ngân hàng Nông
nghiệp và phát triển Nông thôn Việt Nam” bằng công cụ Oracle Warehouse Builder
với mong muốn xây dựng kho dữ liệu hoàn chỉnh hỗ trợ cho việc quản lý và ra quyết
định tại NHNo.
2. Mục tiêu đề tài
Xây dựng kho dữ liệu, hệ thống hỗ trợ ra quyết định cho việc quản lý các hoạt
động tín dụng tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam. Đề tài sẽ
sử dụng các công cụ của Oracle để xây dựng kho dữ liệu từ dữ liệu tín dụng hiện tại
của NHNo, quản lý kho dữ liệu và xây dựng các báo cáo cho người dùng có thể xem
qua web.
3. Phạm vi và Đối tượng của đề tài:
- Đối tượng nghiên cứu: Các văn bản, dữ liệu có liên quan đến hoạt động tín
dụng tại NHNo.
12
- Phạm vi áp dụng: đề tài được áp dụng cho hoạt động tín dụng tại NHNo.
4. Kết quả của đề tài
Bản thiết kế logic, thiết kế vật lý kho dữ liệu và hệ thống hỗ trợ ra quyết định
về các hoạt động tín dụng của NHNo. Xây dựng kho dữ liệu với mẫu dữ liệu thực tế,
đưa ra các báo cáo cho người dùng cuối.
5. Kết cấu của đề tài
Đề tài được kết cấu gồm 5 phần (chương) chính trong đó:
Tên viết tắt: Agribank (AGR)
Vốn điều lệ: 29,605,000,000,000 VND (Hai mươi chín nghìn sáu trăm linh năm
tỷ đồng Việt Nam)
Trụ sở hoạt động
Địa chỉ: số 18 Trần Hữu Dực, khu đô thị mới Mỹ Đình I, huyện Từ Liêm, TP
Hà Nội.
Điện thoại: (84-4) 3.8313.717
Fax: (84-4) 3.8313.719
Website: />1.1.2. Lịch sử hình thành, phát triển của NHNo&PTNT Việt Nam
Năm 1988, Ngân hàng Phát triển nông nghiệp Việt Nam được thành lập theo
Nghị định số 53/HĐBT ngày 26/3/1988 của Hội đồng Bộ trưởng (nay là Chính phủ) về
việc thành lập các ngân hàng chuyên doanh, trong đó có Ngân hàng Phát triển nông
nghiệp Việt Nam hoạt động trong lĩnh vực nông nghiệp, nông thôn.
Ngày 14/11/1990, Chủ tịch Hội đồng Bộ trưởng (nay là Thủ tướng Chính phủ)
ký Quyết định số 400/CT thành lập Ngân hàng Nông nghiệp Việt Nam thay thế Ngân
hàng Phát triển nông nghiệp Việt Nam. Ngân hàng Nông nghiệp Việt Nam là ngân
hàng thương mại đa năng, chuyển hẳn sang kinh doanh tiền tệ, tín dụng và dịch vụ
ngân hàng đối với các thành phần kinh tế, chủ yếu trong lĩnh vực nông, lâm, ngư, diêm
nghiệp; là một pháp nhân, hạch toán kinh tế độc lập, tự chủ, tự chịu trách nhiệm về
hoạt động của mình trước pháp luật. Vốn điều lệ của Ngân hàng Nông nghiệp Việt
Nam thời điểm này là 200 tỷ đồng; thời gian hoạt động 99 năm.
Ngày 15/11/1996, được Thủ tướng Chính phủ ủy quyền, Thống đốc Ngân hàng
Nhà nước Việt Nam ký Quyết định số 280/QĐ-NHNN đổi tên Ngân hàng Nông
nghiệp Việt Nam thành Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam.
Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam hoạt động theo mô
hình tổng công ty 90, là doanh nghiệp nhà nước hạng đặc biệt, hoạt động theo Luật các
14
tổ chức tín dụng và chịu sự quản lý trực tiếp của Ngân hàng Nhà nước Việt Nam. Với
tên gọi mới, ngoài chức năng của một ngân hàng thương mại, Ngân hàng Nông nghiệp
và Phát triển nông thôn Việt Nam được xác định thêm nhiệm vụ đầu tư phát triển đối
- Một số báo cáo đang tổng hợp dữ liệu trực tiếp từ hệ thống, đấy
là dữ liệu nghiệp vụ chưa qua xử lý, còn dư thừa nhiều, không phù hợp với một
hệ thống báo cáo và phân tích số liệu.
15
Ngoài hệ thống cơ sở dữ liệu tác nghiệp, NHNo còn xây dựng một cơ sở dữ liệu
phục vụ riêng cho công việc tạo báo cáo. Hệ thống này được gọi là MIS (hệ thống
thông tin báo cáo tập trung). Cuối mỗi ngày hệ thống tác nghiệp thực hiện các tác vụ
tự động đẩy dữ liệu sang hệ thống MIS. Các báo cáo sẽ tổng hợp dữ liệu từ hệ thống
MIS để tránh ảnh hưởng đến hoạt động của hệ thống tác nghiệp trong giờ hành chính.
Ta có thể thấy hệ thống báo cáo như vậy gặp một số vấn đề như sau:
- Dữ liệu của hệ thống MIS vẫn là dữ liệu thô, chưa qua xử lý.
- Dữ liệu không phải là dữ liệu mới nhất trên hệ thống tác nghiệp,
do cuối mỗi ngày mới đẩy dữ liệu từ hệ thống tác nghiệp sang hệ thống MIS.
- Dữ liệu của hệ thống MIS sẽ ngày một nhiều, gây khó khăn cho
công việc tạo báo cáo.
1.3. Tại sao cần xây dựng DW&BI tại NHNo&PTNT Việt Nam
Qua đánh giá sơ bộ về hệ thống cơ sở dữ liệu và hệ thống báo cáo hiện tại của
NHNo có thể nhận thấy:
- Hệ thống báo cáo hiện tại là một hệ thống mang tính giải pháp
tình thế, nhằm giảm tải cho hệ thống tác nghiệp.
- Chưa đáp ứng được nhu cầu phân tích số liệu của NHNo ví dụ
như phân tích tình hình nợ xấu hàng năm, dự báo tình hình nợ xấu của năm sau.
- Chưa hỗ trợ được các nhà quản lý trong việc đưa ra quyết định
kinh doanh.
Do đó việc xây dựng kho dữ liệu tại NHNo là hoàn toàn cần thiết. Đáp ứng nhu
cầu thực tế, giải quyết các khó khăn hiện tại trong công việc phân tích dữ liệu và hỗ
trợ lãnh đạo đưa ra những quyết định có lợi cho NHNo.
16
CHƯƠNG II. GIỚI THIỆU VỀ KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA
QUYẾT ĐỊNH (DATA WAREHOUSE & BI).
Một hệ thống DW bao gồm 4 đặc trưng về mặt dữ liệu, bao gồm: tích hợp,
hướng chủ đề, tích lũy theo thời gian, bất biến.
- Tích hợp (Integrated): Dữ liệu của DW được tập hợp về từ các nguồn khác
nhau như các CSDL của các hệ thống tác nghiệp, các file tài liệu,…
- Hướng chủ đề (Subject-Oriented): Dữ liệu của DW được tổ chức và lưu trữ
theo các chủ đề nghiệp vụ mà người khai thác quan tâm.
- Tích lũy theo thời gian (Time-Variant): Dữ liệu lưu trữ có tính chất lịch sử, theo
dòng thời gian tính từ một thời điểm trong quá khứ cho đến hiện tại và các dữ
liệu sẽ phát sinh trong tương lai.
18
- Bất biến (Non-Volatile): Dữ liệu đã đưa vào trong DW nói chung ở dạng read-
only và rất hiếm khi thay đổi (không update, không delete). DW chính là những
CSDL được thiết kế cho mục đích Khai thác và Phân tích thông tin (query, truy
vấn) chứ không phải mục cập nhật (update, delete) như trong CSDL của các
ứng dụng tác nghiệp.
2.1.3. Phân biệt giữa hệ thống OLTP và hệ thống DSS
- OLTP (OnLine Transaction Processing): Hệ thống xử lý giao dịch trực tuyến.
Đặc trưng của các ứng dụng OLTP là các tác vụ tự động ghi chép dữ liệu để xử
lý các nghiệp vụ của một tổ chức như ghi nhận đơn đặt hàng hoặc các giao dịch
ngân. Các tác vụ này thường đọc hoặc cập nhật một vài dòng dữ liệu dựa trên
khoá chính của chúng. Những tác vụ đó có cấu trúc, được lặp lại, bao gồm các
giao dịch ngắn, tối giản và tách biệt, yêu cầu dữ liệu chi tiết và mới nhất. Các
cơ sở dữ liệu tác nghiệp có kích thước từ vài trăm megabyte đến hàng gigabyte
và chỉ lưu trữ các dữ liệu hiện hành (vòng đời dữ liệu ngắn). Cơ sở dữ liệu có
tính nhất quán, khả năng phục hồi cao.
- DSS (Decision Support System): Hệ thống hỗ trợ quyết định.
Phân biệt giữa Hệ thống OLTP và Hệ thống DSS:
Đặc điểm OLTP DWHS
Thời gian đáp ứng
một thao tác người
tượng sử dụng. Một lần thiết kế cho toàn bộ hệ thống và thực hiện xây dựng toàn bộ
như thiết kế.
2.2.2. Phương pháp luận Bottom-up
Phương pháp Bottom-up xây dựng từng kho dữ liệu cho mỗi chủ đề riêng biệt
và độc lập, đáp ứng được nhu cầu khai thác thông tin, phân tích và lập dự báo chiến
lược của một hoặc một số phòng ban cụ thể trong tổ chức / doanh nghiệp. Với mỗi chủ
đề thông tin nghiệp vụ phát sinh là một lần thiết kế và xây dựng riêng biệt.
2.2.3. Phương pháp luận Spiral
Phương pháp Spiral là phương pháp xây dựng dần từng kho dữ liệu cho mỗi
chủ đề dựa trên mô hình xoáy trôn ốc, mỗi kho dữ liệu chủ đề có khả năng tích hợp lại
thành một Kho dữ liệu đầy đủ.
Sau khi phân tích nghiệp vụ mức tổng thể của toàn bộ doanh nghiệp, liệt kê
danh sách các chủ đề thông tin cần xây dựng kho. Sau đó sẽ thiết kế và xây dựng dần
cho từng kho chủ đề dựa trên thiết kế tổng thể của toàn tổ chức / doanh nghiệp. Thứ tự
20
của việc xây dựng các kho chủ đề sẽ được dựa trên tính quan trọng của nghiệp vụ và
tính hiệu quả.
2.2.4. Ưu/Nhược điểm của từng phương pháp
Dưới đây là bảng phân tích những ưu điểm và nhược điểm của từng phương
pháp xây dựng hệ thống DW&BI.
Phương pháp
tiếp cận
Ưu điểm Nhược điểm
Business-wide
data
warehouse
(Top-Down)
- Hệ thống được xây dựng với
định hướng là đáp ứng được
các nhu cầu về thông tin
- Chi phí bảo trì vận hành
hàng năm lớn
- Chi phí cho việc “tích hợp”
thành một hệ thống tổng thể
là rất lớn
Interconnecte
d Data Marts
(Spiral)
- Tính hiệu quả và khả thi cao
- Độ rủi ro thấp
- Đáp ứng dần từng nhu cầu
khai thác thông tin của đối
tượng sử dụng theo mức độ
ưu tiên
- Đáp ứng được nhu cầu khai
- Cần thời gian cho việc phân
tích tổng thể trong giai đoạn
đầu của dự án
- Cần có sự đánh giá đúng về
thứ tự ưu tiên và phạm vi
trong tứng giai đoạn phát
triển
21
thác thông tin mức tổng thể
của tổ chức / doanh nghiệp
- Tính nhất quán của dữ liệu
cao
- Cần có sự giám sát chặt chẽ
sự đồng bộ giữa thiết kế của
từng Kho dữ liệu thành viên
nhưng ở mức logic (chưa gắn với các công nghệ cụ thể), mô tả cấu trúc của các bảng
dữ liệu, quan hệ dữ liệu giữa các bảng, quan hệ giữa các thành phần trong hệ thống,…
với mục tiêu là hệ thống sẽ đáp ứng được các nhu cầu thông tin của người dùng đã xác
định ở giai đoạn khảo sát và phân tích.
Đầu vào của giai đoạn thiết kế logic là bộ tài liệu kết quả của những giai đoạn
trước: Khảo sát, Phân tích. Những tài liệu đầu vào chính cho giai đoạn thiết kế logic
bao gồm:
- Báo cáo khảo sát:
o Hiện trạng của việc cung cấp thông tin
o Các nhu cầu thông tin trong tương lai
o Hiện trạng dữ liệu nguồn
o Hiện trạng hạ tầng thông tin
- Tài liệu phân tích
o Mức độ đáp ứng các nhu cầu thông tin: về nội dung và về phương thức cung
cấp
o Mức độ ưu tiên của thông tin (dựa trên tầm quan trọng, tính cấp thiết,…)
o Tổng hợp thành các chủ đề thông tin mà hệ thống mới sẽ đáp ứng, thống
nhất phạm vi xây dựng hệ thống.
Nội dung công việc của giai đoạn thiết kế logic:
- Thiết kế mô hình tổng thể của hệ thống (ở mức logic, chưa gắn với các công
nghệ cụ thể).
- Thiết kế chi tiết từng thành phần (ở mức logic, chưa gắn với các công nghệ cụ
thể.
Các kết quả của giai đoạn thiết kế logic:
- Tài liệu thiết kế logic của hệ thống với các nội dung chính
o Mô hình tổng thể
o Thiết kế chi tiết từng thành phần (các sơ đồ quan hệ ERD, cấu trúc logic các
bảng, các mapping, các thủ tục chuyển đổi dữ liệu,…).
23
2.1.1.2. Phương pháp thực hiện
liệu tập trung từ các nguồn về, DW bao gồm một tập hợp các CSDL quan hệ được thiết
kế nhằm đảm bảo lưu trữ khối lượng lớn dữ liệu đồng thời đáp ứng tốt nhất các nhu
cầu tra cứu, khai thác dữ liệu. Trong DW có các CSDL sau:
- DSA: CSDL trung chuyển, chứa dữ liệu tạm thời của một phiên
chuyển dữ liệu, phục vụ công việc xử lý, làm sạch trước khi đưa vào CSDL
chính. DSA có hai loại:
o DSA nguồn: chứa dữ liệu tương ứng với một nguồn cụ thể, ở
dạng 1:1 về nội dung và cấu trúc, phạm vi dữ liệu là một phiên
o DSA đích: chứa dữ liệu tổng hợp từ các DSA nguồn, phạm vi dữ
liệu là một phiên, cấu trúc DSA ở dạng thuận tiện cho việc chuyển đổi dữ
liệu vào CSDL tích hợp.
- EM: CSDL tích hợp, chứa dữ liệu của toàn bộ các nguồn, đó là
các dữ liệu đã được xử lý, làm sạch và tích hợp. EM cần đảm bảo cung cấp đủ
dữ liệu cho tất cả các DM.
- DM: CSDL chủ đề, chứa dữ liệu về một chủ đề thông tin xác
định, phục vụ một lớp đối tượng người dùng cụ thể. Tất cả các DM đều có dữ
liệu nguồn là EM.
- OLAP: CSDL chủ đề đã được tổng hợp sẵn, được tổ chức ở dạng
đa chiều nhằm mục đích đáp ứng nhanh nhất việc khai thác thông tin. Nguồn dữ
liệu cho OLAP là từ EM hoặc các DM.
Bên trong DW có tiến trình ETL: thu thập, làm sạch, tích hợp dữ liệu; chuyển
dữ liệu từ nguồn vào các CSDL bên trong DW
2.1.2.4. BI: Tầng ứng dụng khai thác và phân tích thông tin
BI là một môi trường thuận tiện để người dùng nghiệp vụ làm việc với hệ
thống, cho phép người dùng chủ động khai thác, phân tích, tạo báo cáo, chia sẻ thông
tin,… Thành phần BI này bao gồm:
25
- Lớp dữ liệu nghiệp vụ: các thuật ngữ/tên gọi dành cho người
dùng nghiệp vụ, mỗi thuật ngữ tương ứng với các trường dữ liệu trong các DM.
- Nơi chứa các kết quả phân tích, báo cáo.