ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
NGHIÊN CỨU BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU
VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TẠI NGÂN
HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN
VIỆT NAM
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý hệ thống thông tin
Mã số: Chuyên ngành đào tạo thí điểm
TÓM TẮT LUẬN VĂN THẠC SỸ
Hà Nội – 2015
PHẦN MỞ ĐẦU
Cơ sở khoa học và thực tiễn của đề tài
Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối
với bất kỳ doanh nghiệp nào.Việc nắm bắt thông tin giúp cho
các doanh nghiệp hoạch định các chiến lược kinh doanh cho
mình một cách chính xác
Trong những năm gần đây, công nghệ kho dữ liệu ra đời đáp
ứng được nhu cầu quản lý, lưu trữ thông tin có khối lượng lớn
và có khả năng khai thác dữ liệu đa chiều và theo chiều sâu
nhằm hỗ trợ việc ra quyết định của các nhà quản lý.
Nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính,
ngân hàng là vô cùng lớn. Xây dựng một kho dữ liệu cho phép
Phạm vi và đối tượng của đề tài:
-
Đối tượng nghiên cứu: Kho dữ liệu và hệ thống hỗ trợ
ra quyết định cho hoạt động nghiệp vụ ngân hàng tại
NHNo.
-
Phạm vi áp dụng: đề tài được áp dụng tại NHNo.
Kết quả của đề tài
Một nghiên cứu dự án khả thi xây dựng Kho dữ liệu và hệ
thống hỗ trợ ra quyết định tại Ngân hàng Nông nghiệp và phát
triển Nông thôn Việt Nam, trình bày đầy đủ cơ sở phương pháp
luận, lựa chọn giải pháp, các bước xây dựng, thiết kế hệ thống
DW&BI cũng như tổng mức đầu tư cho dự án.
Kết cấu của đề tài
Đề tài được kết cấu gồm 3 phần (chương) chính trong đó:
Phần mở đầu:
Giới thiệu các yêu cầu khách quan, chủ quan, cơ sở thực tiễn
nghiên cứu và xây dựng đề tài.
Chương I: Giới thiệu về DW&BI.
Nội dung chính của chương này trình bầy các khái niệm cơ
bản về kho dữ liệu và hệ thống hỗ trợ ra quyết định, các phương
pháp luận và cơ sở lựa chọn phương pháp luận để xây dựng kho
dữ liệu và hệ thống hỗ trợ ra quyết định. Các bước xây dựng,
thiết kế hệ thống DW&BI.
Data Warehouse (viết tắt là DW, còn gọi là Kho Dữ Liệu) là
hệ thống tập trung dữ liệu nhằm mục đích khai thác, phân tích
thông tin và hỗ trợ quyết định, với các đặc trưng về mặt dữ liệu,
bao gồm: tích hợp, hướng chủ đề, tích lũy theo thời gian, bất
biến.
Business Intelligence (viết tắt là BI) là tầng ứng dụng khai
thác dữ liệu và phân tích thông tin từ các nguồn dữ liệu khác
nhau mà tiêu biểu trong đó chính là các DW với thiết kế CSDL
đa chiều (OLAP).
1.1.2. Các đặc trưng về mặt dữ liệu của một hệ thống
DW&BI
1.1.3. Phân biệt giữa hệ thống OLTP và hệ thống DSS
1.2. Các phương pháp luận xây dựng hệ thống DW&BI
1.2.1. Phương pháp luận Top-down
1.2.2. Phương pháp luận Bottom-up
1.2.3. Phương pháp luận Spiral
1.2.4. Ưu/Nhược điểm của từng phương pháp
1.2.5. Cơ sở lựa chọn phương pháp luận
Việc lựa chọn phương pháp tiếp cận để xây dựng một hệ
thống Kho dữ liệu là một quyết định quan trọng. Thông thường
các doanh nghiệp / tổ chức có quy mô vừa và nhỏ và có nghiệp
vụ ổn định hay chọn phương pháp tiếp cận Top-Down (hay
Business-Wide Data Warehouse). Với các doanh nghiệp và tổ
chức lớn có nhiều phòng ban, chi nhánh khác nhau và có nhu
cầu khai thác thông tin rộng lớn của người sử dụng bên ngoài
thường chọn phương pháp tiếp cận Spiral (hay Interconnected
Data Marts). Phương pháp Independent Data Marts rất ít được
sử dụng. Đối với các ngân hàng và tổ chức tài chính lớn, nên
đích)
-
Thiết kế Metadata
-
Thiết kế các tiến trình ETL:
-
Thiết kế tầng khai thác và phân tích thông tin
1.3.2. Thiết kế tổng thể
1.3.2.1. Mô hình logic tổng thể của hệ thống
Tùy theo từng dự án cụ thể, mô hình logic tổng thể có thể
khác nhau, nhưng nhìn chung một hệ thống DW và BI điển hình
sẽ được thể hiện như hình 1.4 dưới đây
Data Sources
Data Warehouse
DSA
nguồn
BI
DM
Hình
DSA
nguồn
OLAP
Administration (Metadata và Quản trị hệ thống)
1.1:
Mô hình logic tổng thể hệ thống DW&BI
1.3.2.2. Dữ liệu nguồn (Data source)
1.3.2.3. Kho dữ liệu tập trung (Data Warehouse)
1.3.2.4. BI: Tầng ứng dụng khai thác và phân tích thông
tin
1.3.2.5. Administration: Quản trị hệ thống
1.4. Thiết kế chi tiết từng thành phần
1.4.1. Thiết kế Data Warehouse (Kho dữ liệu tập trung)
1.4.1.1. Các mô hình CSDL trong thiết kế Data
Warehouse
1.4.1.2. Một số thuật ngữ thường dùng
1.4.1.3. Data Mart (DM): các CSDL chủ đề
1.4.1.4. Enterprise Model (EM): CSDL tích hợp
1.4.1.5. Data Staging Area (DSA): CSDL trung chuyển
1.4.1.6. Extraction - Transformation - Loading (ETL):
Thu thập, làm sạch và tích hợp dữ liệu
1.4.2. Thiết kế metadata
-
Hệ thống báo cáo hiện tại là một hệ thống mang tính
giải pháp tình thế, nhằm giảm tải cho hệ thống tác
nghiệp.
-
Thiếu kiến trúc vững chắc, mô hình dữ liệu phù hợp.
-
Thiếu các báo cáo quản lý cấp cao và phân tích có giá
trị.
Trong khi đó, Ngân hàng Nông nghiệp là một tổ chức tín
dụng lớn, có mức độ tăng trưởng dữ liệu cao, cùng với đó là
mong muốn được khai thác sâu hơn vào dữ liệu để có thể ra
những quyết định chính xác nhất. Việc xây dựng DW&BI là
nhu cầu cấp thiết của Ngân hàng Nông nghiệp, DW&BI sẽ cung
cấp một hướng tiếp cận dữ liệu tốt hơn, triệt để hơn và giảm
thiểu xung đột cũng như hạn chế sự xuống cấp trong môi trường
hoạt động hiện tại của Ngân hàng Nông nghiệp.
2.3. Mục tiêu đầu tư
2.3.1. Mục tiêu chung
Mục tiêu chung của dự án nhằm xây dựng DW&BI tại Ngân
hàng Nông nghiệp, dần dần tổng hợp toàn bộ dữ liệu tại Ngân
MIS
Báo cáo phục vụ
nghiệp vụ hàng
ngày
CSDL NGHIỆP VỤ KHÁC
TAB
MIS
TCS_TT
TABMIS
TTSP
4
Reports
SMS
TABMIS
BANKING
INTERNET
TABMIS
BANKING
WESTERN
TABMIS
UNION
Báo cáo tổng hợp
Executive
Chủ đề n
Chủ đề 2
Voyager
Dự báo
khai phá dữ liệu
Hình 2.3: Mô hình thiết kế tổng thể hệ thống DW&BI
Trong mô hình tổng thể hệ DW&BI được chia làm 4 phần
logic chính bao gồm:
-
Phần 1: Các hệ thống ứng dụng tác nghiệp
-
Phần 2: Kho dữ liệu (bao gồm CSDL báo cáo tổng hợp
và Kho dữ liệu tích hợp cũng như các CSDL chủ đề)
-
Phần 3: Tầng công cụ xử lý, quản trị, hỗ trợ tạo báo cáo
và phân tích thông tin (Business Object Enterprise –
BOE)
-
Tích hợp CSDL
-
Tính hợp hệ thống lưu trữ
-
Tích hợp mạng
2.8.4. Giải pháp đồng bộ dữ liệu
CSDL tác nghiệp tại Ngân hàng Nông nghiệp đều là CSDL
Oracle, việc đồng bộ dữ liệu giữa các CSDL tác nghiệp và kho
dữ liệu có thể được thực hiện dựa trên các nhóm giải pháp như
sau:
-
Giải pháp Replication nếu dung lượng dữ liệu giao dịch
ít và đòi hỏi tính tức thời của dữ liệu báo cáo là bắt
buộc;
-
Giải pháp Logical Standby database;
-
Các thông tin trên sẽ là căn cứ để phân tích và lựa chọn giải
pháp đầu tư.
3.2. Phân tích lựa chọn giải pháp
3.2.1. Giải pháp DW&BI của IBM
3.2.1.1. Giới thiệu
Về Data Warehouse, IBM có dòng sản phẩm: InfoSphere
Warehouse và Netezza(hay còn gọi là PureData for Analytic).
Giải pháp hoàn chỉnh Data Warehouse của IBM cũng tuân theo
mô hình chuẩn của giải pháp Data Warehouse nói chung.Trong
giải pháp này IBM đề xuất sử dụng họ sản phẩm IBM
Information Server cho lớp chuyển đổi, làm sạch dữ liệu. Với
lớp khai thác dữ liệu và tạo báo cáo, phân tích thì IBM sử dụng
nhóm sản phẩm Cognos BI làm nền tảng cho hệ thống báo cáo,
phân tích theo yêu cầu nghiệp vụ, Cognos TM1 hoặc SPSS cho
việc phân tích, thông kê dữ liệu để phục vụ cho nghiệp vụ dự
báo, lập kế hoạch.
IBM được biết đến như là nhà cung cấp các giải pháp phần
cứng hàng đầu ở Việt nam. Để tận dụng thế mạnh về phần cứng
của mình, IBM cũng quan tâm đến các giải pháp phần mềm,
đưa ra thị trường những giải pháp trọn gói, đồng bộ cả phần
cứng và phần mềm. Năm 2007, IBM mua lại Cognus. Kể từ lúc
đó IBM xuất hiện trên thị trường BI như là như là nhà cung cấp
giải pháp BI hàng đầu.
3.2.1.2. Chi phí mua sắm và triển khai
Tổng cộng chi phí mua sắm và triển khai:
Danh mục
Thành tiền(VNĐ)
thống máy chủ cơ sở dữ liệu Oracle Exadata, cơ sở dữ liệu
Oracle 12C, Oracle Partritioning, Oracle Business Interlligence
Enterprise Edition, Oracle Intergrator và các công cụ chuẩn
đoán, tinh chỉnh tự động hiệu suất hệ thống.
3.2.2.2. Chi phí mua sắm và triển khai
Tổng cộng chi phí mua sắm và triển khai:
Danh mục
Thành tiền(VNĐ)
Chi phí trang thiết bị phần cứng
48,379,689,019
Chi phí phần mềm tiêu chuẩn
18,117,503,250
Chi phí đào tạo và triển khai
11,550,000,000
Tổng cộng
78,047,192,269
Bảng 3.2: Tổng chi phí của giải pháp Oracle
3.2.3. Giải pháp DW&BI của SAP
3.2.3.1. Giới thiệu
SAP vào Việt nam sau IBM và Oracle, được biết đến như là
15,822,675,000
Tổng cộng
65,192,930,567
Bảng 3.3: Tổng chi phí của giải pháp SAP
3.2.4. Đánh giá về tính năng của ba giải pháp
Về tính năng, chúng tôi chia thành nhóm theo đối tượng sử
dụng:
-
Người sử dụng cuối: là những người làm nghiệp vụ.
-
Người quản trị và vận hành hệ thống: chuyên gia CNTT
tại Trung tâm CNTT Ngân hàng Nông nghiệp.
-
Người xây dựng và phát triển hệ thống: các chuyên gia
CNTT thuộc các công ty và các đơn vị triển khai.
Các tính năng đưa ra ở đây được tham khảo từ các tính năng
của một hệ thống BI chuẩn kết hợp với các yêu cầu đặc thù tại
các Ngân hàng. Mỗi tính năng đều có điểm tối đa. Trên cùng
SAP IBM Oracle
250
245
223
223
60
60
54
54
60
60
60
60
20
20
lớp CSDL dành
cho người dùng
cuối (Universe)
Xử lý sự cố
Đảm bảo an toàn
thông tin
Người xây dựng và phát
triển hệ thống
Dễ cài đặt, kiểm
thử (test) và gỡ lỗi
(debug)
Công cụ hỗ trợ xây
dựng báo cáo đã
Điểm
tối đa
SAP IBM Oracle
10
10
0
0
40
40
10
10
10
20
20
20
20
20
20
20
20
30
30
30
30
10
20
20
20
20
Đối
tượng
sử
dụng
Tính năng
Điểm
tối đa
SAP IBM Oracle
10
10
10
Bảng 3.4: Đánh giá tính năng của ba giải pháp
(Bảng đánh giá chi tiết các tính năng tham khảo phần Phụ
lục)
3.3. Giải pháp được lựa chọn
Bảng tổng điểm đánh giá tính năng của ba giải pháp:
Giải pháp
Điểm tối đa SAP IBM Oracle
Tổng điểm 400
395
373
373
Bảng 3.5: So sánh tổng điểm của ba giải pháp
Bảng tổng chi phí mua sắm và triển khai của ba giải pháp:
Giải pháp Tổng tiền(VNĐ)
IBM
65,084,874,140
ORACLE
78,047,192,269
SAP
Chi phí mua sắm
59,266,30
5,926,63 65,192,93
1
triển khai
Thiết bị phần cứng
0,515
7,247,050
0,052
0,567
724,705, 7,971,755
2
Phần mềm tiêu chuẩn
,515
37,635,00
052
,567
3,763,50 41,398,50
Chi phí lập dự toán
515,024,1
51,502,4 566,526,5
2
Chi phí thẩm định
51
156,463,0
15
66
15,646,3 172,109,3
3
Chi phí kiểm toán
33
196,002,5
03
36
19,600,2 215,602,8
4
7,648
3,081,661
275
18
32,596,4
6,163,32 67,796,55
65
2,765
0,413
308,166, 3,389,827
5%
Tổng dự toán
,382
64714889
138
,521
6,471,48 71,186,37
C
(A+B+C)Bảng
sau thuế
030
8,903
3.17: Dự trù tổng
mức đầu
đầu hiện nay về xây dựng kho dữ liệu, tuy nhiên do còn thiếu
kinh nghiệm dự án thực tế nên chưa đưa ra được thiết kế chi tiết
cũng như từng bước triển khai của các giải pháp DW&BI đấy.
Trong tương lại tôi sẽ tiếp tục nghiên cứu để hoàn thiện và mở
rộng hướng tiếp cận với bài toán khai phá thông tin từ kho dữ
liệu với nguồn dữ liệu tổng quát hơn kết hợp song song ứng
dụng vào bài toán thực tế và hy vọng sẽ đạt được kết quả mong
muốn.
Trên đây là toàn bộ luận văn được tác giả nghiên cứu và xây
dựng. Xin trân trọng cảm ơn sự lưu tâm, đóng góp ý kiến để
luận văn ngày được hoàn thiện và nâng cao tính khả thi trong
thực tiễn.