Nghiên cứu giải pháp kho dữ liệu trong Oracle data warehouse 10g và áp dụng trong bài toán xây dựng kho dữ liệu khách hàng, ngân hàng TMCP Tiên Phong - Pdf 25

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRỊNH HỒNG NAM
NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG
ORACLE DATA WAREHOUSE 10g VÀ ÁP DỤNG TRONG
BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG,
NGÂN HÀNG TMCP TIÊN PHONG
LUẬN VĂN THẠC SĨ Hà Nội – 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI

Danh mục các bảng, hình vẽ và đồ thị 7
PHẦN MỞ ĐẦU 9 U
1. ĐẶT VẤN ĐỀ 9
2. MỤC ĐÍCH NGHIÊN CỨU 10 U
3. KẾT CẤU ĐỀ TÀI 10
CHƯƠNG 1. HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU 11 U
1.1. Khái niệm 11
1.2. Mục tiêu hệ quản trị cơ sở dữ liệu 11
1.3. Quá trình phát triển 11
1.4. Cấu trúc và thành phần của hệ quản trị cơ sở dữ liệu 13
1.5. Hệ quản trị cơ sở dữ liệu Oracle 15
CHƯƠNG 2. LÝ THUYẾT VỀ KHO DỮ LIỆU 17 U
2.1. Định nghĩa 17
2.2. Đặc trưng kho dữ liệu. 17
2.2.1. Hướng chủ thể. 17
2.2.2. Tích hợp 18
2.2.3. Biến thời gian 18
2.2.4. Tính bền vững 19
2.3. Đặc tính hệ quản trị cơ sở dữ liệu Oracle 20
2.3.1. Sự khác nhau giữa kho dữ liệu và OLTP 20
2.3.2. Ưu, nhược điểm của hệ thống kho dữ liệu 20
2.4. Kiến trúc kho dữ liệu 21
2.4.1. Kiến trúc kho dữ liệu cơ sở 21
2.4.2. Kiến trúc kho dữ liệu với vùng trung gian 21
2.4.3. Kiến trúc kho dữ liệu với vùng trung gian và kho dữ liệu cục bộ 22
2.5. Thiết kế logic 22
2.5.1. Thiết kế logic mức vật lý 22
2.5.2. Tạo một thiết kế logic 23
2.5.3. Lược đồ kho dữ liệu 24
2.5.4. Các đối tượng kho dữ liệu 25

3.4. Nội dung giải pháp kho dữ liệu, Ngân hàng Tiên Phong 46
3.4.1. Hiện trạng hệ thống Core Banking 48
3.4.2. Hệ thống tác nghiệp 50
3.4.3. Nhu cầu cho hệ thống tác nghiệp đa chiều 51
3.4.4. Nguồn dữ liệu 53
3.4.5. Vùng đệm dữ liệu 54
3.4.6. Kho dữ liệu tác nghiệp tổng hợp 54
3.4.7. Kho dữ liệu tích hợp từ các CSDL chủ đề 54
3.4.8. Các ứng dụng và công cụ khai thác, phân tích dữ liệu phục vụ người sử dụng .56
3.4.9. Kho dữ liệu từ điển 57
3.5. Phân tích, thiết kế xây dựng kho dữ liệu, kho dữ liệu chuyên đề 57

3
3.5.1. Mục đích và yêu cầu 57
3.5.2. Mô hình dữ liệu và các lược đồ. 58
CHƯƠNG4. CÀI ĐẶT, THỬ NGHIỆM, KẾT QUẢ 67
4.1. Môi trường cài đặt 67
4.2. Dữ liệu thử nghiệm 68
4.3. Kết quả 68
4.3.1. Công cụ xây dựng kho dữ liệu 68
4.3.2. Xây dựng các bảng chiều thông tin 69
4.3.3. Xây dựng một khối thông tin xoay theo các bảng chiều dữ liệu 69
4.3.4. Luồng các tiến trình thực thi 70
4.3.5. Hệ quản trị kinh doanh thông minh 70
KẾT LUẬN 76
TÀI LIỆU THAM KHẢO 77
Tài liệu Tiếng Việt 77
Tài liệu Tiếng Anh 77
Extraction, Transportation,
Loading
Trích suất, Trao đổi, Tải
EIS Executive Information System Hệ thống thông tin điều hành
GB Giga byte Đơn vị đo lưu trữ dữ liệu
HOLAP
Hybric Online Analytical
Processing
Xử lý phân tích trực tuyến kết hợp
ID ID Định danh
NN NOT NULL Khác rỗng
MOLAP
Multi dimensional Online
Analytical Processing
Xử lý phân tích trực tuyến đa chiều
OD Oracle Designer Sản phẩm
ODS Operational Data Store Kho dữ liệu tác nghiệp tổng hợp
OLAP On Line Analytical Processing Xử lý phân tích trực tuyến
OLTP On Line Transaction Processing Xử lý tác nghiệp trực tuyến
6
ORA ORACLE Tập đoàn công nghệ
OWB Oracle Warehouse Builder
Công cụ xây dựng kho dữ liệu
Oracle
RAC Real Application Cluster
ROLAP
Relational Online Analytical
Processing
Xử lý phân tích trực tuyến quan hệ
SQL Structured Query Language Ngôn ngữ truy vấn cấu trúc

Hình 3-2: Phần mềm lõi, giải pháp iFlex 42
Hình 3-3: Dịch vụ thanh toán qua điện thoại 43
Hình 3-4: Dịch vụ thanh toán qua Internet 43
Hình 3-5: Dịnh vụ thanh toán qua thẻ ATM 43
Hình 3-6: Các dịch vụ thanh toán khác 44
Hình 3-7: Kiến trúc tổng thể kho dữ liệu 47
Hình 3-8: Mối quan hệ giữa CNTT và Nghiệp vụ 48
Hình 3-9: Mô hình hiện trạng hạ tầng Ngân hàng TMCP Tiên Phong 49
Hình 3-10: Các phân hệ - hệ thống Core Banking 50
Hình 3-11: Hệ thống tác nghiệp 51
Hình 3-12: Mô hình hệ thống chuyên đề, khai thác thông tin 53
Hình 3-13: Mô hình kiến trúc, giải pháp đề xuất kho dữ liệu 54
Hình 3-14: Mô hình kho dữ liệu khách hàng 59
Hình 4-1: Công cụ xây dựng kho dữ liệu 68
8
Hình 4-2: Chiều thông tin 69
Hình 4-3: Khối dữ liệu sẽ được xoay theo 2 chiều thông tin 69
Hình 4-4: Luồng các tiến trình thực thi 70
Hình 4-5: Quản trị doanh nghiệp 71
Hình 4-6: Kinh doanh thông minh qua trình duyệt Web 71
Hình 4-7: Báo cáo chi phí 10/2010 72
Hình 4-8: Báo cáo doanh thu 10/2010 73
Hình 4-9: Báo cáo sản phẩm vay 10/2010 74
Hình 4-10: Báo cáo tăng trưởng khách hàng 10/2010 75

trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh
doanh có chất lượng cao và ổn định.
10
2. MỤC ĐÍCH NGHIÊN CỨU
Luận văn này được thực hiện với mục đích nghiên cứu, xây dựng giải pháp và
được đề xuất áp dụng thực tiễn cho bài toán “Xây dựng hệ thống kho dữ liệu khách
hàng, Ngân hàng thương mại cổ phần Tiên Phong”.
• Thi hành các phân tích dữ liệu phức tạp.
• Thực hiện phân tích:
o Phân tích định hướng.
o Phân tích chuỗi thời gian.
o Phân tích rủi ro.
• Thăm dò các hệ hỗ trợ quyết định.
• Khám phá và đưa ra các yếu tố ẩn thông qua các kỹ thuật khai phá dữ liệu.
Đề tài được nghiên cứu nhằm giải quyết, khắc phục thực trạng, nhược điểm mà
hệ thống báo cáo quản trị hiện nay đang vận hành còn thiếu hiệu quả, khả năng đáp
ứng, tính sẵn sàng chưa cao.
3. KẾT CẤU ĐỀ TÀI
Luận văn chia thành các chương :
• Chương 1: Hệ quản trị cơ sở dữ liệu.
• Chương 2: Lý thuyết Kho dữ liệu.
• Chương 3: Giải pháp và đề xuất Kho dữ liệu.
• Chương 4: Cài đặt, thử nghiệm, kết quả.
Ngoài ra luận văn có phần mở đầu, cho biết mục đích nghiên cứu và phần kết
luận, thể hiện kết quả chính của luận văn và một số khuyến nghị, đề xuất.
1.3. Quá trình phát triển
Người thấy rằng các mốc tiến hóa của các hệ thông cơ sở dữ liệu có vai trò quan
trọng:
• Các tệp tin dữ liệu: 1960s - 1980s.
• Mô hình cấu trúc: 1970s - 1990s.
• Mô hình mạng: 1970s - 1990s.
• Mô hình quan hệ: 1980s - đến nay.
• Mô hình hướng đối tượng: 1990s - đến nay.
12
Một số CSDL quan hệ được các hãng phát triển phần mềm nổi tiếng xây dựng
tích hợp với các hãng phát triển phần cứng được các doanh nghiệp, tổ chức, người
dùng đón nhận SYSBASE, ACCESS, FOXPRO, MY SQL, SQL Server , tạo điều
kiện vô cùng thuận lợi cho nguời phát triển.
Dường như máy tính và những chương trình cũng đã giải quyết được hầu hết các
vấn đề trong lĩnh vực quản lý. Tuy nhiên thực tế, các tổ chức, doanh nghiệp muốn
thành công trên thị trường, ngoài việc tổ chức bán hàng tốt (giao dịch đơn giản, thuận
tiện cho người mua và người quản lý bán hàng ), người lãnh đạo công ty phải nắm
được thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường nghiệp vụ
mà đơn vị đó hoạt động. Để thực hiện các công việc của một công ty, người ta có
nhiều hệ chương trình tự động hoá các lĩnh vực quan trọng như kế toán, lập kế hoạch,
giao dịch khách hàng, lập hoá đơn Chính vì lý do đó những hệ thống này có một cái
tên cổ điển là hệ thống xử lý giao dịch (Online Transaction Process - OLTP).
Hệ thống OLTP cho phép các giao dịch thay đổi dữ liệu trong bảng bằng ngôn
ngữ các câu lệnh truy vấn SQL trong quá trình xử lý. Hệ thống cho phép nhiều ứng
dụng truy cập dữ liệu cùng một thời điểm.
Các ứng dụng được sử dụng trên máy trạm phục vụ cho các hoạt động giao dịch
như ngân hàng, bán vé trực tuyến, bán vé hàng không, thanh toán cước phí đều sử
dụng hệ thống OLTP có các ưu điểm:
• Xử lý các chuyển tác tương tác.
• Dễ bảo trì và khống chế dữ liệu thừa.

các số liệu phản ánh các quá trình tương đối độc lập của một thực thể là lý do trực tiếp
dẫn đến sự dư thừa thông tin này.
Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra một hệ
thống chứa đầy đủ thông tin. Tuy nhiên giải pháp này có hai nhược điểm:
1. Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần mềm hệ
thống. Các chương trình cần có sự thống nhất về định nghĩa dữ liệu cũng như
phương pháp biểu diễn dữ liệu. Vấn đề này rất phức tạp thậm chí đối với các hệ
thống có thiết kế phân tích tốt và hoàn toàn không khả thi đối với những hệ
thống được mô tả kém.
2. Việc truy vấn để tạo báo cáo thường xuyên liên quan tới rất nhiều bảng, hạn chế
sự truy cập và khai thác trong quá trình làm việc hàng ngày, làm ảnh hưởng trực
tiếp đến khách hàng.
Một cách tiếp cận khác được đề xướng vào những năm 90 của thế kỷ trước là
một sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data Warehoushing -
kỹ thuật xây dựng các kho dữ liệu.
1.4. Cấu trúc và thành phần của hệ quản trị cơ sở dữ liệu 14 Hình 1-1: Kiến trúc của DBMS
Kiến trúc của hệ quản trị cơ sở dữ liệu gồm 2 thành phần chức năng:
• Bộ quản lý lưu trữ
• Bộ xử lý truy vấn
1. Bộ quản lý lưu trữ
Bộ quản lý lưu trữ có nhiệm vụ lưu trữ, trích xuất và cập nhật dữ liệu và cơ sở dữ
liệu Bộ quản lý lưu trữ gồm có các đơn vị sau:
- Kiểm tra chứng thực và toàn vẹn: Kiểm tra toàn vẹn và quyền truy cập dữ liệu
của người dùng cơ sở dữ liệu

• Độ ổn định và tin cậy cao
• Khả năng xử lý dữ liệu rất lớn, có thể lên đến hàng trăm Terabyte (TB) mà vẫn
đảm bảo tốc độ xử lý dữ liệu rất cao.
• Khả năng bảo mật rất cao, Oracle đạt độ bảo mật cấp c2 theo tiêu chuẩn bảo
mật của bộ quốc phòng Mỹ và công nghệ CSDL Oracle vốn được hình thành từ
yêu cầu đặt hàng của các cơ quan an ninh.
Ngoài ra Oracle còn là một hệ CSDL độc lập với hệ điều hành. Nó cho phép
không chỉ chạy trên các hệ điều hành thương mại Windows mà còn có thể chạy trên
các hệ điều hành mã nguồn mở miễn phí như Linux rất mạnh và rất phổ biến hiện nay
Oracle bao gồm một tập hợp hoàn thiện các sản phẩm xây dựng ứng dụng và
người dùng cuối được trang bị các giải pháp kỹ thuật thông tin hoàn hảo. Các ứng

16
dụng Oracle tương thích với hầu hết các hệ điều hành từ các máy tính cá nhân đến các
hệ thống xử lý song song lớn.
Oracle cung cấp một hệ quản trị cơ sở dữ liệu uyển chuyển: Máy chủ dữ liệu
Oracle lưu giữ và quản lý các thông tin dùng trong các ứng dụng. Phiên bản máy chủ
dữ liệu Oracle quản lý CSDL với tất cả các ưu điểm của cấu trúc CSDL quan hệ cộng
thêm khả năng lưu giữ, thực thi và tính bảo mật đối với các đối tượng CSDL như các
Function, Procedure và Trigger …
Oracle Database Server là một hệ quản trị CSDL điều khiển:
• Lưu giữ dữ liệu trên các vùng dữ liệu đã thiết kế.
• Truy cập dữ liệu cho các ứng dụng, dùng các kỹ thuật tương đối tối ưu.
• Bảo mật dữ liệu, cấp quyền khác nhau cho các user.
• Liên kết và toàn vẹn dữ liệu khi CSDL được phân bố trên mạng.
Oracle giúp cho các doanh nghiệp sử dụng thông tin chất lượng cao để kết hợp,
đo lường các kết quả và truyền một cách chính xác nhất đến tất cả các cổ đông. Công
ty cũng cải tiến kĩ thuật trong nhiều năm bằng việc kết hợp tính sáng tạo của những kĩ
sư phần mềm giỏi nhất trong nghành với những phản hồi từ 500 khách hàng của tạp
chí fortune – kết quả là sự ra đời của những đổi mới hỗ trự trợ các ngành kinh doanh bị

hỗ trợ cho chức năng trợ giúp quyết định. Công nghệ kho dữ liệu là tập các phương
pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho
người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau
thiết kế chủ yếu cho truy vấn và phân tích hơn là xử lý các giao tác.
Kho dữ liệu thường rất lớn tới hàng trăm Gigabyte (GB) hay thậm chí hàng
Terabyte (TB). Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều
nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng
của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
Ngoài việc chứa đựng một cơ sở dữ liệu quan hệ, kho dữ liệu còn bao gồm sử
dụng các pha trong trích xuất, chuyển đổi, tải dữ liệu (Extract,Tranform, Loading -
ETL), công nghệ xử lý phân tích trực tuyến (OnLine Analytical Processing – OLAP),
các công cụ phân tích, và các ứng dụng cho việc thu thập và cung cấp dữ liệu tới người
sử dụng.
2.2. Đặc trưng kho dữ liệu.
2.2.1. Hướng chủ thể.
Kho dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản
phẩm, bán hàng. Tập trung vào việc mô hình hóa và phân tích dữ liệu cho những
người đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao tác
hàng ngày.
Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các
chủ thể. Ví dụ, để tìm hiểu thêm về dữ liệu bán hàng của công ty, ta có thể xây dựng
một kho dữ liệu tập trung trên doanh thu. Sử dụng kho dữ liệu có thể trả lời các câu
hỏi như "Ai là khách hàng tốt nhất của chúng ta cho mặt hàng này năm ngoái?".
Các chủ thể điển hình.
• Các tài khoản khách hàng.
• Việc bán hàng.
• Tiền tiết kiệm của khách hàng.
• Các yêu sách bảo hiểm.
• Đặt chỗ hành khách.


trữ nhằm phát hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần
quan tâm trong một thời gian dài.
2.2.4. Tính bền vững
Khi thông tin đã đưa vào kho dữ liệu, dữ liệu không nên thay đổi. Điều này là
hợp lý vì mục đích của một kho dữ liệu là để cho phép ta phân tích những gì đã xảy ra.
Dữ liệu đưa vào kho dữ liệu chỉ để đọc, việc sửa dữ liệu hầu như không được tiến hành
vì điều này có thể dẫn đến phá vỡ sự toàn vẹn. Thông thường người ta không yêu cầu
giảm thời gian đưa dữ liệu vào kho dữ liệu xuống mức tối thiểu, nhưng cần tối ưu hoá
kho dữ liệu sao cho các truy vấn phục vụ cho việc phân tích đạt tốc độ tốt nhất. Các sơ
đồ quan hệ sẽ tạo ra các Index hợp lý cũng như tạo ra sẵn các dữ liệu kết hợp.

Hình 2-4: Mô tả thông tin dữ liệu luôn bền vững, an toàn
Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập
vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin

20
về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ
phân tích, dự báo.
2.3. Đặc tính hệ quản trị cơ sở dữ liệu Oracle
2.3.1. Sự khác nhau giữa kho dữ liệu và OLTP
Một khác biệt lớn giữa hai hệ thống là kho dữ liệu thường không được chuẩn hóa
ở dạng chuẩn 3NF, một kiểu mô hình hóa dữ liệu phổ biến trong môi trường OLTP.
• OLTP: Mô tả các tiến trình xử lý tác nghiệp trực tuyến tại hệ thống nghiệp vụ
• OLAP: Mô tả các tiến trình xử lý phân tích trực tuyến tại kho dữ liệu

Hình 2-5 Sự tương phản giữa OLTP và môi trường kho dữ liệu.

Đặc tính OLTP OLAP
Thời gian phản hồi Nhỏ hơn đơn vị giây Giây Æ Giờ
Thao tác dữ liệu Thêm, Xóa, Sửa, Đọc Chủ yếu là “Đọc”

để lấy thông tin về lượng hàng được bán trong tháng. Một tóm tắt trong một cơ sở dữ
liệu Oracle được gọi là một khung nhìn cụ thể hoá.
2.4.2. Kiến trúc kho dữ liệu với vùng trung gian
Với kiến trúc này, cần làm sạch và xử lý dữ liệu hoạt động trước khi đưa nó vào
kho dữ liệu, mặc dù hầu hết kho dữ liệu sử dụng một vùng trung gian thay thế. Một
vùng trung gian sẽ làm đơn giản hoá việc quản lý kho dữ liệu chung. Hình 2-7 minh
họa kiến trúc đặc trưng này.

22

Hình 2-7: Kiến trúc của một kho dữ liệu với một vùng trung gian
2.4.3. Kiến trúc kho dữ liệu với vùng trung gian và kho dữ liệu cục bộ
Mặc dù kiến trúc trong hình 2-7 là khá phổ biến, tùy theo yêu cầu ta có thể kiến
trúc kho dữ liệu cho các nhóm khác nhau bên trong của tổ chức. Điều này có thế thực
hiện bằng cách thêm các kho dữ liệu cục bộ, đó là các hệ thống được thiết kế cho một
phạm vi cụ thể của doanh nghiệp. Hình 2-8 minh hoạ một ví dụ nơi mua, bán hàng, và
hàng tồn kho được tách ra. Trong ví dụ này, một nhà phân tích tài chính có thể muốn
phân tích dữ liệu lịch sử cho mua và bán.

Hình 2-8: Kiến trúc của kho dữ liệu với vùng lưu trữ và các kho dữ liệu cục bộ
2.5. Thiết kế logic
2.5.1. Thiết kế logic mức vật lý
Sau khi xác định các yêu cầu nghiệp vụ và thỏa thuận phạm vi của ứng dụng, và
tạo ra một thiết kế dựa trên các khái niệm. Bây giờ ta cần phải dịch các yêu cầu thành

23
một hệ thống có thể chuyển giao, tạo ra những thiết kế logic và thiết kế vật lý cho kho
dữ liệu. Cần xác định:
1. Nội dung dữ liệu cụ thể.
2. Mối quan hệ bên trong và giữa các nhóm dữ liệu.


Trích đoạn Chuyển thiết kế logic thành thiết kế vật lý Công cụ tích hợp dữ liệu, quản lý môi trường kho dữ liệ u Trích xuất dữ liệu Trao đổi dữ liệu Giới thiệu về ngân hàng TiênPhong
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status