Khai phá dữ liệu phát hiện luật kết hợp và ứng dụng đối với kho dữ liệu của ngân hàng - Pdf 39

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THU TRANG

KHAI PHÁ DỮ LIỆU PHÁT HIỆN LUẬT KẾT HỢP
VÀ ỨNG DỤNG ĐỐI VỚI KHO DỮ LIỆU CỦA NGÂN HÀNG

Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10


LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. VŨ ĐỨC THI

Hà Nội - 2008

MỤC LỤC
MỞ ĐẦU.....................................................................................................................9
Chương 1: KHO DỮ LIỆU VÀ PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN ..............11
1.1. Hệ thống xử lý giao dịch trực tuyến (OLTP) .................................................11
1.2. Kho dữ liệu (Data warehouse) .......................................................................11
1.3. Hệ thống phõn tớch dữ liệu trực tuyến (OLAP) ............................................14
1.3.1. Giới thiệu ................................................................................................14
1.3.2. Mụ hỡnh tổ chức dữ liệu (Data model) ..................................................17
1.3.2.1. Lược đồ hỡnh sao (Star schema) .....................................................18


1.3.2.2. Lược đồ bụng tuyết (Snowflake schema) ........................................19

3.3. Đỏnh giỏ.........................................................Error! Bookmark not defined.
KẾT LUẬN ...............................................................Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ........................................................................................19
Danh sỏch tài liệu tham khảo tiếng Việt ...........................................................19
Danh sỏch tài liệu tham khảo tiếng Anh ...........................................................20
Danh sỏch Websites tham khảo ........................................................................21


DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN

Bảng 2.1: Ví dụ một CSDL giao dịch. ......................Error! Bookmark not defined.
Bảng 2.2: Ví dụ về các tập mục phổ biến. ................Error! Bookmark not defined.

Bảng 2.3: Các luật kết hợp được sinh từ tập mục phổ biến ACW.Error! Bookmark not defined
Bảng 2.4: Ví dụ CSDL giao dịch bán hàng. .............Error! Bookmark not defined.
Bảng 2.5: Thuật toán Apriori. ...................................Error! Bookmark not defined.
Bảng 2.6: Cơ sở dữ liệu minh hoạ thuật toán Apriori.Error! Bookmark not defined.
Bảng 2.7: Minh hoạ CSDL thống kê tài khoản giao dịch.Error! Bookmark not defined.
Bảng 2.8: Tiêu chí rời rạc hoá CSDL thống kê TKGD.Error! Bookmark not defined.
Bảng 2.9: CSDL thống kê TKGD sau khi rời rạc hoá.Error! Bookmark not defined.
Bảng 2.10: Pivot-table ứng với CSDL thống kê TKGD.Error! Bookmark not defined.

Bảng 2.11: Thuật toán tìm tập mục phổ biến từ Data-cube của Hua Zhu.Error! Bookmark not d
Bảng 2.12: Thuật toán DataCubeSimpleGenFrequentItemsets.Error! Bookmark not defined.
Bảng 2.13: Thuật toán sinh luật kết hợp từ tập mục phổ biến.Error! Bookmark not defined.
Bảng 2.14: Thủ tục GenRules. ..................................Error! Bookmark not defined.
Bảng 2.15: Thuật toán DataCubeSimpleMining. .....Error! Bookmark not defined.
Bảng 3.1: Đoạn mã thực hiện chuẩn hoá dữ liệu. .....Error! Bookmark not defined.
Bảng 3.2: Đoạn mã thực hiện xây dựng Data-cube. .Error! Bookmark not defined.


Stt

Ký hiệu viết
tắt

Nghĩa tiếng Việt

Nghĩa tiếng Anh

1

CSDL

Cơ sở dữ liệu

2

HQTCSDL

Hệ quản trị cơ sở dữ liệu Database Management System

3

KPDL

Khai phá dữ liệu

Data Mining

4


Database Management
System

Hệ quản trị cơ sở dữ liệu

3

Data cube

Khối dữ liệu đa chiều

4

Data mart

CSDL chuyên đề hoặc Kho dữ liệu chuyên
đề

5

Data Mining

Khai phá dữ liệu

6

Data warehouse

Kho dữ liệu

Knowledge Discovery in Database
Khai phá tri thức

12

OLAP

On-Line Analytical Processing
Hệ thống Phân tích dữ liệu trực tuyến

13

OLTP

On-Line Transaction Processing
Hệ thống xử lý giao dịch trực tuyến
14

Star schema

Lược đồ hình sao

15

Snowflake schema

Lược đồ bông tuyết


16

Trình bày những nét khái quát nhất về Kho dữ liệu (Data warehouse) và
Phân tích dữ liệu trực tuyến (OLAP).
Chương 2: Khai phá dữ liệu phát hiện luật kết hợp
Trình bày các vấn đề chung, cơ bản nhất về Luật kết hợp, giải thuật kinh
điển Apriori và Khai phá luật kết hợp dựa trên OLAP.
Chương 3: Xây dựng ứng dụng minh hoạ


Triển khai ứng dụng minh hoạ đối với Kho dữ liệu Ngân hàng.


KHO DỮ LIỆU VÀ PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN
Hệ thống xử lý giao dịch trực tuyến (OLTP)
Hầu hết các doanh nghiệp trên thế giới đã và đang áp dụng công nghệ thông tin
trong việc lưu trữ và quản lý dữ liệu. Hệ thống OLTP (On-Line Transaction
Processing: Hệ thống xử lý giao dịch trực tuyến) ra đời với khả năng lưu trữ dữ
liệu lâu dài, hướng giao dịch (Transaction-oriented) nên được áp dụng rất phổ biến
vì dữ liệu mà các doanh nghiệp thực hiện tác nghiệp chủ yếu đều dưới dạng các
giao dịch. Cũng vì vậy mà hầu hết các hệ quản trị CSDL phổ biến hiện nay như:
Oracle, SQL Server, DB2, MySQL, ... đều hỗ trợ OLTP. CSDL trong các hệ OLTP
thường được thiết kế thoả mãn 3NF hoặc cao hơn. Đặc điểm của hệ thống OLTP là
lưu toàn bộ các dữ liệu giao dịch chi tiết hàng ngày, điều đó cũng có nghĩa là mức
độ tổng quát, trừu tượng của dữ liệu này rất thấp. Với công cụ SQL, OLTP có thể
nhanh chóng trả lời được những câu hỏi dạng: Tổng doanh thu từ mặt hàng A trong
6 tháng đầu năm là bao nhiêu, hay Mặt hàng nào bán chạy nhất trong 6 tháng đầu
năm, ....
Tuy nhiên đứng trên góc độ của nhà quản lý họ cần hệ thống trả lời những câu
hỏi dạng: Đưa ra danh sách 10 mặt hàng có doanh thu tốt nhất của từng quý từ
trước cho tới nay, với mỗi mặt hàng, chỉ ra tháng nào trong quý mặt hàng đó có
doanh thu lớn nhất (1). Hay nếu doanh thu của mặt hàng A tăng thì có thể dự đoán

Ở đây, dữ liệu được tập hợp từ rất nhiều nguồn: bản thân doanh nghiệp, bên ngoài
doanh nghiệp, thậm chí là đi mua, ... được lưu trữ trên rất nhiều loại khuôn dạng:
Oracle, DB2, SQL Server, Microsoft Access, ..., thậm chí là Microsoft Excel file
hay Text file. Tất cả dữ liệu này và mọi sự thay đổi của chúng sẽ được quản lý bởi
phân hệ Monitor / Wrapper.

Lõi của Data warehouse: Tại đây, dữ liệu sẽ được tổng hợp từ các nguồn dữ liệu trên,
thông thường từ các khuôn dạng khác nhau thành một dạng thống nhất và trở
thành trung tâm lưu trữ của toàn bộ hệ thống.

Ở đây, dữ liệu thô được Trích chọn (Extract), Làm sạch (Clean), Chuyển đổi
(Transform) trước khi được Tải (Load) vào Data warehouse. Phân hệ Monitor /
Wrapper sẽ thực hiện định kỳ cập nhật những thay đổi (Refresh) sao cho đảm bảo
sự nhất quán dữ liệu.
Các Data mart (CSDL chuyên đề) cũng được hình thành tại đây, xuất phát từ nhu
cầu cụ thể tập trung phân tích một lĩnh vực chuyên biệt mà người sử dụng quan
tâm. Dữ liệu sẽ được trích rút từ Data warehouse hình thành nên các Data mart
giúp việc truy vấn và phân tích được nhanh chóng, tập trung và tối ưu hơn.

Các công cụ phân tích: Các công cụ này hỗ trợ các truy vấn, tạo báo cáo, OLAP, thậm chí
là hỗ trợ khai phá dữ liệu (phân tích xu hướng, dự đoán, đưa ra các luật ... ).

- Các công cụ này cho phép người sử dụng dễ dàng, chủ động khai thác và tạo
các câu truy vấn (query), tạo lập báo cáo, tạo lập các bản phân tích một cách
nhanh chóng với độ chính xác cao mà không cần yêu cầu kiến thức về
CSDL.
- Cho phép xoay chiều và tạo các báo cáo theo nhiều dạng khác nhau như
dạng bảng ngang (Horizontal), bảng dọc (Vertical), bảng chéo (Cross), cũng
như các dạng đồ thị khác nhau.
- Cung cấp các công cụ thao tác với dữ liệu như Drill (phân tích dữ liệu theo

dữ liệu Product, Supplier, Customer và 1 thước đo là SalesTotal qua hình sau:


Hình 0.2: Minh hoạ Data-cube.

Data-cube ở trên có thể được thể hiện qua biểu thức SQL sau:
select Product, Supplier, Customer, Sum(SalesNumber) as SaleTotal
from Sales
group by Product, Supplier, Customer
with cube
;

OLAP-engine sẽ thực hiện tính toán trước các toán tử nhóm và lưu trữ dữ liệu tính
toán này vào các trường bổ sung, ký hiệu là “Any” hoặc “*” như minh hoạ sau:


*

c1 c2 c3
p1 56

c1 c2p2 c311 *8

s2

p1 44
c1 c2
p2 c3
s1



19

23

8

50 81

*

4

*

Sales(*,*,*)
Sales(p1,*,s2
)

Hình 0.3: Minh hoạ dữ liệu được tính toán và lưu trữ bởi OLAP-engine.

Sau khi xây dựng xong Data-cube, OLAP cung cấp một số thao tác giúp người sử
dụng phân tích dữ liệu gồm:
- Roll-up (Cuộn) thực hiện tính toán gộp theo một hoặc nhiều chiều dữ liệu.
- Drill-down (Đào sâu) thao tác này ngược lại với Roll-up, nó cung cấp các dữ
liệu ở mức chi tiết theo các chiều dữ liệu.
- Slice (Cắt lát) thực hiện “cắt” lấy một “lát” dữ liệu theo 1 chiều nào đó của
Data-cube.
- Dice (Cắt khối) thực hiện “cắt” lấy một “khối con” dữ liệu của Data-cube.
- Pivot (Xoay) cho phép xoay Data-cube theo các chiều dữ liệu, từ đó cung

Hình 0.6: Minh hoạ phân cấp thuộc tính trong lược đồ hình sao.

Lược đồ bông tuyết (Snowflake schema)

Mô hình Snowflake schema là sự mở rộng của mô hình Star schema [109] trong
đó ta thực hiện chuẩn hoá một số Dimension table. Tức là từ Dimension table ban
đầu ta thực hiện chuẩn hoá thành nhiều Dimension table có quan hệ phân cấp.
Lược đồ bông tuyết có dạng như sau:

TÀI LIỆU THAM KHẢO
Danh sách tài liệu tham khảo tiếng Việt
[001] Tạ Liên Dung (2003), Một số vấn đề khai phá dữ liệu, Luận văn thạc sĩ
CNTT, Đại học Quốc gia Hà Nội.
[002] Trần Vĩnh Hoàng (2007), Một số phương pháp khai phá dữ liệu sinh luật kết
hợp, Luận văn thạc sĩ CNTT, Đại học Quốc gia Hà Nội.


[003] Hoàng Kiếm (4/2005), Giải một bài toán trên máy tính như thế nào, Tập 3
(tái bản lần thứ nhất). NXB Giáo dục.
[004] Nguyễn Hùng Sơn (2006), Bài giảng Tập thô và Khai phá dữ liệu.
[005] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động của kho dữ
liệu.
[006] Vũ Đức Thi (1997), Cơ sở dữ liệu – Kiến thức và thực hành. NXB Thống
Kê.
[007] Nguyễn Thanh Thuỷ (8/2001), Bài giảng Khai phá dữ liệu - Kỹ thuật và ứng
dụng.

Danh sách tài liệu tham khảo tiếng Anh
[101] (1995) J.Gray, S.Chaudhuri, A.Bosworth, A.Layman, D.Reichart,
M.Venkatrao, F.Pellow and H.Pirahesh, Data-cube: a relational

[L05] http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.74.3044
[L06] http://www.cs.sfu.ca/
[L07] http://www.cse.ohio-state.edu/~agrawal/Research_new/mining.htm
[L08] http://en.wikipedia.org/wiki/Data_mining
[L09] http://en.wikipedia.org/wiki/Association_rule_mining
[L10]
http://www.filibeto.org/sun/lib/nonsun/oracle/11.1.0.6.0/B28359_01/datami
ne.111/ b28129/intro_concepts.htm
[L11]
http://freedatawarehouse.com/tutorials/dmtutorial/Dimensional%20Modelin
g%20 Tutorial.aspx
[L12] http://freedatawarehouse.com/tutorials/dmtutorial/Star%20Schema.aspx


[L13]
http://freedatawarehouse.com/tutorials/dmtutorial/Snowflake%20Schema.as
px
[L14] http://www.intranetjournal.com/features/datawarehousing.html
[L15] http://it.toolbox.com/blogs/enterprise-solutions/snowflake-schemamodelling-data-warehouse-20809




Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status