Nghiên cứu ứng dụng luật kết hợp trong phân tích tài chính và kinh doanh ngân hàng - Pdf 10

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

NGUYỄN THỊ NGUYỆT
NGHIÊN CỨU ỨNG DỤNG LUẬT KẾT HỢP
TRONG PHÂN TÍCH TÀI CHÍNH VÀ KINH DOANH
NGÂN HÀNG Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

Người hướng dẫn khoa học: PGS. TS NGUYỄN BÁ TƯỜNG TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2012

1

1.1.1. Ngân hàng - một trung gian tài chính
Để hiểu được chức năng đặc biệt của ngân hàng
trong nền kinh tế, chúng ta hãy hình dung một thế giới
giản đơn trong đó không tồn tại hoạt động của hệ thống
ngân hàng. Trong một thế giới như vậy, những khoản tiết
kiệm của dân chúng chỉ có thể được sử dụng hoặc là dưới
dạng tiền mặt; hoặc là dưới dạng đầu tư chứng khoán vào
các công ty. Nói một cách khái quát, các công ty phát
hành chứng khoán để đầu tư vào các tài sản thực, như nhà
xưởng, máy móc, nguyên liệu Hình 1.1 mô tả luồng tiền
tiết kiệm được luân chuyển từ dân chúng đến các công ty
và ngược lại các chứng khoán là cổ phiểu và trái phiếu
(CP & TP) được luân chuyển từ phía công ty đến dân
chúng.

Công ty
(những người cần
vốn)
Dân chúng
(những người gửi tiết
kiệm)
CP&
Vốn
3

Hình 1.1 Các luồng vốn và chứng khoán trong một thế giới
không có ngân hàng.
Hình 1.2 chỉ ra bức tranh thực tế của thế giới mà
chúng ta đang sống, biểu diễn các lượng vốn luân chuyển
trong nền kinh tế, qua đó cho thấy vai trò, vị trí của hệ

CP
&TP

Vốn
4

- Huy động tiết kiệm;
- Mở rộng tín dụng;
- Tài trợ ngoại thương;
- Dịch vụ ủy thác;
- Bảo quản an toàn vật có giá;
- Dịch vụ kinh kỹ;
1.1.3. Những quy chế đặc thù đối với hoạt động
ngân hàng
- Qui chế về an toàn trong hoạt động kinh
doanh ngân hàng;
- Qui chế về chính sách tiền tệ;
- Qui chế về phân phối tín dụng;
- Qui chế về bảo vệ người tiêu dùng;
- Qui chế về bảo vệ người đầu tư;
- Qui chế về thành lập ngân hàng và cấp
giấy phép kinh doanh.
1.2. Tìm hiểu bảng cân đối kế toán ngân hàng và các
chỉ số tài chính
1.2.1. Các khái niệm
1.2.2. Nội dung và kết cấu bảng cân đối kế toán
1.2.3. Mô tả các khoản mục trên bảng cân đối kế
toán
1.2.4. Các chỉ số tài chính chủ yếu của ngân hàng
5

Quá trình khai thác dữ liệu là quá trình phát hiện
mẫu, trong đó, giải thuật khai thác dữ liệu tìm kiếm các
mẫu đáng quan tâm theo dạng xác định như các luật, cây
phân lớp, quy hồi, phân nhóm, v.v…
2.6.1. Các thành phần của giải thuật khai thác dữ
liệu
- Biểu diễn mô hình.
- Đánh giá mô hình.
- Tìm kiếm mô hình.
2.6.2. Một số phương pháp khai thác dữ liệu phổ
biến
2.6.2.1. Phương pháp quy nạp.
2.6.2.2. Cây quyết định và luật.
2.6.2.3. Phát hiện các luật kết hợp.
2.6.2.4. Các phương pháp phân lớp và hồi quy
phi tuyến.
2.6.2.5. Phân nhóm và phân đoạn (Clustering
and Segmentation).
2.6.2.6. Các phương pháp dựa trên mẫu.
7

2.6.2.7. Mô hình phụ thuộc dựa trên đồ thị xác
suất.
2.6.2.8. Khai thác dữ liệu dạng văn bản (Text
Mining).
2.6.2.9. Mạng neuron.
2.6.2.10. Giải thuật di truyền.
2.7. Phương pháp khai thác áp dụng trong luận văn
Trong luận văn này, phương pháp khai thác dữ liệu
đã được áp dụng chủ yếu là phương pháp khai thác luật

9

3.3.1. Dữ liệu để khai thác
Cho I = {i1, i2, i3, , in} là tập bao gồm n mục
(Item – còn gọi là thuộc tính - attribute). X

I được gọi
là tập mục (itemset).
T = {t1, t2, , tm} là tập gồm m giao tác
(Transaction – còn gọi là bản ghi - record).
R là một quan hệ nhị phân trên I và T (hay R


IxT). Nếu giao tác t có chứa mục i thì ta viết (i, t)
R


(hoặc iRt). Ta sẽ ký hiệu DM = (T, I, R) là dữ liệu (ngữ
cảnh) để khai thác.
Ví dụ về cơ sở dữ liệu (dạng giao tác): I = {A, B,
C, D, E},
T = {1, 2, 3, 4, 5, 6}, thông tin về các giao tác cho
ở bảng sau:
Bảng 3.1.a Ví dụ về một cơ sở dữ liệu dạng giao tác –
(D) DM
T I

=
{A, B, C, D, E}


.
3.3.4. Luật kết hợp X => Y
Cho DM = (T, I, R) là dữ liệu để khai thác.
X, Y

I là các tập mục thỏa mãn điều kiện



YX
.
11

Luật kết hợp của X và Y, ký hiệu X=>Y, đây là
luật chỉ khả năng xuất hiện Y khi X xuất hiện.
Luật kết hợp có hai độ đo gắn với nó là: độ hỗ trợ
và độ tin cậy (confidence) của luật.
Độ hỗ trợ của luật kết hợp X => Y
Độ hỗ trợ của luật kết hợp X => Y, ký hiệu s(X =>
Y) là tỷ số của số các giao tác trong D có chứa X

Y trên
số tất cả giao tác trong D. Hay
s(X => Y) = card (T(X

Y))/card(T) =
T
YXT )( 
;
trong đó T(X) là tập giao tác chứa tập mục X.

LOAI
TG
TIEN

GUI
DATE
GUI
DATE

RUT
DATE
DH
TIEN

RUT
D
H
T
H
G
T
033240235
78.32
1
800,000,
000
1/2/20
04
7/2/20
04

362,070,
672
0 0 1
033240751
42.37
1
300,000,
000
1/5/20
04
11/5/2
004
4/5/20
04
300,000,
000
0 0 1
033260007
27.30
1
300,000,
000
1/6/20
04
7/7/20
04
7/6/20
04
305,400,
000

99.32
1
440,000,
000
1/8/20
04
7/8/20
04
7/8/20
04
447,920,
000
1 0 0
033240751
95.37
1
720,000,
000
1/8/20
04
4/8/20
04
4/8/20
04
732,960,
000
1 0 0
033240752
14.37
1

1/13/2
004
7/13/2
004
7/13/2
004
366,480,
000
1 0 0
033240003
90.36
1
300,000,
000
1/13/2
004
5/20/2
004
4/13/2
004
305,670,
000
0 0 1
033240008
20.35
1
600,000,
000
1/14/2
004

4/14/2
004
5,090,00
0,000
1 0 0
13

033240007
63.41
1
300,000,
000
1/14/2
004
4/14/2
004
4/14/2
004
305,400,
000
1 0 0
033240853
66.31
1
337,000,
000
1/15/2
004
7/15/2
004

305,400,
000
1 0 0
033240236
40.32
1
400,000,
000
1/16/2
004
4/16/2
004
4/16/2
004
407,200,
000
1 0 0
033240236
41.32
1
350,000,
000
1/16/2
004
5/17/2
004
4/16/2
004
356,300,
000

- Thuộc tính TAIKHOAN(tài khoản) là thuộc tính
hạng mục.
- Thuộc tính LOAITG(loại tiền gửi) là thuộc tính nhị
phân: 1 là TG kỳ hạn và 0 là TG không kỳ hạn.
- Thuộc tính TIENGUI(tiền gửi) và TIENRUT(tiền
rút) là thuộc tính số.
- Thuộc tính DATEGUI(ngày gửi), DATERUT(ngày
rút) và DATEDH (ngày đến hạn) là thuộc tính số.
- Thuộc tính DH (rút đúng hạn), TH (rút trước hạn)
và GT (gửi tiếp) là thuộc tính nhị phân: 1 là đúng, 0
là không đúng.
Với cơ sở dữ liệu như bảng 3.4 ta có thể rút ra các
luật kết hợp như sau:
14

Luật 1: (LOAITG: kỳ hạn) AND (TIENGUI

300.000.000) => (khả năng DH là có) với độ tin cậy là
11/24 = 46%. Hay:
Luật 2: (LOAITG: kỳ hạn) AND (TIENGUI


300.000.000) => (khả năng TH là có) với độ tin cậy là
3/24 =12,5% ( làm tròn 13%). Hay:
Luật 3: (LOAITG: kỳ hạn) AND (TIENGUI


500.000.000) => (khả năng GT là có) với độ tin cậy là 2/5
= 40%. Hay:
Luật 4: (LOAITG: kỳ hạn 6 tháng) AND

30
Tg
35
Tg
40
Tg
1ty
Tg
45
Tg
60
Tg
70
Tg
4ty
Tg
5ty
D
H
32 1 0 0 0 0 0 0 0 0 0 0
41 1 0 1 0 0 0 0 0 0 0 1
37 1 0 1 0 0 0 0 0 0 0 0
37 1 1 0 0 0 0 0 0 0 0 0
30 1 1 0 0 0 0 0 0 0 0 0
36 1 1 0 0 0 0 0 0 0 0 0
31 1 0 0 0 1 0 0 0 0 0 1
32 1 0 0 0 0 1 0 0 0 0 1
37 1 0 0 0 0 0 0 1 0 0 1
37 1 0 0 0 0 0 0 0 1 0 0
41 1 0 0 1 0 0 0 0 0 0 1

thuộc tính hạng mục có miền giá trị hữu hạng dạng
{V1,V2, … , Vp} (p lớn) thì ta sẽ ánh xạ thành q vùng
thuộc tính nhị phân <A:start1… end1>, <A :
start2… end2>, ……… , <A: startq….endq>.
Ví dụ thuộc tính số tiền gửi trong bảng 3.5 thuộc
dạng này, ta chia thuộc tính số tiền gửi thành các thuộc
tính nhị phân như sau:
TIENGUI1: tương ứng với số tiền gửi đến
300.000.000
TIENGUI2: tương ứng với số tiền gửi trên
300.000.000 đến 500.000.000
TIENGUI3: tương ứng với số tiền gửi trên
500.000.000.
17

Khi đó ta có bảng với cột tiền gửi được biến thành
3 cột nhị phân sau:
Bảng 3.6 Nhị phân hóa cột tiền gửi
TAI
KHOAN
LOAI
TG
TIEN
GUI1
TIEN
GUI2
TIEN
GUI3
DATE
DH

1,018,000,00
0
1 0 0
033260235
99.32
1 0 1 0 7/8/2004 447,920,000 1 0 0
033240751
95.37
1 0 0 1 4/8/2004 732,960,000 1 0 0
033240752
14.37
1 0 1 0 4/9/2004
3,980,000,00
0
0 0 1
033240007
52.41
1 0 1 0
4/12/200
4
397,020,000 1 0 0
033260236
17.32
1 0 1 0
7/13/200
4
366,480,000 1 0 0
033240003
90.36
1 1 0 0

66.31
1 0 1 0
4/15/200
4
343,066,000 0 0 1
033240752
62.37
1 0 1 0
4/15/200
4
376,660,000 0 0 1
033240007
66.41
1 1 0 0
4/15/200
4
305,400,000 1 0 0
033240236 1 0 1 0 4/16/200 407,200,000 1 0 0
18

40.32 4
033240236
41.32
1 0 1 0
4/16/200
4
356,300,000 0 0 1
033240772
74.37
1 0 1 0

DATE
GUI
DATE
RUT
DATE
DH
TIEN
RUT
D
H
T
H
G
T
03324023
578.32

KH
800,000,
000
1/2/20
04
7/2/200
4
4/2/200
4
829,05
9,200
0 0 1
03326000

0 0 1
19

03324075
142.37

KH

300,000,
000
1/5/20
04
11/5/20
04
4/5/200
4
300,00
0,000
0 0 1
03326000
727.30

KH

300,000,
000
1/6/20
04
7/7/200
4

7/8/200
4
7/8/200
4
1,018,0
00,000
1 0 0
03326023
599.32

KH

440,000,
000
1/8/20
04
7/8/200
4
7/8/200
4
447,92
0,000
1 0 0
03324075
195.37

KH

720,000,
000

390,000,
000
1/12/2
004
4/12/20
04
4/12/20
04
397,02
0,000
1 0 0
03326023
617.32

KH

360,000,
000
1/13/2
004
7/13/20
04
7/13/20
04
366,48
0,000
1 0 0
033240003
90.36


KH
300,000,
000
1/14/20
04
3/15/20
04
4/14/20
04
300,000
,000
0 1 0
033240752
54.37

KH
5,000,00
0,000
1/14/20
04
4/14/20
04
4/14/20
04
5,090,0
00,000
1 0 0
033240007
63.41


KH
370,000,
000
1/15/20
04
4/29/20
04
4/15/20
04
376,660
,000
0 0 1
033240007
66.41

KH
300,000,
000
1/15/20
04
4/15/20
04
4/15/20
04
305,400
,000
1 0 0
033240236
40.32


KH
400,000,
000
1/16/20
04
4/16/20
04
4/16/20
04
407,200
,000
1 0 0
033240236
61.32
Ko
KH
450,000,
000
1/19/20
04
4/21/20
04
4/19/20
04
458,100
,000
0 0 1
03324023
661.35
Ko

661.37
Ko
KH

450,000,
000
1/19/2
004
4/21/20
04
4/19/20
04
458,10
0,000
0 0 0
03324023
661.38
Ko
KH

450,000,
000
1/19/2
004
4/21/20
04
4/19/20
04
458,10
0,000

3578.32
1 0
800,00
0,000
1/2/2004 7/2/2004 4/2/2004
829,059,
200
0 0 1
0332600
0729.41
1 0
350,00
0,000
1/2/2004 7/2/2004 7/2/2004
356,300,
000
1 0 0
0332407
5160.37
1 0
343,00
0,000
1/5/2004
10/5/200
4
4/5/2004
362,070,
672
0 0 1
0332407

000
0 1 0
0332608
5332.31
1 0
1,000,0
00,000
1/8/2004 7/8/2004 7/8/2004
1,018,00
0,000
1 0 0
0332602
3599.32
1 0
440,00
0,000
1/8/2004 7/8/2004 7/8/2004
447,920,
000
1 0 0
0332407
5195.37
1 0
720,00
0,000
1/8/2004 4/8/2004 4/8/2004
732,960,
000
1 0 0
0332407

1/13/200
4
7/13/200
4
7/13/200
4
366,480,
000
1 0 0
0332400
0390.36
1 0
300,00
0,000
1/13/200
4
5/20/200
4
4/13/200
4
305,670,
000
0 0 1
0332400
0820.35
1 0
600,00
0,000
1/14/200
4

4/14/200
4
5,090,00
0,000
1 0 0
0332400
0763.41
1 0
300,00
0,000
1/14/200
4
4/14/200
4
4/14/200
4
305,400,
000
1 0 0
0332408
5366.31
1 0
337,00
0,000
1/15/200
4
7/15/200
4
4/15/200
4

4/16/200
4
407,200,
000
1 0 0
0332402
3641.32
0 1
350,00
0,000
1/16/200
4
5/17/200
4
4/16/200
4
356,300,
000
0 0 1
0332407
7274.37
0 1
400,00
0,000
1/16/200
4
4/16/200
4
4/16/200
4

0 1 0
0332402
3661.36
0 1
450,00
0,000
1/19/200
4
4/21/200
4
4/19/200
4
458,100,
000
0 0 1
0332402
3661.37
0 1
450,00
0,000
1/19/200
4
4/21/200
4
4/19/200
4
458,100,
000
0 0 0
0332402

chỉ số tài chính bổ sung của hoạt động ngân hàng và mục
tiêu của luận văn.
Chương 2 và chương 3: Luận văn đã trình bày
những vấn đề chung về khai thác dữ liệu, trong đó luận
văn cũng đã trình bày được phương pháp khai thác dữ liệu
được áp dụng trong luận văn là phương pháp khai thác
luật kết hợp nhị phân bằng cách áp dụng các phương pháp
rờ rạc hóa để đưa bảng dữ liệu tài chính về các bảng nhị
phân để có thể áp dụng các luật kết hợp. Phương pháp
khám phá luật dựa trên việc xác định những thuộc tính chỉ
xuất hiện ở vế trái và những thuộc tính chỉ xuất hiện ở vế
phải của luật, như vậy thuật toán khám phá luật kết hợp
23

nhị phân sẽ giảm đáng kể chi phí tập phổ biến và chi phí
khám phá luật, đồng thời thuật toán chỉ cung cấp những
luật thật sự quan tâm, không đưa ra những luật không có ý
nghĩa đối với người sử dụng.
2. Hướng phát triển của đề tài
Do hiểu biết còn hạn chế về hoạt động ngân hàng
cũng như thời gian có hạn nên luận văn chưa giải quyết
được những vấn đề như: khả năng dự báo rủi ro, dự báo
lãi suất, xếp hạng hoạt động của ngân hàng, mối quan hệ
giữa lãi suất và kết quả huy động vốn khi thay đổi lãi suất,
v.v….và những vấn đề này sẽ là hướng phát triển tiếp theo
của luận văn. Tác giả thiết nghĩ nếu các vấn đề được đầu
tư thời gian, kinh phí, nhân lực và vật chất kỹ thuật chắc
kết quả nghiên cứu sẽ có nhiều hữu ích và lý thú;


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status