TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT HƯNG YÊN
KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO TÓM TẮT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP
TRƯỜNG
NGHIÊN CỨU ỨNG DỤNG LUẬT KẾT HỢP
VÀO PHÂN TÍCH TÀI CHÍNH NGÂN HÀNG
Chủ nhiệm đề tài: Cử nhân, Nguyễn Thị Hải Năng Hưng Yên, 11/2012
2 DANH SÁCH CÁC THÀNH VIÊN THAM GIA
THỰC HIỆN ĐỀ TÀI
Họ và tên
Học
hàm, học
vị
Đơn vị công tác
1.2.4 Các chỉ số tài chính chủ yếu của ngân hàng 10
Chương II: Cơ sở lý thuyết về khai thác dữ liệu 10
2.1 Tổ chức và khai thác dữ liệu truyền thống 10
4
2.2 Bước phát triển của việc tổ chức và khai thác các cơ sở dữ liệu
10
2.3 Khai thác dữ liệu và quá trình phát hiện tri thức 10
2.4 Các dạng dữ liệu có thể khai thác dữ liệu 10
2.5 Nhiệm vụ chính của khai thác dữ liệu 11
2.6 Các phương pháp khai thác dữ liệu 11
2.6.1 Các thành phần của giải thuật khai thác dữ liệu 11
2.6.2 Một số phương pháp khai thác dữ liệu phổ biến 11
Chương III: Khám phá luật kết hợp 13
3.1 Ý nghĩa của luật kết hợp 13
3.2 Một số hướng tiếp cận trong khai thác luật kết hợp 13
3.3 Phát biểu bài toán khai thác luật kết hợp 14
3.4 Thuật toán Apriori nhị phân để tìm các tập phổ biến 16
3.5 Luật kết hợp có thuộc tính số và thuộc tính hạng mục 16
3.6 Phương pháp rời rạc hoá dữ liệu 16
3.7 Thuật toán khám phá luật kết hợp nhị phân áp dụng trong đề tài
17
PHẦN III: KẾT LUẬN VÀ KHUYẾN NGHỊ 20
1 Kết quả đạt được 20
2 Hướng phát trỉên trong tương lai Error! Bookmark not defined.
5
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
Tên đề tài: Nghiên cứu ứng dụng luật kết hợp vào phân tích tài chính
Có rất nhiều tác giả nghiên cứu về luật kết hợp, ứng dụng vào phân
tích tài chính như: Ứng dụng luật kết hợp vào phân tích đầu tư chứng
khoán của tác giả Ngô Sỹ Điềm.
1.2 Tính cấp thiết của đề tài
- Trong vài thập niên gần đây, khai thác dữ liệu (KTDL) đã trở thành
một trong những hướng nghiên cứu chính trong lĩnh vực khoa học
máy tính và công nghệ tri thức.
- Hoạt động tài chính nói chung và ngân hàng nói riêng là hoạt động
trong môi trường phân tán. Nghiên cứu khai thác luật kết hợp trong
môi trường tài chính vẫn là một hướng nghiên cứu mới mẻ, thực tế,
thú vị và thu hút được nhiều tác giả nghiên cứu.
- Với mục đích nghiên cứu và tìm kiếm ứng dụng, đưa các luật kết
hợp vào ứng dụng trong thực tế ngân hàng để phân tích các luật tài
chính ví dụ như với khoản tiền gửi bao nhiêu thì đảm bảo thu vốn
đúng hạn, hay khả năng vỡ nợ thường rơi vào những tài khoản bao
nhiêu v.v. giúp chuyên gia có được những thông tin có tính chất qui
luật, trợ giúp quyết định hiệu quả
1.3 Mục tiêu
Nghiên cứu các vấn đề như:
- Các chức năng của ngân hàng
- Những vấn đề chung về khai thác dữ liệu
- Phản ánh tình hình hoạt động của các loại nguồn vốn trong hoạt
động ngân hàng
- Cho phép người sử dụng tự khai thác các quy luật hoạt động của
các loại tiền gửi tiết kiệm.
1.4 Phương pháp nghiên cứu
Nghiên cứu tài liệu: Nghiên cứu các khái niệm chung về khai phá tri
thức, khai thác dữ liệu, các quy luật, luật kết hợp.
1.5 Đối tượng và phạm vi nghiên cứu.
Các ngân hàng thương mại (NHTM) là các doanh nghiệp đặc biệt
nên hoạt động của các ngân hàng cũng có những “đặc thù” khác với
các công ty đó là: sự không rõ ràng của một số nguồn thông tin tài
chính khiến khó đánh giá chất lượng hoạt động và rủi ro; sự đa dạng
về các đối tượng thụ hưởng nên khó quản lý; độ rủi ro lớn, nhiều
khoản nợ ngắn hạn nên rủi ro trong hoạt động là rất cao và rất dễ dẫn
đến phá sản; chịu sự quản lý chặt chẽ với nhiều quy định khắt khe và
chi tiết do tầm quan trọng trong hệ thống, nếu đổ vỡ có thể gây ra tổn
thất lớn và trên phạm vi rộng. Vì thế, bản thân các ngân hàng cũng
phải đưa ra các quy định rất cụ thể, rõ ràng như các hạn chế về hoạt
động (sản phẩm, chi nhánh), yêu cầu về đảm bảo an toàn (phân loại
tín dụng, dự trữ bắt buộc…).
1.2 Tìm hiểu bảng cân đối kế toán ngân hàng và các chỉ số tài
chính
1.2.1 Các khái niệm
Bảng cân đối kế toán là một báo cáo tài chính của ngân hàng khái
quát tình hình sử dụng vốn và nguồn vốn của ngân hàng vào ngày
cuối năm.
9
1.2.2 Nội dung và kết cấu bảng cân đối kế toán
Bảng Cân Đối Kế Toán được thể hiện một cách tổng quát bao gồm 2
phần:
+ Phần Tài sản (Assets) của ngân hàng thể hiện sự sử dụng vốn (ngân
quỹ) của ngân hàng, nó thể hiện hoạt động của ngân hàng.
+ Phần Nợ phải trả & vốn chủ sở hữu (Liabilities and equity) được
thể hiện một cách cụ thể từng nguồn hình thành nên ngân quỹ của
ngân hàng. Nợ phải trả không thuộc quyền sở hữu trong tài sản của
ngân hàng. Vì vậy, vốn chủ sở hữu sẽ bằng giá trị tài sản trư đi giá trị
nợ phải trả.
thể trong nước hoặc từ nước ngoài.
- Nợ phải trả khác: Các khoản nợ phát sinh trong quá trình hoạt động
của ngân hàng, như phải trả người bán người cung cấp, phải nộp
ngân sách Nhà nước, phải trả công nhân viên . .
- Vốn chủ sở hữu: Vốn chủ sở hữu bao gồm cổ phiếu thông thường,
chênh lệch tăng giá và thu nhập chưa phân phối.
1.2.4 Các chỉ số tài chính chủ yếu của ngân hàng
Tổng tài sản
Nguồn vốn:
Sử dụng vốn
Kết quả hoạt động
Chương II: Cơ sở lý thuyết về khai thác dữ liệu
2.1 Tổ chức và khai thác dữ liệu truyền thống
Sử dụng mô hình cơ sở dữ liệu quan hệ và ngôn ngữ vấn đáp chuẩn
(SQL) trong việc tổ chức và khai thác các cơ sở dữ liệu.
2.2 Bước phát triển của việc tổ chức và khai thác các cơ sở dữ
liệu
- Tạo kho dữ liệu(data warehousing) và môi trường các dữ
liệu có được gọi là các kho dữ liệu (data warehouse).
- Ứng dụng công nghệ khai phá dữ liệu nhằm khai thác dữ
liệu để tìm ra các thông tin hữu ích.
2.3 Khai thác dữ liệu và quá trình phát hiện tri thức
Khai phá dữ liệu là tìm ra những thông tin tiềm ẩn có giá trị
mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển
và những yếu tố tác động lên chúng.
Khai phá dữ liệu được sử dụng để tạo ra giả thuyết.
2.4 Các dạng dữ liệu có thể khai thác dữ liệu
- Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán
cấu trúc hay phi cấu trúc.
- Dữ liệu được lưu trữ: Các tệp tin truyền thống, các cơ sở dữ liệu
- Cây quyết định: Cây quyết định là một mô tả tri thức dạng
đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất
định. Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh
được gán các giá trị có thể của các thuộc tính, các lá mô tả các lớp
khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây,
qua các cạnh tương ứng với các giá trị của thuộc tính của đối tượng
tới lá.
12
- Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ
liệu có ý nghĩa về mặt thống kê. Các luật có dạng NẾU P THÌ Q, với
P là mệnh đề đúng với một phần trong CSDL, Q là mệnh đề dự đoán.
2.6.2.3. Phát hiện các luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành
phần dữ liệu trong cơ sở dữ liệu.
2.6.2.4 Các phương pháp phân lớp và hồi quy phi tuyến
Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm
cho các kết hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm
sigmoid, hàm spline (hàm mành), hàm đa thức) phù hợp với các kết
hợp của các giá trị biến vào. Các phương pháp thuộc loại này như
mạng neuron truyền thẳng, phương pháp mành thích nghi, Các
phương pháp hồi quy phi tuyến mặc dù rất có khả năng diễn tả nhưng
lại rất khó diễn giải thành các luật.
2.6.2.5. Phân nhóm và phân đoạn (clustering and segmentation)
Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ
liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu
chuẩn nào đó. Mối quan hệ thành viên của các nhóm có thể dựa trên
mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật
ràng buộc giữa các thành viên trong nhóm. Một kỹ thuật phân nhóm
khác là xây dựng nên các hàm đánh giá các thuộc tính của các thành
mạng neuron. Tuy mạng neuron có một số hạn chế gây khó khăn
trong việc áp dụng và triển khai nhưng nó cũng có những ưu điểm
đáng kể. Một trong số những ưu điểm phải kể đến của mạng neuron
là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có thể
áp dụng được cho rất nhiều loại bài toán khác nhau, đáp ứng được
nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô
hình hóa, dự báo các sự kiện phụ thuộc vào thời gian, v.v…
2.6.2.11. Giải thuật di truyền
Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng lại hệ thống
tiến hóa trong tự nhiên, chính xác hơn đó là giải thuật chỉ ra tập các
cá thể được hình thành, được ước lượng và biến đổi như thế nào.
Chương III: Khám phá luật kết hợp
3.1 Ý nghĩa của luật kết hợp
Luật kết hợp là một phương pháp phổ biến và quan trọng trong khai
thác dữ liệu. Luật kết hợp giúp chúng ta tìm được các mối liên hệ
giữa các mục dữ liệu của cơ sở dữ liệu.
Độ hỗ trợ, độ tin cậy là hai thước đo cho một luật kết hợp.
Tìm kiếm được các luật kết hợp “quý hiếm” và mang nhiều thông tin
từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận chính
của lĩnh vực khai thác dữ liệu.
3.2 Một số hướng tiếp cận trong khai thác luật kết hợp
14
Luật kết hợp nhị phân (binary association rule hoặc boolean
association rule):Trong dạng luật kết hợp này, các mục (thuộc tính)
chỉ được quan tâm là có hay không xuất hiện trong giao tác của cơ sở
dữ liệu chứ không quan tâm về “mức độ” xuất hiện.
Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative
and categorial association rule): Để phát hiện luật kết hợp có thuộc
tính này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc
1
, t
2
, …, t
n
} một tập gồm n giao dịch ( Transaction- còn gọi là
bản ghi) mỗi giao dịch được định danh bởi TID (Transaction
Identification)
15
R là quan hệ nhị phân trên I và T (hay R T x I). Nếu giao dịch T có
chứa mục i thì ta viết (i, t) R (hoặc iRt). (T, I, R) là ngữ cảnh khai
thác dữ liệu.
Cho một tập mục X I. Ký hiệu supp(X) là độ hỗ trợ của một tập
mục X – là tỷ lệ phần trăm số giao tác trong cơ sở dữ liệu D chứa X
trên tổng số các giao tác trong cơ sở dữ liệu D. supp(X)
=Card(X)/Card(D) %
Tập phổ biến:
Cho một tập mục X I và ngưỡng minsupp (0,1] (minsupp được
xác định bởi người sử dụng). Một tập mục X được gọi là một tập phổ
biến theo ngưỡng minsupp nếu và chỉ nếu độ hỗ trợ của nó lớn hơn
hoặc bằng một ngưỡng minsupp: supp(X) minsupp.
Độ hỗ trợ của của luật kết hợp X=> Y là tỷ lệ phần trăm các giao
dịch trong D có chứa X Y, supp(X Y)= Card(X Y)/Card(D).
Luật kết hợp có dạng X=>Y:c, trong đó:
X và Y là tập mục thoả mã điều kiện X Y=, c là độ tin cậy.
Độ tin cậy của luật c = supp(X Y)/ supp(X) % = Card(X Y)/
Card(X) %: là tỷ lệ phần trăm các giao dịch trong D có chứa X thì
chứa Y. Về mặt xác suất, độ tin cậy c của một luật là xác suất xảy ra
Y với điều kiện X xảy ra.
, i
2
,
…, i
n
} là tập mục và R cho trong bảng sau:
i
1
i
2
…
i
n
t
1
1
1
0
t
2
0
1
k
có k phần tử được tổ hợp từ 2 phần tử của F
k-1
:
F
k
= {X
I:
X
= k & X = Y
Z trong đó Y, Z
F
k-1
& s(X)
minsupp}
Với k = 2, 3,
Tập tất cả các tập phổ biến F = F
1
F
2
i
, ngược lại là 0.
Trường hợp 2: Nếu A là thuộc tính số liên tục hoặc thuộc tính hạng
mục có miền giá trị hữu hạng dạng {V
1
,V
2
, … , V
p
}(p lớn) thì ta sẽ
ánh xạ thành q vùng thuộc tính nhị phân <A:start
1
… end
1
>, <A :
start
2
… end
2
>, ……… , <A : start
q
….end
q
>. Giá trị của bản ghi tại
trường <A : starti… endi> bằng True (hoặc 1) nếu giá trị của bản ghi
đó tại thuộc tính A ban đầu nằm trong khoảng [starti… endi], ngược
lại giá trị của <A : start
i
… end
i
);
F
k
= tính_SP_K(C
k
, D
F
, fminsupp);
R
Fk
= Tìm_Luật (F
k
, fminconf);
F = F F
K
;
R
F
= R
F
R
FK
;
k= k+1;
}
End
Chương trình Rời_rạc_hoá_dữ_liệu (D, I, T): Chương trình này thực
hiện nhiệm vụ chuyển đổi từ cơ sở dữ liệu ban đầu D sang cơ sở dữ
liệu nhị phân D
F
and i VP)
If(supp({i}) fminsupp) then
F1 = F1 {i}
Endif
Endfor
Return F1;
Tiếp theo là xác định tập ứng viên C
K
từ tập thuộc tính F
k-1
và trong
trường hợp này tập C
k
phải chứa toàn bộ những thuộc tính thuộc vế
phải của luật để sau khi phát sinh tập phổ biến F
k
thì những luật được
khám phá sẽ là những luật thật sự quan tâm, thuật toán được cải tiến
điều kiện where như sau:
Where (P.item_1= Q.item_1) And …. And (P.item_k-2= Q.item_k-2)
AND (P.item_k-1= Q.item_k-1) And (P.item_O_k-1 <>
Q.item_O_k-1)
And (P.item_k-1 VP)
Chương trình con F
k
= Tính_SP_K(C
K
, D
K,
fminsupp): Chương trình
k
= F
k
{S}
Endif
19
End
Endfor
Endfor
Chương trình con R
Fk
= Tìm_Luật (F
k
, fminconf): Chương trình con
này sinh luật kết hợp nhị phân từ các tập phổ biến F
k
. Tập luật phát
sinh là những luật quan tâm với vế phải là những thuộc tính đã xác
định.
R
Fk
= ;
For all X F
k
do
For all (Y X and X#Y and Y # and Y VP)do
r = X\Y => Y;
If(conf(r)>= fminconf) then
R
hữu ích, trợ giúp chuyên gia trong quá trình ra quyết định.
Tuy nhiên luật kết hợp nhị phân còn có một số hạn chế khi
áp dụng với các thuộc tính số và hạng mục (Sử dụng các phương
pháp rời rạc hoá để chuyển các thuộc tính này về dạng nhị phân, nên
dữ liệu bị rời rạc, không tự nhiên). Do vậy hướng phát triển trong
tương lai của đề tài là: Áp dụng luật kết hợp mờ, luật kết hợp vào
phân tích kinh doanh tài chính ngân hàng nhằm khắc phục các nhược
điểm trên.
Trong khuôn khổ đề tài này, tác giả mới chỉ thực hiện khai
phá dữ liệu tập trung, tuy nhiên dữ liệu của ngân hàng là phân tán.Vì
vậy trong thời gian tới nhóm sẽ thực hiện nghiên cứu công cụ,
phương pháp ứng dụng luật kết hợp vào phân tích dữ liệu tài chính
ngân hàng trong môi trường dữ liệu phân tán
Cài đặt chương trình phân tích dữ liệu thật.