Khai thác và phân tích dữ liệu ngân hàng nhằm phát hiện rủi ro và hỗ trợ ra quyết định trong quản trị

Link tải luận văn miễn phí cho ae Kết nối
Luận văn ThS. Kỹ thuật phần mềm -- Trường đại học Công nghệ. Đại học Quốc gia Hà Nội, 2014
CHƯƠNG 1: RỦI RO TÍN DỤNG VÀ MÔ HÌNH QUẢN LÝ RỦI RO TÍN
DỤNG TẠI NGÂN HÀNG...................................................................................8
1. Hoạt động tín dụng........................................................................................8
2. Phân loại tín dụng ngân hàng.......................................................................9
3. Rủi ro ngân hàng và rủi ro tín dụng............................................................9
3.1 Rủi ro trong hoạt động ngân hàng:..........................................................9
3.2 Rủi ro tín dụng.......................................................................................10
3.3 Ảnh hưởng của rủi ro tín dụng ..............................................................11
4. Hiện trạng tại VIB và yêu cầu về quản trị rủi ro .....................................12
CHƯƠNG 2: KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG THÔNG TIN
NGÂN HÀNG......................................................................................................14
1. Khái niệm về khai phá dữ liệu....................................................................14
1.1 Tại sao lại khai phá dữ liệu....................................................................14
1.2 Định nghĩa khai phá dữ liệu ..................................................................14
1.3 Các bước chính trong khai phá dữ liệu..................................................15
1.4 Các phương pháp khai thác dữ liệu .......................................................17
2. Ứng dụng khai phá dữ liệu trong ngành tài chính ngân hàng ................18
2.1 Quản trị rủi ro ........................................................................................20
2.2 Phát hiện gian lận ..................................................................................22
2.3 Quản lý danh mục vốn đầu tư................................................................22
2.4 Ứng dụng trong kinh doanh...................................................................23
2.5 Marketing và chăm sóc khách hàng ......................................................25
CHƯƠNG 3: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG ........27
1. Phát biểu bài toán........................................................................................28
2. Mô hình phân lớp dự báo rủi ro.................................................................29
3. Phân lớp sử dụng cây quyết định...............................................................31 3.1 Cây quyết định.......................................................................................31
3.2 Ưu nhược điểm của cây quyết định.......................................................31
3.3 Quá trình xây dựng cây quyết định .......................................................33
3.4 Thuật toán cây quyết định .....................................................................33
3.5 Thuật toán C4.5 .....................................................................................35
3.6 Chọn thuộc tính tốt nhất ........................................................................36
3.7 Chuyển cây quyết định sang dạng luật dễ hiểu .....................................38
4. Phân lớp SVM – Support Vector Machine ...............................................39
4.1 Phân lớp SVM tuyến tính ......................................................................41
4.2 Phân lớp SVM phi tuyến .......................................................................42
4.3 Phân đa lớp trong SVM.........................................................................44
CHƯƠNG 4: ỨNG DỤNG KHAI PHÁ DỮ LIỆU PHÁT HIỆN RỦI RO
TÍN DỤNG TẠI VIB ..........................................................................................46
1. Hiện trạng tại VIB .......................................................................................46
1.1 Hệ thống xếp hạng tín dụng CRS..........................................................46
1.2 Kho dữ liệu KM.....................................................................................47
2. Tích hợp dữ liệu vào kho dữ liệu ...............................................................49
2.1 Thiết kế lược đồ dữ liệu.........................................................................49
2.2 Load dữ liệu vào kho dữ liệu.................................................................50
3. Phân lớp và dự báo rủi ro từ kho dữ liệu VIB..........................................51
3.1 Tiền xử lý dữ liệu ..................................................................................53
3.2 Phân lớp sử dụng cây quyết định áp dụng thuật toán C4.5 ...................54
3.3 Phân lớp sử dụng thuật toán SVM ........................................................57
4. Đánh giá mô hình.........................................................................................59
CHƯƠNG 5: KẾT LUẬN ..................................................................................62
1. Luận văn đã đạt được những kết quả sau.................................................62
2. Hướng tiếp cận trong tương lai..................................................................62
TÀI LIỆU THAM KHẢO..................................................................................63 3.6 Chọn thuộc tính tốt nhất
Quinlan (1983) là người đầu tiên đề xuất việc sử dụng lý thuyết thông tin để tạo ra
các cây quyết định và công trình của ông là cơ sở cho phần trình bày ở đây. Lý thuyết
thông tin của Claude Shannon (1948) cung cấp khái niệm entropy để đo tính thuần nhất
(hay ngược lại là độ pha trộn) của một tập hợp [7]. Một tập hợp là thuần nhất nếu như tất
cả các phần tử của tập hợp đều thuộc cùng một loại, và khi đó ta nói tập hợp này có độ
pha trộn là thấp nhất. Trong trường hợp của tập ví dụ, thì tập ví dụ được gọi là thuần nhất
nếu như tất cả các ví dụ đều có cùng giá trị phân loại.
Khi tập ví dụ là thuần nhất thì có thể nói: ta biết chắc chắn về giá trị phân loại của
một ví dụ thuộc tập này, hay ta có lượng thông tin về tập đó là cao nhất. Khi tập ví dụ có
độ pha trộn cao nhất, nghĩa là số lượng các ví dụ có cùng giá trị phân loại cho mỗi loại là
tương đương nhau, thì khi đó ta không thể đoán chính xác được một ví dụ có thể có giá trị
phân loại gì, hay nói khác hơn, lượng thông tin ta có được về tập này là ít nhất. Vậy, điều
ta mong muốn ở đây là làm sao chọn thuộc tính để hỏi sao cho có thể chia tập ví dụ ban
đầu thành các tập ví dụ thuần nhất càng nhanh càng tốt. Vậy trước hết, ta cần có một phép
đo để đo độ thuần nhất của một tập hợp, từ đó mới có thể so sánh tập ví dụ nào thì tốt
hơn.
a) Entropy đo tính thuần nhất của tập ví dụ
Khái niệm entropy của một tập S được định nghĩa trong lý thuyết thông tin là số
lượng mong đợi các bit cần thiết để mã hóa thông tin về lớp của một thành viên rút ra
một cách ngẫu nhiên từ tập S. Trong trường hợp tối ưu, mã có độ dài ngắn nhất. Theo
lý thuyết thông tin, mã có độ dài tối ưu là mã gán –log2p bits cho thông điệp có xác
suất là p [7].
Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví dụ, mỗi ví dụ
thuộc một lớp hay có một giá trị phân loại.
 Entropy có giá trị nằm trong khoảng [0..1].
 Entropy(S) = 0: tập ví dụ S chỉ toàn ví dụ thuộc cùng một loại, hay S là thuần
nhất.
 Entropy(S) = 1: tập ví dụ S có các ví dụ thuộc các loại khác nhau với độ pha
trộn là cao nhất.
 0 < Entropy(S) < 1: tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau là
không bằng nhau. Để đơn giản ta xét trường hợp các ví dụ của S chỉ thuộc loại âm (-) hay dương
(+).
Hình sau minh họa sự phụ thuộc của giá trị entropy vào xác suất xuất hiện của ví
dụ dương .
Hình 8: Sự phục thuộc của Entropy
Cho trước:
Tập S là tập dữ liệu huấn luyện, trong đó thuộc tính phân loại có hai giá trị, giả
sử là âm (-) và dương (+). Trong đó:
p+ là xác suất các ví dụ dương trong tập S.
p_ là xác suất các ví dụ âm trong tập S.
Khi đó, entropy đo độ pha trộn của tập S theo công thức sau:
Entropy(S) = -p+ log2 p+ - p- log2 p
Một cách tổng quát hơn, nếu các ví dụ của tập S thuộc nhiều hơn hai loại, giả sử là có
c giá trị phân loại thì công thức entropy tổng quát là:
2 i
c
i 1
Entropy(S)  pilog p

 
b) Information gain
Entropy là một số đo đo độ pha trộn của một tập ví dụ, bây giờ chúng ta sẽ định
nghĩa một phép đo hiệu suất phân loại các ví dụ của một thuộc tính. Phép đo này gọi là
lượng thông tin thu được (hay độ lợi thông tin), nó đơn giản là lượng giảm entropy mong
đợi gây ra bởi việc phân chia các ví dụ theo thuộc tính này.
Một cách chính xác hơn, Gain(S, A) của thuộc tính A, trên tập S, được định nghĩa
như sau:


Xem link download tại Blog Kết nối!
Music ♫

Copyright: Tài liệu đại học ©