Nguyễn Thị Phương Thủy - CH1101046
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn thầy Giáo sư Tiến sĩ Khoa học Hoàng Kiếm đã
tận tình hướng dẫn tôi trong suốt quá trình học tập và thực hiện bài thu
hoạch.
1
Nguyễn Thị Phương Thủy - CH1101046
♦ MỤC LỤC
C. PHẦN MỞ ĐẦU 5
D. PHẦN NỘI DUNG 6
I. BẢN ĐỒ TỰ TỔ CHỨC ( SOM – SELF-ORGANIZING MAP) 6
1. Định nghĩa 6
2. Kiến trúc của SOM 6
3. Cấu trúc liên kết ( Topology) 7
4. Đào tạo 7
5. Nhận xét 10
6. Ứng dụng 10
II. ỨNG DỤNG CỦA SOM TRONG PHÂN LOẠI HẠNG TÍN DỤNG
( CREDIT RATING): 10
1. Giới thiệu 10
2. Phương pháp 12
E. PHẦN KẾT LUẬN 16
F. PHẦN TÀI LIỆU THAM KHẢO 17
2
Nguyễn Thị Phương Thủy - CH1101046
MỤC LỤC BẢNG
Bảng 1 : Phân hạng S&P 11
Bảng 2: So sánh khả năng thực hiện của các mô hình 15
3
Nguyễn Thị Phương Thủy - CH1101046
MỤC LỤC HÌNH
Hình 1 : Kiến trúc SOM
- Output layer: bao gồm các node (neurons) bố trí trên một lưới XxY. Node
là một tế bào thần kinh, có vị trí xác định trên lưới, lưu giữ một vector
trọng số (codebook vector) với số chiều bằng số chiều của dữ liệu đầu
vào.
- Input vector: là các mẫu dữ liệu đào tạo có kích thước số chiều n.
6
Nguyễn Thị Phương Thủy - CH1101046
3. Cấu trúc liên kết ( Topology)
SOM thường là mảng 1 chiều hay mảng 2 chiều, ở dạng mảng 2 chiều, các
node được sắp xếp ở dạng liên kết hình chữ nhật hoặc liên kết hình lục giác như
hình 2. Cấu trúc liên kết cho phép định nghĩa các phần tử lân cận như hình 3
Hình 2 : Cấu trúc liên kết hình chữ nhật và hình lục giác
Hình 3 : Vùng lân cận của một node
4. Đào tạo
Đạo tào mạng SOM sử dụng học tập cạnh tranh. Khi một mẫu dữ liệu đưa
vào mạng, sẽ được tính khoảng cách Euclid (Euclidean distance) của nó với tất
cả các vector trọng lượng của mạng. Các tế bào thần kinh gần với đầu vào nhất
được gọi là đơn vị phù hợp tốt nhất hay phần tử chiến thắng (BMU - Best
Matching Unit). Vector trọng lượng của BMU, và các nút lân cận nó sẽ được
điều chỉnh lại. Tốc độ học và khoảng cách các nút lân cận sẽ giảm dần theo các
lần lặp.
Thuật toán đào tạo SOM:
7
Nguyễn Thị Phương Thủy - CH1101046
- Bước 1: Chuẩn hóa dữ liệu mẫu. Khởi tạo vector trọng lượng ban đầu cho
mạng.
- Bước 2: Chọn ngẫu nhiên một vector x trong tập dữ liệu mẫu
- Bước 3: Tính khoảng cách từ x tới tất cả các node j trên mạng
- Bước 4: Tìm node chiến thắng BMU i với khoảng cách d nhỏ nhất
tụ hoặc đạt được số lần lặp N
Hình 4 : Hàm Gaussian bell, cone, cylinder và mexican hat
Có thể tham khảo một ví dụ đơn giản về đào tạo mạng neural đơn giản 2
neural với dữ liệu nhập 4 chiều ở tài liệu tham khảo [8]
9
Nguyễn Thị Phương Thủy - CH1101046
5. Nhận xét
- Việc lựa chọn số lượng tế bào thần kinh, mô hình liên kết ( kích thước
khuyến cáo là 10x15), số lần lặp, các giá trị khởi tạo cần phải qua quá
trình thử sai để tìm giá trị thích hợp cho dữ liệu đầu vào mẫu.
- Ưu điểm: dữ liệu đầu vào không cần có đặc tính kết quả hay phân nhóm
mà SOM sẽ phân nhóm chúng, bản đồ thành phần cho phép quan sát trực
quan theo từng biến của tập dữ liệu đa chiều.
- Nhược điểm: chi phí tính toán sẽ tăng cao khi số chiều của dữ liệu tăng
lên.
6. Ứng dụng
Ứng dụng chính của SOM là phân loại, phân nhóm, trực quan hóa số lượng
lớn dữ liệu mà có thể không có đặc tính kết quả hay phân lớp, ngoài ra có thể tự
động phân loại đầu vào mới. Ví dụ: nhận dạng hình ảnh ( chữ, số, khuôn mặt,
hình ảnh với nhiễu ), nhận dạng âm thanh, phân khúc thị trường, giám sát phát
hiện lỗi của máy, điều khiển robot,
Một số ứng dụng, như các mạng neural khác, sử dụng kết quả phân nhóm từ
SOM của tập dữ liệu mẫu chưa được phân loại, phân nhóm như dữ liệu đầu vào.
II. ỨNG DỤNG CỦA SOM TRONG PHÂN LOẠI HẠNG TÍN DỤNG (
CREDIT RATING):
1. Giới thiệu
Các nhà đầu tư cần những thông tin đánh giá về khả năng của các doanh
nghiệp để quyết định đầu tư. Nó tốn nhiều nguồn lực và thời gian để thực hiện.
Do đó, cần có mô hình đánh giá sâu sắc nhưng chi phí thấp hơn, tốn kém ít thời
gian hơn.
B- 7
CCC+ 6
Hiện tại mặc định dễ bị tổn
thương
CCC 5
CCC- 4
CC 3
C 2 Phá sản
D 1 Mặc định
Bảng 1 : Phân hạng S&P
Bài toán là xây dựng một công cụ để đánh giá các công ty vào các phân hạng
của S&P. Công cụ này sử dụng SOM để gom nhóm từ dữ liệu đầu vào là các báo
cáo tài chính, sau đó tương ứng các nhóm này với các phân hạng của S&P, từ đó
đưa ra mô hình để đánh giá phân hạng tín dụng của công ty.
11
Nguyễn Thị Phương Thủy - CH1101046
2. Phương pháp
a. Dữ liệu:
Dữ liệu mẫu là 18 hạng mục tài chính ( financial ratios) khác nhau (như thu
nhập trước thuế và lãi, tổng nợ, nợ dài hạn, nợ ngắn hạn, nợ phải trả, tổng vốn )
của các báo cáo tài chính của hơn 300 công ty trong cùng một khu vực lấy ra từ
các phân hạng của S&P. Chúng mô tả đặc tính tài chính của công ty.
b. Phương pháp
Kỹ thuật SOM là công cụ cơ bản để xây dựng mô hình, sử dụng phần mềm
Viscovery SOMine software package (Eudaptics, 1999).
Các bước thực hiện như sau:
(1) Tiền xử lý dữ liệu đầu vào:
Xử lý các giá trị thiếu, ngoại lai của dữ liệu, chuyển đổi kích thước biến và
chuẩn hóa.
(2) Sử dụng SOM để gom nhóm ( Clustering) và trực quan hóa
thấp hơn.
Hình 6 : Dán nhãn phân hạng rating của S&P vào từng nhóm
Nhận thấy phù hợp, những công ty thuộc nhóm 2 khỏe mạnh, nhóm 4 lớn-ổn
định được xếp hạng tín dụng cao nhất trên bản đồ và ngược lại. Trên hình, có
một số công ty xếp hạng tốt nhưng được đánh giá thấp hơn. Tuy nhiên S&P đánh
giá theo cả định lượng và định tính, mà trong khi nghiên cứu này chỉ đánh giá
theo định lượng.
(3) Tạo ra mô hình phân loại SOM
Bằng cách đào tạo với nhiều tập dữ liệu và tập kiểm tra riêng biệt, để tìm ra
một mô hình phân loại tối ưu dựa trên tiêu chuẩn đánh giá hiệu suất lỗi trung
bình Mean Absolute Error (MAE), có thể kết hợp với phương pháp học bán giám
sát (Semi- supervised learning) để cho ra mô hình tốt hơn.
Để phân hạng một công ty mới thực hiện các bước sau:
- Tính vị trí tương ứng của công ty trên bản đồ.
14
Nguyễn Thị Phương Thủy - CH1101046
- Vị trí đó tương ứng với phân nhóm nào.
(4) So sánh với các mô hình khác
Mô hình MAE R2
SOM 1.48 0.64
Liner regression 1.48 0.65
Ordered logit 1.38 0.66
Bảng 2: So sánh khả năng thực hiện của các mô hình
15
Nguyễn Thị Phương Thủy - CH1101046
E. PHẦN KẾT LUẬN
Bản đồ tự tổ chức SOM được đánh giá sử dụng tốt hơn các phương pháp
khác trong khá nhiều ứng dụng kỹ thuật, công nghệ, y tế, kinh doanh SOM cho
phép phân nhóm, trực quan hóa số lượng lớn dữ liệu đầu vào đa chiều, từ đó lập
mô hình phân nhóm Trong phần trình bày cho thấy được sự phù hợp của