ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM
NGUYỄN THỊ THU AN
ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ
RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI
Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04
TÓM TẮT
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Đà Nẵng – Năm 2017
Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN
Người hướng dẫn khoa học: TS. NGUYỄN TRẦN QUỐC VINH
Phản biện 1: TS. Phạm Anh Phương
Phản biện 2: PGS.TS. Hoàng Quang
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc
sĩ Hệ thống thông tin họp tại Trường Đại học Sư phạm – ĐHĐN vào
ngày 30 tháng 7 năm 2017.
Có thể tìm hiểu luận văn tại:
người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa
phải có nhiều kinh nghiệm thực tiễn. Tuy nhiên, hầu hết các công ty đều
chỉ chú trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh
giá rủi ro, đa phần việc đánh giá rủi ro đều thủ công, sơ sài và cảm tính
dẫn đến hiệu quả kinh doanh thường không như mong muốn.
2
Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra cần
“Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng như sự
sẻ chia những rủi ro mà họ gặp phải. Vấn đề bồi thường sau tai nạn
mang tính nhạy cảm rất cao và tác động không nhỏ đến tính hiệu quả
của hoạt động kinh doanh bảo hiểm.
Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt động
đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ giới, tôi
thấy cần phải xây dựng triển khai hệ thống ứng dụng công nghệ thông
tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến mức tối đa cho
công tác đánh giá và bồi thường rủi ro trong bảo hiểm xe cơ giới.
Hiện nay, đã có một số công trình nghiên cứu được sử dụng để
xây dựng hệ thống đánh giá rủi ro trong xe cơ giới như: thuật toán C4.5,
thuật toán rừng nhẫu nhiên,... nhưng thuật toán rừng ngẫu nhiên mờ
chưa được sử dụng. Vì vậy tôi chọn đề tài: “Ứng dụng thuật toán rừng
ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong
bảo hiểm xe cơ giới” để làm luận văn thạc sỹ của mình.
2. Mục tiêu nghiên cứu
- Nghiên cứu thuật toán liên quan đến cây quyết định.
- Phân tích, so sánh đánh giá và triển khai áp dụng thuật toán
Random Forest và Fuzzy Random Forest.
- Xây dựng hệ thống trợ giúp đánh giá rủi ro xe cơ giới, đảm bảo
đầy đủ các yêu cầu về mặt chuyên môn trong lĩnh vực bảo hiểm xe cơ
- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành
kiểm thử so sánh đánh giá hiệu suất của ứng dụng.
5. Dự kiến kết quả
5.1. Kết quả về lý thuyết
- Hiểu thêm được phương pháp khai phá dữ liệu.
- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi ro
trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh doanh
trong đơn vị.
5.2. Kết quả thực tiễn
- Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại
Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi.
4
- Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm bảo
về mặt tối ưu, có chức năng cơ bản và dễ sử dụng.
6. Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về thuật toán rừng ngẫu nhiên mờ vào bài toán
đánh giá rủi ro trong khai thác bảo hiểm cho xe cơ giới.
Về mặt thực tiễn, ứng dụng phân tích dữ liệu kinh doanh của
công ty trong những năm gần đây, qua đó phát hiện các trường hợp bảo
hiểm xe cơ giới có mức độ rủi ro cao.
Giúp dự đoán và hỗ trợ ra các quyết định chính xác, tránh những
tình huống bồi thường theo cảm tính, đồng thời hạn chế các trường hợp
rủi ro và tăng hiệu quả kinh doanh của công ty.
7. Bố cục luận văn
Chương 1: Nghiên cứu tổng quan
Chương 2: Ứng dụng cây quyết định trong công tác đánh giá rủi
ro và bồi thường trong bảo hiểm xe cơ giới
Chương 3: Xây dựng chương trình và thử nghiệm ứng dụng
Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính xác
cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.
Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn
phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán (bộ phân lớp)
dựa trên tập huấn luyện và những nhãn phân lớp.
1.2.2. Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bước [14]:
- Bước thứ nhất (learning): quá trình ho ̣c nhằm xây dựng mô ̣t
mô hình mô tả tâ ̣p các lớp dữ liê ̣u hay các khái niê ̣m đinh
̣ trước.
- Bước thứ hai (classification): bước này dùng mô hình đã xây
dựng đươ ̣c ở bước thứ nhấ t để phân lớp dữ liê ̣u mới.
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu
1.3. CÂY QUYẾT ĐỊNH
1.3.1. Cây quyết định ID3
1.3.2. Cây quyết định mờ (Fuzzy Decision tree)
1.4. RỪNG NGẪU NHIÊN
1.4.1. Rừng ngẫu nhiên (Random Forest)
Random Forest là một phương pháp học quần thể để phân loại,
hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số các
6
quyết định trong thời gian đào tạo và đầu ra của lớp là mô hình phân lớp
hoặc hồi quy của những cây riêng biệt. Nó như là một nhóm phân loại
và hồi quy cây không cắt tỉa được làm từ các lựa chọn ngẫu nhiên của
các mẫu dữ liệu huấn luyện. Tính năng ngẫu nhiên được chọn trong quá
trình cảm ứng. Dự đoán được thực hiện bằng cách kết hợp (đa số phiếu
để phân loại hoặc trung bình cho hồi quy) dự đoán của quần thể.
Thuật toán Random Forest (RF)
Chúng tôi phát hiện ra rằng độ chính xác phân lớp có thể được cải
thiện với dữ liệu không chắc chắn khi sử dụng sức mạnh ngẫu nhiên của
phương pháp Fuzzy Random Forest để tăng sự đa dạng của cây và sự linh
hoạt của tập mờ.
Để phân loại, chúng tôi sử dụng phương pháp luận của rừng ngẫu
nhiên và kết hợp xử lý dữ liệu hoàn hảo, sau đó xây dựng rừng ngẫu
nhiên sử dụng cây mờ như phân loại cơ sở. Do đó, chúng tôi cố gắng sử
dụng sự vững mạnh của một quần thể cây, sức mạnh của sự ngẫu nhiênNess để tăng sự đa dạng của các cây trong rừng, sự linh hoạt của logic
mờ và tập mờ để quản lý dữ liệu không hoàn hảo.
Thuật toán Fuzzy Random Forest (FRF) tương tự thuật toán
Random Forest, chỉ khác là thay cây quyết định trong thuật toán RF bởi cây
quyết định mờ.
Function FRF (input: E, Fuzzy Partition; output: Fuzzy
Random Forest)
Begin
1. Tạo tập con S: Lấy ngẫu nhiên có hoàn lại |E| mẫu từ tập huấn
luyện E.
2. Xây dựng cây quyết định mờ (Fuzzy Decision Tree – FDT) từ
tập con S.
3. Lặp lại bước 1 và bước 2 cho tới khi tất cả các cây quyết định
mờ (FDT) được xây dựng.
End.
1.4.3. Mô hình phân lớp với rừng ngẫu nhiên mờ
a. Các ký hiệu
- T là số cây trong rừng ngẫu nhiên mờ (FRF)
- Nt là tổng số nút lá trong cây thứ t với t=1,2,3,…,T. Đặc tính
phân lớp của cây quyết định mờ là một mẫu có thể thuộc về một lá hoặc
nhiều lá khác nhau do sự chồng chéo của tập mờ tạo ra một số phân
b. Phân lớp trong rừng ngẫu nhiên mờ
Phân lớp mờ được P.Bonissone và các cộng sự đưa ra hai dạng
mô hình được gọi là Mô hình 1 (Strategy 1) và Mô hình 2 (Strategy 2)
như sau:
Hình 1.16. Mô hình phân lớp mờ
9
- Mô hình 1 (kí hiệu Strategy 1)
Thuật toán. FRF Classification (strategy 1)
FRFClassification(Input e, Fuzzy Random Forest; Output c)
Begin
DecisionsOfTrees(in: e, Fuzzy Random Forest; out: T_FRF);
DecisionsOfTrees(in: T_FRF; out: c);
End;
DecisionsOfTrees(in: e, Fuzzy Random Forest; out: T_FRF)
Begin
1) Tạo ma trận L_FRF
2) For each tree t do {For each class i do T_FRt,i=Faggre11(t, i,
L_FRF)}
End;
DecisionsOfTrees(in: T_FRF; out: c)
Begin
1) For each class i do D_FRFi=Faggre12(i, L_FRF)
2) c=argmaxi,i=1...I {D_FRFi}
End.
Trong đó, ma trận L_FRF và hàm tổng hợp thông tin Faggre
được xác định như sau:
- Ma trận L_FRF đươc tạo ra bằng cách quét mẫu e trên các cây t
( p max m arg) x
x
p min m arg x p max m arg
p max p min
0
p max m arg x
10
errors (OOBt )
là tỷ lệ lỗi lớn nhất
size(OOBt )
Trong đó: p max max t 1..T
errors (OOBt )
size(OOBt )
trong các cây của rừng,
tỷ lệ lỗi của cây t,
errors (OOBt ) số lỗi khi thực hiện phân lớp thực hiện trên cây t sử dụng
dữ liệu kiểm thử OOB, size(OOBt) kích thước của dữ liệu kiểm tra
OOB của cây t. pmin là tỷ lệ lỗi của cây t và m arg
p max p min
.
11
KẾT CHƯƠNG 1
Trong chương này, tôi đã trình bày khái quát về khai phá dữ liệu,
các bước xây dựng hệ thống khai phá dữ liệu, phân lớp trong khai phá
dữ liệu.
Giới thiệu chung về cây quyết định, thuật toán Random Forest và
Fuzzy Random Forest.
Trong chương tiếp theo, luận văn sẽ trình bày chi tiết cách thức
vận dụng cây quyết định để giải quyết bài toán đánh giá rủi ro và bồi
thường bảo hiểm xe cơ giới.
CHƯƠNG 2
ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ TRONG CÔNG TÁC
ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI
2.1. KHÁI QUÁT VỀ THỊ TRƯỜNG BẢO HIỂM XE CƠ GIỚI
2.2. ĐÁNH GIÁ RỦI RO XE CƠ GIỚI
2.2.1. Khái niệm rủi ro
2.2.2. Khái niệm về đánh giá rủi ro
2.2.3. Phạm vi bảo hiểm
2.2.4. Quy trình đánh giá rủi ro trong bảo hiểm xe cơ giới
2.2.5. Các yếu tố ảnh hưởng đến rủi ro trong bảo hiểm xe cơ
giới
2.3. PHÂN TÍCH HIỆN TRẠNG
2.3.1. Chỉ số trong lĩnh vực kinh doanh bảo hiểm xe cơ giới
2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro
trong bảo hiểm xe cơ giới
2.4. ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ
2.5.1. Phân tích dữ liệu
Có rất nhiều yếu tố ảnh hưởng đến tỉ lệ rủi ro trong bảo hiểm xe
lệ % của số tiền bồi thường so với tổng phí bảo hiểm của năm trước đó.
Nếu tỉ lệ này trên 50% có nghĩa là hợp đồng này trước đó có tại nang,
đồng nghĩa với tỉ lệ rủi ro cao.
- Thuộc tính Phạm vi hoạt động là loại thộc tính Nominal có giá
trị [Trong tỉnh: 1, Ngoài tỉnh: 0]. Nếu xe hoạt động trên địa bàn càng
rộng (ngoài tỉnh). Thì khả năng gặp rủi ro càng cao. Ngược lại nếu xe
13
hoạt động trong tỉnh, thì nguy cơ rủi ro là thấp, thường chỉ va chạm vỏ
xe là chủ yếu.
Trong đó:
+ Numeric: Là các giá trị số hay giá trị liên tục.
+ Nominal: Là các giá trị định danh hay giá trị không liên tục.
Các yếu tố trên chính là các tập thuộc tính, dựa vào tập thuộc tính
này ta sẽ dự đoán giá trị cho thuộc tính đích Rủi ro. Đây là thuộc tính phân
loại. Thuộc tính rủi ro có các giá trị [Thấp: 1, Trung bình: 2, Cao: 3].
2.5.2. Mờ hóa dữ liệu
- Thuộc tính Giới tính, chúng tôi sử dụng hàm membership cho
Nữ và Nam lần lượt là a0(x) và a1(x) được xác định như sau:
1
a0 ( x)
0
khi x 0
khi x 1
1
a1 ( x)
0
- Thuộc tính Phạm vi hoạt động, chúng tôi sử dụng hàm
membership cho Ngoại tỉnh và Trong tỉnh lần lượt là a0 và a1.
- Thuộc tính Bảo dưỡng định kì, chúng tôi sử dụng hàm
membership cho Không bảo dưỡng và Có bảo dưỡng lần lượt là a0 và a1.
- Thuộc tính Khu vực đỗ xe, chúng tôi sử dụng hàm membership
cho Không có gara và Có gara lần lượt là a0 và a1.
- Thuộc tính Thời gian sử dụng, Số tiền bồi thường và Kinh
nghiệm lái xe, mỗi thuộc tính chúng tôi phân thành 3 mức: Thấp, Trung
bình, Cao.
+ Đối với mức Thấp, chúng tôi sử dụng hàm membership Zshaped curve xác định như sau:
14
khi x a
1
2
1 2 x a
ba
zmf ( x)
2
x b
2
ba
2
xc
1
2
cb
1
khi x b
khi b x
bc
2
bc
xc
2
khi x c
khi
Từ phân tích dữ liệu của 1957 khách hàng chúng tôi ước lượng
các tham số a, b và c của hàm zmf ( x) và smf ( x) như sau:
Thời gian sử dụng Số tiền bồi thường Kinh nghiệm lái xe
a
b
Hình 2.1. Đồ thị của hàm membership
15
2.5.3. Xây dựng cây ngẫu nhiên mờ
Bước 1: Tạo mẫu bootstrap 1.
Bước 2. Tạo cây quyết định mờ với dữ liệu bootstrap 1.
Chọn ngẫu nhiên 3 thuộc tính trong 8 thuộc tính; ở đây ta chọn 3
thuộc tính sau: Giới tính, Phạm vi hoạt động, Kinh nghiệm lái xe.
Tính độ lợi thông tin cho 3 thuộc tính ta được:
G f (S, Giới tính) = 0.4129
G f (S, Phạm vi hoạt động) = 0.6030
G f (S, Kinh nghiệm lái xe) = 0.3027
Phạm vi hoạt động có độ lợi thông tin lớn nhất nên được chọn
làm nút góc để tách cây.
Bảng 2.4. Giá trị hàm membership của 10 dữ liệu khách hàng
Bảng 2.5. Mẫu bootstrap 1 của 10 khách hàng
16
Hình 2.2. Bước tách nút lần 1
Tiếp tục như trên cho đến khi điều kiện dừng được thỏa mãn ta sẽ
được cây quyết định mờ.
2.5.4. Mô hình tổng quát
Hình 2.3. Mô hình tổng quát của Fuzzy Random Forest để phân lớp
18
Hình 3.10. Màn hình Đăng nhập hệ thống
➢ Giao diện chính: Có 2 chức năng đó là Huấn luyện dữ liệu và
Tư vấn:
Hình 3.11. Màn hình Menu
➢ Huấn luyện dữ liệu: Đầu tiên ta chon mút Chọn dữ liệu để nạp
dữ liệu huấn luyện (dữ liệu huấn luyện là file excel có phần mở rộng là
*.xls hoặc file CSV, arff).
Phần mô hình hệ thống gồm có 2 mô hình phân lớp Random
Forest và Fuzzy Random Forest. Sau khi chạy hệ thống sẽ sinh ra các
19
tập luật và kết xuất ra kết quả dự đoán khách hàng và lưu trong
database.
Hình 3.12. Màn hình tải dữ liệu huấn luyện
- Mô hình phân lớp với Random Forest
Hình 3.13. Giao diện mô hình phân lớp Random Forest
- Mô hình phân lớp với Fuzzy Random Forest
20
Hình 3.14. Giao diện mô hình phân lớp Fuzzy Random Forest
Trong đó:
+ MaxDepth: Cho thấy độ sâu tối đa của cây. Thường thì chọn 0
15
Không
xác
?
doanh
định
định
21
Hình 3.15. Giao diện ứng dụng tư vấn
Với dữ liệu cần tư vấn trong Bảng 3.1 thì chương trình sinh ra 10
tập luật. Trong đó có 6 tập luật nguy cơ rủi ro là TRUNG BÌNH, 4 tập
luật nguy cơ rủi ro là CAO. Từ đây cán bộ thẩm định có thể đưa ra
quyết định 1 cách đúng nhất.
3.3. ĐÁNH GIÁ ĐỘ CHÍ NH XÁC
3.3.1. Mô hin
̀ h Random Forest
a. Kế t quả mô hình phân lớp với Random Frorest
b. Đánh giá đô ̣ chính xác của mô hình
Đánh giá độ chính xác của mô hình bằng cách sử dụng k-fold
croos validation với k=10 Kế t quả với mỗi lầ n cha ̣y là:
Fold 1:
---------------------------Fold 1--------------------------**Ket Qua**
STT PhanLop DuDoan
1 Thap
Thap
2 Thap
Thap
croos validation với k=10. Kết quả với mỗi lần chạy là:
Fold 1:
---------------------------Fold 1--------------------------**Ket Qua**
STT PhanLop
DuDoan
1
Thap
Thap
2
Thap
Thap
3
Thap
Thap
…………………………..
194
Thap
Thap
195
TrungBinh
TrungBinh
196
Cao
Cao
Số dự đoán chinh xác là: 189.0/196.0
Độ Chính Xác : 97.83673469387756%
Hình 3.20. Độ chính xác của mô hình Fuzzy Random Forest – Fold 1
*****************TỔNG KẾT*************************
Số trường hợp chính xác của Fuzzy Random Forests với 1957 trường
hợp = 1790.0
0.34 giây
Thời gian
Kết quả Bảng 3.2 cho thấy 2 thuật toán Random Forest và Fuzzy
Random Forest đều có tốc độ xử lý nhanh và gần bằng nhau. Do đó sẽ rất
tiết kiệm thời gian khi áp dụng xử lý cho những khối dữ liệu lớn. Do đó
sẽ rất tiết kiệm thời gian khi áp dụng xử lý cho những khối dữ liệu lớn.
Tuy nhiên, độ chính xác của thuật toán Fuzzy Random Forest
(93.29%) tương đối tốt hơn thuật toán Random Forest (91.46%).
KẾT CHƯƠNG 3
Trong chương này, luận văn đã trình bày các chức năng của hệ
thống, xây dựng và kiểm thử ứng dụng dựa trên những số liệu cụ thể từ
Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi. Hệ thống trợ giúp
cho cán bộ thẩm định dễ dàng phát hiện ra các trường hợp khách hàng
có mức độ rủi ro cao. Qua đó đưa ra những quyết định hợp lý nhằm
tăng hiệu quả kinh doanh trong đơn vị.