Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe Cơ Giới - Pdf 55

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

PHAN TRỌNG HẢI

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI
RO TRONG BẢO HIỂM XE CƠ GIỚI

Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2016

Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG

Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Trần Quốc Vinh

Phản biện 1: PGS.TS Nguyễn Tấn Khôi
Phản biện 2: TS. Nguyễn Hoàng Hải

Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp
thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày ... tháng ... năm
2016.

* Có thể tìm hiểu luận văn tại:
 Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng

2
hàng nhiều hơn.
Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ
giới rất quan trọng và hết sức phức tạp. Quy trình tác nghiệp đòi hỏi
người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa
phải có nhiều kinh nghiệm thực tiễn. Hầu hết các công ty đều chỉ chú
trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh giá rủi
ro, đa phần đều thủ công sơ sài và cảm tính. Vì vậy, hiệu quả kinh
doanh thường không như mong muốn.
Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra
cần “Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng
như sự sẻ chia những rủi ro mà họ gặp phải. Vấn đề bồi thường sau
tai nạn mang tính nhạy cảm rất cao và tác động không nhỏ đến tính
hiệu quả của hoạt động kinh doanh bảo hiểm.
Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt
động đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ
giới, tôi thấy cần phải xây dựng và triển khai hệ thống ứng dụng công
nghệ thông tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến
mức tối đa cho công tác đánh giá và bồi thường rủi ro trong bảo hiểm
xe cơ giới.
Xuất phát từ những lý do trên được sự đồng ý của TS. Nguyễn
Trần Quốc Vinh, tôi chọn đề tài: “Ứng Dụng Khai Phá Dữ Liệu Để
Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe
Cơ Giới” để làm luận văn thạc sĩ.
2. Mục tiêu nghiên cứu
Nghiên cứu các thuật toán liên quan đến cây quyết định. Phân

3
tích, so sánh, đánh giá và triển khai áp dụng thuật toán C4.5 và

giới.
- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến
hành kiểm thử so sánh đánh giá hiệu suất của ứng dụng.
5. Dự kiến kết quả
5.1. Kết quả về lý thuyết
Hiểu thêm được phương pháp khai phá dữ liệu.
- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi
ro trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh
doanh trong đơn vị.
5.2. Kết quả thực tiễn
Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại
Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi.
Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm
bảo về mặt tối ưu, có chức năng cơ bản và dễ sử dụng.
6. Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về khai phá dữ liệu vào bài toán đánh giá rủi
ro trong khai thác bảo hiểm cho xe cơ giới.
Về mặt thực tiễn, ứng dụng có khả năng phân tích dữ liệu kinh
doanh của công ty trong những năm gần đây và qua đó có khả năng
phát hiện ra các trường hợp bảo hiểm xe cơ giới có mức độ rủi ro
cao.

5
Giúp cho việc dự đoán nhằm hỗ trợ ra quyết định một cách
khoa học, tránh được các tình huống bồi thường theo cảm tính, hạn
chế các trường hợp rủi ro và tăng hiệu quả kinh doanh của công ty.
7. Bố cục luận văn
Chương 1: Nghiên cứu tổng quan
Chương 2: Ứng dụng cây quyết định trong công tác đánh giá

7
Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành
các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và các thông tin về
một số nhãn lớp đã biết trước.
1.1.3. Các bƣớc xây dựng hệ thống khai phá dữ liệu
1.1.4. Ứng dụng của khai phá dữ liệu
1.1.5. Khó khăn trong khai phá dữ liệu
1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1. Phân lớp dữ liệu
Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính
xác cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.
Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn
phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán (bộ phân
lớp) dựa trên tập huấn luyện và những nhãn phân lớp.
1.2.2. Quá trình phân lớp dữ liệu
Bước thứ nhất (learning): quá trình học nhằm xây dựng một mô hình
mô tả tập các lớp dữ liệu hay các khái niệm định trước.
Bước thứ hai (classification): bước này dùng mô hình đã xây dựng
được ở bước thứ nhất để phân lớp dữ liệu mới.
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu
1.3. GIỚI THIỆU CÂY QUYẾT ĐỊNH
1.3.1. Giới thiệu chung
1.3.2. Ƣu điểm của cây quyết định
1.3.3. Các luật đƣợc rút ra từ cây quyết định
1.4. THUẬT TOÁN C4.5
1.4.1. Giới thiệu

nhau.
0 < Entropy(S) < 1: tập ví dụ S có số lượng ví dụ thuộc các loại
khác nhau là không bằng nhau.
Tập S là tập dữ liệu huấn luyện, trong đó thuộc tính phân loại
có hai giá trị, giả sử là âm (-) và dương (+). Trong đó:
p+ là phần các ví dụ dương trong tập S.
p_ là phần các ví dụ âm trong tập S.
Khi đó, entropy đo độ pha trộn của tập S theo công thức sau:
Entropy(S) = -p+ log2 p+ - p- log2 pCông thức Entropy tổng quát là:
Entrop y (S) 

c

  p log
i 1

i

2

pi

Entropy là số đo độ pha trộn của một tập ví dụ, bây giờ chúng
ta sẽ định nghĩa một phép đo hiệu suất phân loại các ví dụ của một
thuộc tính. Phép đo này gọi là lượng thông tin thu được (hay độ lợi
thông tin), nó đơn giản là lượng giảm entropy mong đợi gây ra bởi
việc phân chia các ví dụ theo thuộc tính này.
Một cách chính xác hơn, Gain(S, A) của thuộc tính A, trên tập S,
được định nghĩa như sau:
Gain(S, A)  Entropy(S) 

Si
S
log 2 i
|S|
i 1 | S |

SplitInformation(S, A)  

1.4.6. Chuyển cây về dạng luật
1.5. RANDOM FOREST
1.5.1. Cơ sở và định nghĩa
Random Forest là một phương pháp học quần thể để phân loại,
hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số
các cây quyết định trong thời gian đào tạo và đầu ra của lớp là mô
hình phân lớp hoặc hồi quy của những cây riêng biệt. Nó như là một
nhóm phân loại và hồi quy cây không cắt tỉa được làm từ các lựa
chọn ngẫu nhiên của các mẫu dữ liệu huấn luyện. Tính năng ngẫu
nhiên được chọn trong quá trình cảm ứng. Dự đoán được thực hiện
bằng cách kết hợp (đa số phiếu để phân loại hoặc trung bình cho hồi
quy) dự đoán của quần thể.
1.5.2. Tóm tắt giải thuật
Đầu vào: là tập dữ liệu đào tạo.

11
Đầu ra: là mô hình Random Forest, Random Forest là tập hợp
nhiều cây quyết định n tree.
Với mỗi Cây n tree được xây dựng bằng các sử dụng thuật toán
sau:
Với N là số lượng các trường hợp của dữ liệu đào tạo, M là số

13
CHƯƠNG 2
ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC ĐÁNH
GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI

2.1. KHÁI QUÁT VỀ THỊ TRƢỜNG BẢO HIỂM XE CƠ GIỚI
2.2. ĐÁNH GIÁ RỦI RO XE CƠ GIỚI
2.2.1. Khái niệm rủi ro
2.2.2. Khái niệm về đánh giá rủi ro
2.2.3. Phạm vi bảo hiểm
2.2.4. Quy trình đánh giá rủi ro trong bảo hiểm xe cơ giới
2.2.5. Các yếu tố ảnh hƣởng đến rủi ro trong bảo hiểm xe
cơ giới
2.3. PHÂN TÍCH HIỆN TRẠNG
2.3.1. Chỉ số trong lĩnh vực kinh doanh bảo hiểm xe cơ giới
2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi
ro trong bảo hiểm xe cơ giới
2.4. SO SÁNH KẾT QUẢ PHÂN LỚP GIỮA 2 THUẬT TOÁN
C4.5 VÀ RANDOM FOREST
2.5. ỨNG DỤNG CÂY QUYẾT ĐỊNH
2.5.1. Phân tích dữ liệu
2.5.2. Xây dựng mô hình phân lớp với Random Forest
Xây dựng mô hình phân lớp với dữ liệu đầu vào là bảng dữ liệu
của 1724 hồ sơ khách hàng với 9 thuộc tính và thuộc tính cần phân
lớp là: RỦI RO, như sau:

14
Trước hết xác định 2 giá trị quan trọng của Random Forest là
numTree (số cây của rừng) và numFeatures (số biến được lựa chọn

Hình 2.3. Mô hình Random Forest với numtree cây
2.5.3. Mô hình tổng quát

Hình2.4. Mô hình tổng quát của Random Forest để phân lớp
2.5.4. Ƣớc tính độ chính xác của mô hình

16
CHƯƠNG 3
XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG
3.1. CHỨC NĂNG HỆ THỐNG
3.1.1. Các chức năng chính
3.1.2. Phân tích yêu cầu

a. Biểu đồ ca sử dụng
b. Biểu đồ hoạt động
c. Biểu đồ tuần tự
d. Triển khai hệ thống
3.2. THỬ NGHIỆM ỨNG DỤNG
 Giao diện đăng nhập hệ thống: Người dùng đăng nhập với
tên đăng nhập và mật khẩu riêng để đăng nhập vào hệ thống.

Hình 3.1. Màn hình Đăng nhập hệ thống

17
 Giao diện chính: Có 2 chức năng đó là Huấn Luyện Dữ
Liệu và Tư Vấn:

Hình 3.2. Màn hình Menu

21

Hình 3.6. Giao diện ứng dụng tư vấn

22
3.3. ĐÁNH GIÁ Đ

CH NH XÁC

3.3.1. Mô hình c y quyết định bằng thuật toán C4.5

a.

t qu

b.

nh gi độ ch nh

h nh c

qu t đ nh
cc a

ng thu t to n

h nh

Hình 3.9. Độ chính xác của mô hình Random Forest- fold1

Hình 3.10. Kết quả Độ chính xác của mô hình Random Forest
3.4. SO SÁNH Đ

CH NH XÁC GIỮA MÔ HÌNH C4.5 VÀ

RANDOM FOREST
Bảng 3.1. So sánh độ chính xác giữa C4.5 và Random Forest
Phương pháp

Độ
chính xác

Độ sai lệch

Thời gian

Random Forest

84.74 %

15.26 %

8~9 giây

83.23 %

16.77 %

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe Cơ Giới - Pdf 55

Tài liệu, ebook tham khảo khác

Học thêm