Luận văn thạc sĩ kỹ thuật khai phá dữ liệu phát hiện gian lận trong bảo hiểm y tế - Pdf 27

2
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

LÃ THÚY HÀ
ĐỀ TÀI
KHAI PHÁ DỮ LIỆU PHÁT HIỆN GIAN LẬN
TRONG BẢO HIỂM Y TẾ
CHUYÊN NGÀNH :TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 8
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN DUY PHƯƠNG
4
MỞ ĐẦU

Bảo hiểm xã hội trong đó có Bảo hiểm y tế là một
chính sách lớn của Đảng và Nhà nước với mục tiêu lớn là
an sinh xã hội, đảm bảo sự ổn định xã hội, hỗ trợ chi trả
chi phí khám chữa bệnh hoặc một phần chi phí đó cho
người dân.
Trong chăm sóc sức khỏe y tế hiện nay, lạm dụng
và gian lận y tế ngày một gia tăng đó không chỉ là gánh
nặng cho xã hội, các tổ chức y tế mà cả người dân tham
gia BHYT, những người phải chi trả một phần chi đó. Do
đó phát hiện gian lận y tế bây giờ trở nên càng quan
trọng.
Việc phát hiện gian lận trong y tế nói chung và
trong bảo hiểm y tế nói riêng là chủ đề quan tâm nghiên
cứu và là đòi h ỏi cấp bách hiện nay. Phát hiện gian lận
được hiểu là xác định gian lận một cách nhanh nhất khi nó
xảy ra. Hiện nay không có phương pháp phát hiện gian
lận nào thật sự hoàn hảo bởi vì các kỹ thuật gian lận luôn
5

thay đổi, phát sinh hình thức gian lận mới ngay khi một
phương pháp phát hiện gian lận được biết đến và sử dụng.
Một trong những yêu cầu khai phá dữ liệu được lựa
chọn nhiều nhất là để phát hiện lạm dụng và gian lận trong
nhiều lĩnh v ực khác nhau như tài chính ngân hàng, bảo

7

CHƯƠNG I: TỔNG QUAN VỀ GIAN LẬN
BẢO HIỂM Y TẾ

1.1 Giới thiệu chung về bảo hiểm y tế tại Việt Nam.
Theo Luật Bảo hiểm y tế, Chính phủ thống nhất quản
lý nhà nư ớc về bảo hiểm y tế. Trong đó trách nhiệm của
các Bộ ngành liên quan gồm: Bộ Y tế được giao quản lý
nhà nước, thực hiện các chính sách về lĩnh vực y tế, Bộ
Tài chính phối hợp với Bộ Y tế, xây dựng chính sách,
pháp luật về tài chính liên quan đến bảo hiểm y tế, thanh
tra, kiểm tra việc thực hiện các quy định của pháp luật về
chế độ tài chính đối với bảo hiểm y tế, quỹ bảo hiểm y tế
Bảo hiểm y tế là hình thức bảo hiểm được áp dụng
trong lĩnh vực chăm sóc sức khỏe, không vì mục đích lợi
nhuận, do Nhà nước tổ chức thực hiện và các đối tượng
tham gia với nguyên tắc:
- Chia sẻ rủi ro giữa những người tham gia bảo
hiểm y tế,
- Mức hưởng bảo hiểm y tế theo mức độ bệnh tật,
nhóm đối tượng trong phạm vi quyền lợi của người tham
gia bảo hiểm y tế
8

chung, các dịch vụ, kinh doanh y tế đưa ra một chi phí
không cần thiết hoặc trong bồi hoàn của các dịch vụ
không cần hoặc các dịch vụ đó không đáp ứng các tiêu
chuẩn chuyên nghiệp được công nhận trong chăm sóc sức
khỏe.
1.2.2 Các hình thức gian lận bảo hiểm y tế
Có nhiều hình thức gian lận và lạm dụng trong
gian lận y tế. Dưới đây liệt kê những hình thức chủ yếu:
a. Gian lận y tế từ các nhà cung cấp chăm sóc y tế,
các cơ sở khám chữa bệnh, nhân viên y tế.
b. Gian lận y tế nhà cung cấp trang thiết bị, thuốc
điều trị.
10

c. Gian lận từ người tham gia thụ hưởng bảo hiểm:
giả mạo giấy tờ, cho người khác mượn giấy tờ liên quan
khi đi khám chữa bệnh.
1.2.3 Nguy cơ gian lận bảo hiểm y tế tại Việt Nam
Tình trạng lạm dụng quỹ BHYT không chỉ xuất
hiện ở Việt Nam mà ngay cả những nước có lịch sử phát
triển BHYT trên 100 năm như Pháp, Đức cũng t ồn tại
với nhiều hình thức khác nhau. Tuy nhiên, tại Việt Nam,
tình trạng lạm dụng BHYT đang ngày càng nhiều với đủ
các “tiểu xảo” từ nhiều đối tượng.
Thực tế tình hình lạm dụng và gian lận bảo hiểm y
tế ở Việt Nam hiện đang diễn ra hàng ngày tại các cơ sở
KCB với những biểu hiện muôn hình vạn trạng từ đối
tượng đến phương thức lạm dụng, hiện chưa có một công
cụ hữu hiệu cũng như chính sách rõ ràng trong việc kiểm
soát cũng như phát hiện gian lận.

Phương pháp luận điểm dựa trên việc sử dụng các
kỹ thuật trong phân cụm và quy tắc đã đư ợc sử dụng để
xác định gian lận có thể trong Health Insurance
Commission (HIC) của Úc.
Thuật toán k-Nearest Neighbor (kNN) với các
khoảng cách số liệu tối ưu hóa bằng cách sử dụng một
thuật toán di truyền của tiến sỹ Becker et. và đồng
nghiệp.
Cox áp dụng một hệ thống phát hiện gian lận dựa
trên lôgic mờ cho việc phân tích yêu cầu chăm sóc sức
khỏe. Hệ thống mờ này sử dụng quy tắc xuất phát từ các
chuyên gia của con người để phát hiện các mẫu hành vi
thường.
Trong đó phương pháp cây quyết định và thuật
toán C4.5 đã đư ợc sử dụng thông qua dấu hiệu lâm sàng
và các trường chi phí phải thanh toán được thiết lập bởi
các chuyên gia.
Sử dụng mạng Neural, chương trình này s ử dụng
tất cả các dữ liệu có sẵn yêu thanh toán chi phí y tế để
13

xây dựng một véctơ duy nhất được đánh giá bởi mạng
Neural duy nhất.
Ngoài ra việc xác định bằng cách sử dụng công cụ
phân tích thống kê dựa trên: Tổng số tiền hóa đơn. Tổng
số bệnh nhân. Tổng số lượng bệnh nhân truy cập. Số tiền
thanh toán trung bình cho mỗi bệnh nhân. Mỗi bệnh nhân
bình truy cập vào số điện thoại. Các xét nghiệm y tế trung
bình cho mỗi bệnh nhân.


Bước thứ hai là thu thập và xử lý thô, còn được gọi
là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu
dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết.
Bước thứ ba là khai phá dữ liệu, hay nói cách khác
là trích ra các mẫu hoặc và các mô hình ẩn dưới các dữ
liệu.
15

Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là
làm sáng tỏ các mô tả và dự đoán.
2.3 Quá trình khai phá dữ liệu
Khai phá dữ liệu là một tập hợp các kỹ thuật được
sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn
nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và
phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập
dữ liệu đó.
2.4. Các phương pháp khai phá dữ liệu
2.4.1 Phương pháp suy diễn và quy nạp
Phương pháp suy diễn: Rút ra thông tin là kết quả
logic từ các thông tin nằm trong cơ sở dữ liệu dựa trên các
quan hệ trong dữ liệu.
Phương pháp quy nạp: Các thông tin được suy ra
từ cơ sở dữ liệu bằng phương pháp nó tự tìm kiếm, tạo
mẫu và sinh ra tri thức chứ không bắt đầu với các tri thức
đã được biết trước.
2.4.2 Phân nhóm và phân đoạn
Là kỹ thuật phân chia dữ liệu sao cho mỗi phần
hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó.
16


• Gốc: là node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc
tính đơn (hình chữ nhật)
• Nhánh: biểu diễn các kết quả của kiểm tra trên
node trong (mũi tên)
• Node lá: biểu diễn lớp hay sự phân phối lớp (hình
tròn).
3.1.1 Ưu điểm của cây quyết định :
- Khả năng sinh ra các quy tắc hiểu được.
- Khả năng thực thi trong những lĩnh v ực hướng
quy tắc.
- Dễ dàng tính toán trong khi phân lớp.
- Khả năng xử lý với cả thuộc tính liên tục và thuộc
tính rời rạc
18

- Thể hiện rõ ràng những thuộc tính tốt nhất.
3.1.2 Điểm yếu của cây quyết định
- Dễ xảy ra lỗi khi có quá nhiều lớp.
- Chi phí tính toán đắt để đào tạo.
3.2 Các phương pháp xây dựng cây quyết định
Quá trình xây dựng cây quyết định gồm hai giai
đoạn:
• Giai đoạn thứ nhất phát triển cây quyết định:
• Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên
cây quyết định.
Trong quá trình xây dựng cây quyết định thì việc
lựa chọn thuộc tính tốt nhất tại mỗi nút là yêu cầu quan
trọng. Do vậy các phương pháp xây dựng cây quyết định
khác nhau do thuật toán xây dựng phép kiểm tra thuộc tính


Thuật toán CHAID kiểm tra thống kê sử dụng phụ
thuộc vào kiểu của thuộc tính mục tiêu.
3.4.1.2 Quá vừa dữ liệu (data overfitting)
Quá vừa dữ liệu (data overfitting) là vấn đề thường
gặp trong học máy, điều này ảnh hưởng đến độ chính xác
của kỹ thuật học máy.
Có hai hướng giải pháp chính để hạn chế quá vừa
dữ liệu cho cây quyết định:
- Dừng cây quyết định sớm trước khi cây đủ phức
tạp để phân loại đúng mẫu huấn luyện.
- Xây dựng cây đầy đủ, sau đó cắt tỉa để có cây đơn
giản. Phương pháp này được sử dụng trên thực tế.
3.4.1.3 Cơ chế riêng trong xử lý những giá trị thiếu
Giá trị thiếu của thuộc tính là hiện tượng phổ biến
trong dữ liệu, có thể do lỗi khi nhập các bản ghi vào cơ sở
dữ liệu, cũng có thể do giá trị thuộc tính đó được đánh giá
là không cần thiết đối với trường hợp cụ thể.
3.4.1.4 Chuyển đổi từ cây quyết định sang luật:
Giai đoạn chuyển dổi từ cây quyết định sang luật
bao gồm 4 bước:
21

• Cắt tỉa.
• Lựa chọn.
• Sắp xếp.
• Ước lượng, đánh giá.
3.4.2 Phương pháp cắt tỉa cây
Phương pháp cắt tỉa các luật được thuật toán C4.5
như sau:

hưởng đến chi phí khám chữa bệnh.
Trong tiến trình trên, thông tin đ ầu vào là chi tiết
chi phí khám chữa bệnh của bệnh nhân, thông tin chung
của bệnh nhân trong kho dữ liệu lưu trữ sẽ được trích chọn
và xử lý.
23

Dữ liệu trích chọn:
Căn cứ vào phân tích đánh giá từng mức chi phí
dựa trên dữ liệu tại Bệnh viện Đức Giang năm 2011 xét
trên một mã bệnh là đau tức vùng ngực (từ I10-I69).
Dữ liệu trích chọn gồm: 8 trường dữ liệu, gồm ID
mã bệnh nhân, các trường được lựa chọn là các chi phí cơ
bản của một bệnh nhân khi nằm nội trú tại bệnh viện và
các yếu tố ảnh hưởng đến các chi phí đó như độ tuổi của
bệnh nhân (được tính trên đơn vị nghìn đồng), tình trạng
điều trị của người bệnh. Cụ thể:
Bảng dữ liệu huấn luyện gồm 9 trường và 43 mẫu.
Các trường gồm các chi phí: Tiền xét nghiệm, tiền chuẩn
đoán hình ảnh, tiền thuốc và tổng chi phí, và các yếu tố
ảnh hưởng đến chi phí như độ tuổi, số bệnh trong một đợt
bệnh nhân phải điều trị và tình trạng bệnh nhân khi nằm
viện (có cấp cứu hay không).
Dữ liệu kiếm tra:
Từ dữ liệu lưu trữ ta trích chọn và xử lý các trường
để phù hợp với Bảng dữ liệu huấn luyện. Ví dụ: Ta xét
trong 236 trường hợp trong một đợt điều trị. Trong đó
24

trường gian lận được gán bằng ‘No’. Việc đánh giá mô

Sau khi dữ liệu kiểm tra được đưa vào chương
trình, căn cứ vào cây quyết định đã được xây dựng và tập
luật phát sinh sau khi đã hoàn thành việc cắt tỉa.
Kết quả thu được sau khi đưa dữ liệu kiểm tra vào,
chương trình phát hiện 6/243 bản ghi bị lỗi và đưa danh
sách các bản ghi.
4.3.4 Đánh giá kế t quả thử nghiệm
Với số bản ghi đưa vào 243 sau kiểm tra phát hiện
ra 6 trường hợp với tỷ lệ (2,5%) có dấu hiệu gian lận.

26

KẾT LUẬN

Luận văn đã đạt được một số kết quả chính như sau:
- Nghiên cứu vấn đề gian lận trong lĩnh v ực bảo
hiểm y tế, các biện pháp phòng chống gian lận y tế; tìm
hiểu tình hình phòng chống gian lận y tế trên thế giới áp
dụng mô hình cho Việt Nam.
- Tìm hiểu các phương pháp phát hiện gian lận:
Hiện nay có nhiều phương pháp phát hiện gian lận các kỹ
thuật được sử dụng như: học máy, khai phá dữ liệu,…
hay các mô hình thông kê
- Khai phá dữ liệu là một trong những kỹ thuật
được áp dụng rộng rãi trên nhiều lĩnh vực nói chung và
trong phát hiện gian lận nói riêng.
- Luận văn đã ti ến hành cài đặt phương pháp cây
quyết định và thuật toán C4.5 để pháp hiện gian lận trong
lĩnh vực BHYT dựa trên việc khảo sát, đánh giá từ nguồn
dữ liệu thực tế của Bệnh viện Đức Giang năm 2011 trên


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status