HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
LÃ THÚY HÀ
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
2
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
LÃ THÚY HÀ
ĐỀ TÀI
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn
thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn
thông
4
MỞ ĐẦU
Bảo hiểm xã hội trong đó có Bảo hiểm y tế là một
chính sách lớn của Đảng và Nhà nước với mục tiêu lớn là
an sinh xã hội, đảm bảo sự ổn định xã hội, hỗ trợ chi trả
chi phí khám chữa bệnh hoặc một phần chi phí đó cho
người dân.
Trong chăm sóc sức khỏe y tế hiện nay, lạm dụng
và gian lận y tế ngày một gia tăng đó không chỉ là gánh
- Kỹ thuật khai phá dữ liệu
6
- Nghiên cứu bài toán cụ thể với quản lý chi phí
khám chữa bệnh tại cơ sở y tế và kỹ thuật khai phá dữ
liệu trên tổng chi phí của từng bệnh nhân sử dụng
phương pháp cây quyết định.
Phương pháp nghiên cứu:
- Nghiên cứu thực tiễn công tác quản lý chi phí
khám chữa bệnh tại các cơ sở y tế
- Nghiên cứu các tài liệu, báo cáo trong nước và
nước ngoài có liên quan sử dụng kỹ thuật khai phá dữ
liệu để phát hiện gian lận trong lĩnh vực y tế.
- Tiến hành cài đặt và thử nghiệm.
7
CHƯƠNG I: TỔNG QUAN VỀ GIAN LẬN
BẢO HIỂM Y TẾ
1.1 Giới thiệu chung về bảo hiểm y tế tại Việt Nam.
Theo Luật Bảo hiểm y tế, Chính phủ thống nhất quản
tuyến tỉnh, thành phố trực thuộc Trung ương do tỉnh, thành
phố quản lý.
1.1.2 Chức năng, nhiệm vụ của cơ quan Bảo hiểm xã
hội trong y tế:
a. Giám định bảo hiểm y tế.
b. Thanh toán chi phí khám bệnh, chữa bệnh bảo
hiểm y tế.
9
1.2 Hiện trạng gian lận trong bảo hiểm y tế
Gian lận chăm sóc sức khỏe- trong lĩnh vực y tế là
một lừa bịp cố ý hoặc làm sai lệch được thực hiện bởi
một người hoặc một thực thể dẫn đến tổn thất về tài chính
cho cơ sở khám chữa bệnh hoặc dọanh nghiệp tham gia
trong lĩnh vực bảo hiểm y tế.
Lạm dụng y tế được tạo ra khi một trong hai nhà
cung cấp thực tiễn không phù hợp với mức tài chính
chung, các dịch vụ, kinh doanh y tế đưa ra một chi phí
không cần thiết hoặc trong bồi hoàn của các dịch vụ
không cần hoặc các dịch vụ đó không đáp ứng các tiêu
chuẩn chuyên nghiệp được công nhận trong chăm sóc sức
khỏe.
1.2.2 Các hình thức gian lận bảo hiểm y tế
Có nhiều hình thức gian lận và lạm dụng trong
gian lận y tế. Dưới đây liệt kê những hình thức chủ yếu:
a. Gian lận y tế từ các nhà cung cấp chăm sóc y tế,
các cơ sở khám chữa bệnh, nhân viên y tế.
b. Gian lận y tế nhà cung cấp trang thiết bị, thuốc
điều trị.
10
nhận dạng như lạm dụng thanh toán hoặc chăm sóc y tế
được xem là không thích hợp.
Dịch vụ y tế là phức tạp, chúng được áp dụng cho
hệ thống sinh học từng cá nhân, phụ thuộc vào trình đ ộ
chuyên môn, kỹ thuật khác nhau và kết quả đôi khi đo
bằng phương pháp không chính xác.
Bất kỳ kỹ thuật phân tích được sử dụng để phát
hiện các gian lận và lạm dụng phải thừa nhận việc khó
khăn khi xác định tình trạng, tính trầm trọng của bệnh tật.
1.3.3 Các phương pháp phòng chống gian lận trong
lĩnh vực y tế
Phương pháp học máy dựa trên một bộ quy tắc tập
dữ liệu huấn luyện chẩn đoán, phác đồ điều trị chuẩn của
12
từng loại bệnh trên số bệnh nhân được thanh toán bảo
hiểm y tế để tìm kiếm khả năng gian lận.
Phương pháp luận điểm dựa trên việc sử dụng các
kỹ thuật trong phân cụm và quy tắc đã đư ợc sử dụng để
xác định gian lận có thể trong Health Insurance
Commission (HIC) của Úc.
Thuật toán k-Nearest Neighbor (kNN) với các
khoảng cách số liệu tối ưu hóa bằng cách sử dụng một
thuật toán di truyền của tiến sỹ Becker et. và đồng
nghiệp.
Cox áp dụng một hệ thống phát hiện gian lận dựa
trên lôgic mờ cho việc phân tích yêu cầu chăm sóc sức
khỏe. Hệ thống mờ này sử dụng quy tắc xuất phát từ các
chuyên gia của con người để phát hiện các mẫu hành vi
thường.
CHƯƠNG II. CÁC PHƯƠNG PHÁP
KHAI PHÁ DỮ LIỆU ỨNG DỤNG
TRONG PHÁT HIỆN GIAN LẬN
2.1. Phát hiện tri thức và khai phá dữ liệu là gì ?
Phát hiện tri thức trong các cơ sở dữ liệu là một qui
trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với
các tính năng: hợp thức, mới, khả ích, và có thể hiểu được.
Còn khai thác dữ liệu là một bước trong qui trình
phát hiện tri thức gồm các thuật toán khai thác dữ liệu
chuyên dùng dưới một số qui định về hiệu quả tính toán
chấp nhận được để tìm ra các mẫu hoặc các mô hình trong
dữ liệu.
2.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu
Bước thứ nhất là tìm hiểu lĩnh v ực ứng dụng và
hình thành bài toán.
Bước thứ hai là thu thập và xử lý thô, còn được gọi
là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu
dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết.
Bước thứ ba là khai phá dữ liệu, hay nói cách khác
là trích ra các mẫu hoặc và các mô hình ẩn dưới các dữ
liệu.
15
Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là
làm sáng tỏ các mô tả và dự đoán.
2.3 Quá trình khai phá dữ liệu
Khai phá dữ liệu là một tập hợp các kỹ thuật được
sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn
có bốn quy luật cơ bản là lai ghép, đột biến, sinh sản và
chọn lọc tự nhiên.
17
CHƯƠNG III : KHAI PHÁ DỮ LIỆU
BẰNG CÂY QUYẾT ĐỊNH
3.1 Một số khái niệm cơ bản về cây quyết định:
Cây quyết định là một cấu trúc ra quyết định có
dạng cây. Cây quyết định là một trong phương pháp học
máy tiêu biểu ứng dụng trong phân loại và dự đoán. Cấu
trúc dạng cây gồm:
• Gốc: là node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc
tính đơn (hình chữ nhật)
• Nhánh: biểu diễn các kết quả của kiểm tra trên
node trong (mũi tên)
• Node lá: biểu diễn lớp hay sự phân phối lớp (hình
tròn).
3.1.1 Ưu điểm của cây quyết định :
- Khả năng sinh ra các quy tắc hiểu được.
- Khả năng thực thi trong những lĩnh v ực hướng
quy tắc.
- Dễ dàng tính toán trong khi phân lớp.
- Khả năng xử lý với cả thuộc tính liên tục và thuộc
3.2.2 Thuật toán C4.5
Thuật toán C4.5 là thuật toán cải tiến thuật toán
ID3. C4.5 còn chứa một kỹ thuật cho phép biểu diễn lại
cây quyết định dưới dạng một danh sách sắp thứ tự các
luật if-then (một dạng quy tắc phân lớp dễ hiểu).
Thuật toán sử dụng tỷ lệ chia nhỏ những tiêu chí để
đối phó với dữ liệu huấn luyện gồm các trường hợp với
mục đích đưa ra kết quả là duy nhất.
Một phương pháp để giải quyết vấn đề bằng cách
sử dụng thông tin chia tách SliptInformtion P(S,A) và
Gain Ratio(S,A) để phạt những thuộc tính nhiều giá trị
3.2.3 Thuật toán CART:
Chỉ số Gini được sử dụng trong thuật toán CART .
Trái ngược với độ đo Gain, chỉ số Gini là độ đo về tính
“không trong suốt” của tập dữ liệu.
3.2.4 Thuật toán CHAID:
20
Thuật toán CHAID kiểm tra thống kê sử dụng phụ
thuộc vào kiểu của thuộc tính mục tiêu.
3.4.1.2 Quá vừa dữ liệu (data overfitting)
Quá vừa dữ liệu (data overfitting) là vấn đề thường
gặp trong học máy, điều này ảnh hưởng đến độ chính xác
của kỹ thuật học máy.
Có hai hướng giải pháp chính để hạn chế quá vừa
dữ liệu cho cây quyết định:
- Dừng cây quyết định sớm trước khi cây đủ phức
tạp để phân loại đúng mẫu huấn luyện.
- Xây dựng cây đầy đủ, sau đó cắt tỉa để có cây đơn
giản. Phương pháp này được sử dụng trên thực tế.
22
CHƯƠNG IV: XÂY DỰNG VÀ CÀI ĐẶT BÀI TOÁN
Bảo hiểm y tế đang tiến tới mục tiêu thực hiện lộ
trình bảo hiểm y tế toàn dân đúng thời hạn vào năm 2015,
bên cạnh chủ động xây dựng kế hoạch hoạt động cụ thể,
chặt chẽ để đảm bảo quyền lợi cho người bệnh khi tham
gia khám chữa bệnh bằng thẻ BHYT. Theo đó, thì vi ệc
tăng cường giám sát quy trình thực hiện dịch vụ y tế và
các loại vật tư tiêu hao, thuốc đã sử dụng đảm bảo chất
lượng theo quy định cũng như chống lạm dụng quỹ BHYT
là một yêu cầu cần thiết đặc biệt trong lộ trình tăng giá
dịch vụ y tế do Bộ Y tế ban hành.
Trong luận văn này xét phạm vi bài toán dựa trên
các dịch vụ y tế đối với bệnh nhân nội trú, cụ thể trên chi
phí có khả năng bị lạm dụng cao như tiền xét nghiệm, tiền
chuẩn đoán hình ảnh, tiền thuốc và một số yếu tố ảnh
hưởng đến chi phí khám chữa bệnh.
Trong tiến trình trên, thông tin đ ầu vào là chi tiết
chi phí khám chữa bệnh của bệnh nhân, thông tin chung
của bệnh nhân trong kho dữ liệu lưu trữ sẽ được trích chọn
và xử lý.
23
Dữ liệu trích chọn:
Căn cứ vào phân tích đánh giá từng mức chi phí
dựa trên dữ liệu tại Bệnh viện Đức Giang năm 2011 xét
trên một mã bệnh là đau tức vùng ngực (từ I10-I69).
Dữ liệu trích chọn gồm: 8 trường dữ liệu, gồm ID
mã bệnh nhân, các trường được lựa chọn là các chi phí cơ
Dữ liệu thử nghiệm được lấy từ kho dữ liệu của
Bệnh viện sau khi đã qua các bư ớc định dạng, xử lý theo
yêu cầu về tên trường, các thuộc tính như trong tập dữ
liệu bảng huấn luyện.
Dữ liệu thử nghiệm đưa vào chương trình sau khi
đã xây dựng cây quyết định và tạo xong tập luật. Chương
25
trình sẽ thống kê số lượng các bản ghi nghi ngờ có khả
năng gian lận và đưa ra các bản ghi đó.
4.3.2 Dữ liệu thử nghiệm:
Tập dữ liệu thử nghiệm là tập dữ liệu nhỏ với 236
bản ghi được lấy từ kho dữ liệu. Dữ liệu thử nghiệm
được trích chọn trên cùng một mã bệnh và được xử lý
phù hợp với dữ liệu tập huấn luyện như tên các trường và
thuộc tính của dữ liệu.
4.3.3 Kết quả thử nghiệm:
Sau khi dữ liệu kiểm tra được đưa vào chương
trình, căn cứ vào cây quyết định đã được xây dựng và tập
luật phát sinh sau khi đã hoàn thành việc cắt tỉa.
Kết quả thu được sau khi đưa dữ liệu kiểm tra vào,
chương trình phát hiện 6/243 bản ghi bị lỗi và đưa danh
sách các bản ghi.
4.3.4 Đánh giá kế t quả thử nghiệm
Với số bản ghi đưa vào 243 sau kiểm tra phát hiện
ra 6 trường hợp với tỷ lệ (2,5%) có dấu hiệu gian lận.