ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI TIỂU LUẬN
MÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH
ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU
NHẰM PHÁT HIỆN GIAN LẬN
CHO KẾ TOÁN TÀI CHÍNH
GVHD : PGS. TS. Đỗ Phúc
HVTH : Võ Thị Thúy Lan
MSHV : CH1301096
Long An, tháng 06 năm 2014
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI TIỂU LUẬN
MÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH
ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU
NHẰM PHÁT HIỆN GIAN LẬN
CHO KẾ TOÁN TÀI CHÍNH
GVHD : PGS. TS. Đỗ Phúc
HVTH : Võ Thị Thúy Lan
MSHV : CH1301096
Lớp : Cao học khóa 8
Long An, tháng 06 năm 2014
LỜI CAM ĐOAN
Tôi xin cam đoan bài báo cáo này hoàn toàn do tôi thực hiện với nội dung dựa
theo “Tạp chí Quốc tế Nghiên cứu nâng cao Khoa học máy tính và Kỹ thuật phần mềm
tập 3, số 11, tháng 11 năm 2013” của tác giả Sowjanya và cộng sự.
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
MỤC LỤC
HVTH: Võ Thị Thúy Lan – CH1301096 4
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
cáo này.
HVTH: Võ Thị Thúy Lan – CH1301096 6
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
HVTH: Võ Thị Thúy Lan – CH1301096 7
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Chương 1. GIỚI THIỆU
Kiểm toán ngày nay đã trở thành một nhiệm vụ quan trọng và được áp dụng
rộng rãi. Koskivaara gọi năm 2002, "năm kinh hoàng", khi kiểm tra một số sổ sách kế
toán trong một cuộc khảo sát đã tuyên bố rằng việc gian lận vẫn đang tiếp diễn
(Koskivaara, 2004). Một số ước tính nói rằng chi phí gian lận kinh doanh tại Mỹ là hơn
400 tỷ USD mỗi năm (Wells, 1997). Spathis, Doumpos và Zopounidis (2002) cho rằng
gian lận báo cáo tài chính ngày càng trở nên thường xuyên trong vài năm qua. Vì thế,
nhu cầu của việc phát hiện, xác định và báo cáo gian lận kế toán tài chính đã tăng lên.
Gian lận trong quản lý có thể được định nghĩa là sự gian lận có chủ ý gây thiệt
hại cho nhà đầu tư và các chủ nợ thông qua sự sai lệch tài liệu báo cáo tài chính. Trong
quá trình kiểm toán, kiểm toán viên phải đánh giá khả năng gian lận quản lý.
Trong tài liệu học thuật, gian lận là dẫn đến sự lạm dụng của hệ thống tổ chức
lợi nhuận mà không nhất thiết phải dẫn đến hậu quả pháp lý. Mặc dù các tài liệu còn
thiếu một định nghĩa được mọi người chấp nhận hoàn toàn về gian lận tài chính, các
nhà nghiên cứu đã xác định nó như là "một hành động cố ý và trái pháp luật, nguyên
tắc hay chính sách với mục đích để có được lợi ích tài chính trái phép" và "cố ý sai sót
hoặc bỏ sót số tiền của người sử dụng và không đưa vào báo cáo tài chính, đặc biệt là
các nhà đầu tư và các chủ nợ". Gian lận kế toán thực hiện bằng cách làm giả mạo báo
cáo tài chính kế toán mà các con số được chế tác bằng việc phóng đại tài sản, mục giả
liên quan đến doanh thu và lợi nhuận, chiếm dụng tiền thuế, công nợ, chi phí hoặc tổn
thất. Sự gian lận kế toán cũng được xác định bởi các chuyên gia kế toán là có "thao tác
chủ ý ghi chép không đúng các số liệu trong báo cáo tài chính để đạt được một lợi
nhuận hoạt động của công ty và sự hiển thị đó là không đúng so với thực tế".
Về kinh tế, gian lận tài chính đã trở thành một vấn đề ngày càng nghiêm trọng
và việc phát hiện hiệu quả gian lận kế toán luôn luôn là một nhiệm vụ quan trọng
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
thuật dựa trên phân loại có thể được sử dụng để hỗ trợ công việc cho các chiến lược
quy hoạch kiểm toán.
Các phương pháp phát hiện gian lận trong đấu giá trực tuyến (Shah, 2002) dựa
trên phương pháp thống kê và phân tích liên kết trong để phát hiện người mua ảo xảy
ra khi người bán cố gắng đội giá trong phiên đấu giá bằng cách đặt mua hồ sơ dự thầu
dưới những bí danh khác nhau hoặc thông qua liên kết. Ngoài gian lận, những nỗ lực
phát hiện có thể được thúc đẩy hơn nữa bởi sự cần thiết phải hiểu được hành vi của
khách hàng để cho phép cung cấp dịch vụ phù hợp và cải thiện hoạt động.
HVTH: Võ Thị Thúy Lan – CH1301096 10
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Chương 2. GIAN LẬN LÀ GÌ?
Gian lận là hành vi cố ý để tạo ra cho người khác một cái gì đó có giá trị, hoặc
từ bỏ quyền hợp pháp. Đó là sự xuyên tạc hoặc che giấu thông tin để lừa dối hoặc gây
nhầm lẫn. Gian lận có thể từ nhân viên trộm cắp nhỏ, hành vi để chiếm đoạt tài sản và
báo cáo tài chính gian lận. Trong bối cảnh tình huống khác nhau, gian lận có thể có các
hình thức hơi khác nhau. Ví dụ: hối lộ, tham ô, gian lận chứng khoán, gian lận chăm
sóc sức khỏe, lừa đảo rửa tiền, gian lận bảo hiểm, vi phạm bản quyền phần mềm, gian
lận internet, lừa đảo qua điện thoại, thế chấp lừa đảo bị tịch thu và trộm cắp danh tính -
tất cả đều có đặc điểm riêng biệt của nó. Ít nhất có nhiều loại gian lận mà nhiều loại
người đã thực hiện nó. Nhưng trong mỗi trường hợp, liên quan đến gian lận lừa dối.
Một người nào đó cố tình gian lận để có được một lợi ích bất hợp pháp, hoặc một lợi
thế không công bằng.
Một số ví dụ về gian lận bao gồm:
• bất kỳ hành động không trung thực hoặc gian lận;
• giả mạo hoặc thay đổi một hóa đơn, hối phiếu ngân hàng, hoặc tài liệu tài chính;
• biển thủ tài sản;
• có chủ ý không thích hợp trong việc xử lý hoặc báo cáo tiền hoặc giao dịch tài
chính;
• mạo danh trong một giao dịch kinh doanh để nhận được một lợi ích (chẳng hạn
Bước 1: Phân tích các mục tiêu lừa đảo và gian lận tiềm năng, để chuyển đổi
chúng thành mục tiêu khai thác dữ liệu
Bước 2: Thu thập dữ liệu và sự hiểu biết
Bước 3: Làm sạch dữ liệu và chuẩn bị cho các thuật toán
Bước 4: Thiết kế thử nghiệm
Bước 5: Đánh giá kết quả để xem xét quá trình.
có liên quan vấn đề kỹ thuật là do:
- Dữ liệu không hoàn hảo do không thu thập cho mục đích khai thác dữ liệu, vì
vậy chúng không chính xác, không đầy đủ và không liên quan thuộc tính dữ
liệu;
- Dữ liệu chênh lệch nhau, có rất nhiều chi tiết hợp pháp hơn là phát hiện gian
lận, vì vậy bằng cách dự đoán tất cả các trường hợp để hợp pháp, có thể đạt
được tỷ lệ thành công rất cao mà không phát hiện bất kỳ gian lận;
- Cơ hội nhiều hơn phù hợp khi xảy ra mô hình chính xác cao phát sinh từ mô
hình phù hợp trong tập huấn luyện mà không đáng tin cậy về mặt thống kê và
không có sẵn trong các thiết lập điểm. Để xử lý với các dữ liệu sai lệch, tập
huấn luyện được chia thành từng mảnh để nơi phân phối là ít sai lệch (Chan,
1998).
HVTH: Võ Thị Thúy Lan – CH1301096 13
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Một cách tiếp cận phát hiện điển hình bao gồm việc phát hiện ngoại lai, nơi các
hành vi gian lận không được giả định như bình thường và xác định giá trị ngoại lai rơi
xa bên ngoài phạm vi dự kiến sẽ phải được đánh giá chặt chẽ hơn.
Các kỹ thuật thống kê được sử dụng cho phương pháp này:
Dự đoán và phân loại
• Các thuật toán hồi quy: mạng nơ-ron, giỏ hàng, hồi quy, GLM-General Linear
Model;
• Phân loại các thuật toán (dự đoán tượng trưng kết quả): hồi quy logistic;
Nhóm và tìm hội
• Clustering / Phân nhóm các thuật toán: K-means, Kohonen, phân tích nhân tố;
truyền
Lân
cận
gần
nhất
Clustering
Phân loại
HVTH: Võ Thị Thúy Lan – CH1301096 15
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Dự đoán
Hồi quy
Trực quan
Mô hình
hồi quy
Hình 3.1. Khung khái niệm cho ứng dụng của khai thác dữ liệu để phát hiện gian lận kế toán
tài chính
Mô tả ngắn gọn về các khuôn khổ khái niệm với tài liệu tham khảo được cung
cấp và sáu ứng dụng khai thác dữ liệu (phân loại, phân nhóm, phát hiện ngoại lai, dự
HVTH: Võ Thị Thúy Lan – CH1301096 16
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
báo, hồi quy và trực quan), mỗi thành phần trên sẽ được thảo luận chi tiết hơn trong
phần sau.
3.1. Phân loại các ứng dụng khai thác dữ liệu
Mỗi ô trong số sáu lớp ứng dụng khai thác dữ liệu được hỗ trợ bởi một tập hợp
các phương pháp tiếp cận thuật toán để trích xuất các mối quan hệ có liên quan trong
dữ liệu. Những cách tiếp cận có thể xử lý các lớp khác nhau của vấn đề. Các lớp được
trình bày dưới đây.
Phân loại: Phân tích xây dựng và sử dụng một mô hình để dự đoán các nhãn
phân loại các đối tượng chưa được phân biệt giữa các đối tượng của các lớp khác nhau.
Các nhãn phân loại được xác định trước, rời rạc và không có thứ tự. Các tài liệu nghiên
thường được sử dụng trong việc phát hiện ngoại lai là thuật toán chiết khấu.
Hồi quy: Hồi quy là một phương pháp thống kê được sử dụng để tiết lộ mối
quan hệ giữa một hay nhiều biến độc lập và biến phụ thuộc (có nghĩa là liên tục có giá
trị). Nhiều nghiên cứu thực nghiệm đã sử dụng hồi quy logistic như một chuẩn mực
cho phương pháp này. Các kỹ thuật hồi quy thường được thực hiện bằng cách sử dụng
phương pháp toán học như hồi quy logistic và hồi quy tuyến tính, và nó được sử dụng
trong việc phát hiện thẻ tín dụng, cây trồng, bảo hiểm xe cộ và gian lận của công ty.
Trực quan: đề cập đến trình bày dữ liệu một cách dễ hiểu và phương pháp có
thể chuyển đổi các đặc tính dữ liệu phức tạp vào một mô hình rõ ràng để cho phép
người dùng xem các mô hình phức tạp hoặc phát hiện các mối quan hệ trong quá trình
khai thác dữ liệu. Các nhà nghiên cứu đã khai thác các khả năng phát hiện mô hình hệ
thống thị giác của con người bằng cách xây dựng một bộ công cụ và ứng dụng linh
hoạt mã hóa dữ liệu bằng cách sử dụng màu sắc, vị trí, kích thước và các đặc điểm hình
HVTH: Võ Thị Thúy Lan – CH1301096 18
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
ảnh khác. Trực quan được sử dụng tốt nhất để cung cấp các mẫu phức tạp thông qua
việc trình bày rõ ràng về dữ liệu hoặc các chức năng.
3.2. Phân loại kỹ thuật khai thác dữ liệu trong việc phát hiện gian lận kế toán tài
chính
Để xác định các thuật toán chính được sử dụng để phát hiện gian lận kế toán tài
chính, sau đây là phần trình bày một đánh giá của kỹ thuật khai thác dữ liệu được xác
định trong việc áp dụng để phát hiện các gian lận tài chính. Các kỹ thuật thường xuyên
nhất được sử dụng là mô hình hậu cần, mạng nơ-ron, mạng Bayesian và cây quyết
định, tất cả đều rơi vào phân loại danh mục. Bốn kỹ thuật sẽ được thảo luận chi tiết hơn
trong phần sau đây:
Mô hình hồi quy: các mô hình hồi quy chủ yếu được sử dụng trong việc phát
hiện gian lận kế toán tài chính. Phần lớn trong số đó được dựa trên hồi quy logistic, hồi
quy từng bước-hậu cần, phương pháp đa tiêu chí quyết định và theo cấp số nhân tổng
quát beta hai (EGB2). Mô hình hậu cần là một mô hình tuyến tính tổng quát được sử
dụng cho nhị thức hồi quy trong đó các biến dự đoán có thể là số hoặc phân loại. Nó
phân nhóm với lợi thế như sau. Đầu tiên là thích nghi; thứ hai, nó có thể tạo ra mô hình
mạnh mẽ, và thứ ba, quá trình phân loại có thể được sửa đổi nếu trọng lượng đào tạo
mới được thiết lập. Mạng nơ-ron được áp dụng chủ yếu cho thẻ tín dụng, bảo hiểm ô tô
và gian lận của công ty.
Thực tế mô tả rằng các mạng nơ-ron có thể được sử dụng như một công cụ phát
hiện gian lận tài chính. Sự gian lận trong mạng nơ-ron được mô hình phân loại sử dụng
dữ liệu tài chính nội sinh tạo ra từ mô hình hành vi học có thể được áp dụng cho một
mẫu thử nghiệm. Mạng nơ-ron có thể được sử dụng để dự đoán sự xuất hiện gian lận
của công ty ở cấp quản lý. Các nhà nghiên cứu đã khám phá hiệu quả của mạng nơ-ron,
HVTH: Võ Thị Thúy Lan – CH1301096 20
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
cây quyết định và mạng Bayesian trong việc phát hiện gian lận báo cáo tài chính (FFS-
False Financial Statements) và xác định các yếu tố liên quan đến FFS.
Các nghiên cứu cho thấy vector đầu vào bao gồm chỉ tiêu tài chính và biến chất
lượng, hiệu quả hơn khi mô hình phát hiện gian lận đã được phát triển bằng cách sử
dụng mạng nơ-ron. Mô hình này cũng được so sánh với tiêu chuẩn phương pháp thống
kê như phân tích phân biệt tuyến tính và bậc hai, cũng như phương pháp hồi quy
logistic.
Các kiến trúc mạng nơ-ron thích nghi tổng quát và mạng thích ứng được đón
nhận để phát hiện gian lận. Các kỹ thuật lai giống như quy tắc mờ tích hợp với một
mạng nơ-ron (hệ thống thần kinh mờ) cũng được đề xuất. Các tài liệu mô tả rằng mạng
nơ-ron mờ tích hợp tốt hơn mô hình thống kê truyền thống và mạng lưới mô hình thần
kinh được báo cáo trong các nghiên cứu trước.
Mạng lưới Bayes (BBN- Bayesian Belief Network ): đại diện cho một tập hợp
các biến ngẫu nhiên và điều kiện độc lập bằng cách sử dụng một biểu đồ mạch hở
hướng (DAG- Directed Acyclic Graphs), trong đó các nút đại diện cho các biến ngẫu
nhiên và cạnh thiếu mã hóa độc lập có điều kiện giữa các biến. Mạng Bayesian được sử
dụng trong việc phát triển mô hình cho thẻ tín dụng, bảo hiểm ô tô và phát hiện gian
lận của công ty. Các nghiên cứu mô tả Bayes là mô hình mạng với phân loại một cách
chính xác 90,3% mẫu xác nhận để phát hiện gian lận. Mạng Bayesian vượt trội so với
trong một hoặc nhiều loại có thể không được xác định rõ ràng trong phân tích truyền
thống. Cuối cùng, hiệu suất được tăng lên vì công nghệ mờ làm giảm độ nhạy cảm với
dữ liệu "nhiễu", hoặc giá trị ngoại lai. Một đa hệ thống dựa trên luật lệ mờ được đề
xuất để xếp hạng quản lý tài chính nhà nước. Các tác giả đã sử dụng lý thuyết tập mờ
để đại diện cho sự thiếu chính xác trong thông tin đánh giá và phán đoán.
HVTH: Võ Thị Thúy Lan – CH1301096 22
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Một mô hình logic mờ đã được thực hiện để phát hiện gian lận trong một bảng
tính Excel. Bằng cách sử dụng các mô hình logic mờ để phát triển các cụm cho các báo
cáo khác nhau đại diện cho một mốc trong việc phát hiện gian lận, dữ liệu phi tài chính
bao gồm các biến báo cáo tài chính để phân tích. Mô hình này bao gồm các biến tài
chính khác nhau như đòn bẩy, lợi nhuận, thanh khoản, dòng tiền và một biến được thiết
kế để đại diện cho một công ty với nguy cơ gian lận. Logic mờ có mô hình biến hiệu
quả, được phát triển để định lượng các yếu tố nguy cơ gian lận. Mô hình dự đoán hành
vi gian lận với độ chính xác 86,7%. Được chuyển thể để phát triển một mô hình phát
hiện gian lận báo cáo tài chính. Mô hình đề xuất sử dụng kết hợp dữ liệu báo cáo tài
chính khác nhau.
Logic mờ dựa trên hệ thống chuyên gia đã được phát triển để xác định và đánh
giá liệu các yếu tố gian lận có liên quan đến bảo hiểm trên các khu đã xác định. Logic
mờ dựa trên hệ thống chuyên gia được phát triển cho các kiểm toán viên để xác định
gian lận trong giải quyết vấn đề bảo hiểm. Hệ thống đã có thể cắt giảm chi phí bằng
cách phát hiện hồ sơ giả mạo.
Thuật di truyền với các quy tắc sản xuất logic mờ được sử dụng để phân loại dữ
liệu. Nghiên cứu đã đề xuất và thử nghiệm một hệ thống để phát hiện gian lận về yêu
cầu bảo hiểm nhà sản xuất và dữ liệu giao dịch thẻ tín dụng. Nghiên cứu về di truyền
để phát hiện gian lận thiếu điểm chuẩn với các phương pháp và kỹ thuật hiện có. Một
thuật toán di truyền là cách tiếp cận để phát hiện gian lận báo cáo tài chính. Có thể thấy
rằng điểm bất thường đặc biệt là các số liệu có giá trị cho đặc trưng hành vi tài chính
doanh nghiệp và phân tích những điểm số theo thời gian đại diện cho một cách hiệu
quả để phát hiện khả năng hành vi gian lận.