Tiểu luận môn hệ hỗ trợ quyết định Tìm hiểu datamining qua bài báo và ứng dụng cây quyết định dự báo sức khỏe dựa vào việc xem mạch trong đông y - Pdf 27

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ĐỀ TÀI:
Giảng viên hướng dẫn: PGS.TS. ĐỖ PHÚC
Học viên thực hiện:
1. LÊ KIM NGA – CH1301040
2. NGUYỄN THÀNH THIỆN – CH1301059
Lớp: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 2
TPHCM, tháng 6/ 2014
MỤC LỤC
MỤC LỤC 2
LỜI GIỚI THIỆU 4
PHẦN I: NỘI DUNG BÀI DỊCH 5
I.1. Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting
Fraud Detection Scheme.pdf” 5
1. Giới thiệu: 5
2. Một gian lận là gì? 7
3. Phương pháp tiếp cận khai phá dữ liệu: 8
3.1 Phân loại các ứng dụng khai phá dữ liệu: 10
3.2 Phân loại kỹ thuật khai phá dữ liệu cho phát hiện gian lận trong Kế toán tài chính: 12
4. Khai phá dữ liệu dựa trên khung đối với phát hiện gian lận: 15
5. Kết luận: 16
I.2. Những kiến thức thu thập được qua bài báo: 18
PHẦN II: ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DÙNG CÂY QUYẾT
ĐỊNH QUA VIỆC BẮT MẠCH 19
II.1. Giới thiệu sơ lược về khai phá dữ liệu: 19
1.Khai phá dữ liệu là gì? 19
2.Quá trình khai phá dữ liệu: 19
3.Chức năng của khai phá dữ liệu: 20
4.Các kỹ thuật khai phá dữ liệu: 20

Nội dung bài thu hoạch của chúng em gồm các phần:
Phần I: Nội dung bản dịch của bài báo;
Phần II: Ứng dụng kỹ thuật khai phá dữ liệu dùng cây quyết định qua việc bắt mạch;
Phân công công việc của từng thành viên:
1. Lê Kim Nga:
− Tìm hiểu về Data Mining và Kỹ thuật khai phá dữ liệu dùng cây quyết định;
− Tìm hiểu về xem mạch trong Đông y và xây dựng bảng dữ liệu dựa vào các
thông tin thu thập được;
− Xây dựng và cài đặt thuật toán tính Gain, Entropy;
− Dịch sơ lược bài báo và hỗ trợ việc thiết kế, hiệu chỉnh giao diện chương trình
Demo; Viết báo cáo thu hoạch;
2. Nguyễn Thành Thiện:
− Tìm hiểu về Data Mining và Kỹ thuật khai phá dữ liệu dùng cây quyết định;
− Xây dựng và cài đặt thuật toán ID3 và vẽ cây;
− Thiết kế giao diện, tập tin dữ liệu đầu vào và chương trình chính;
− Rà soát và điều chỉnh nội dung bản dịch của bài báo; Viết báo cáo thu hoạch;
Do thời gian nghiên cứu có hạn và bản thân chúng em cũng còn nhiều hạn chế nên
bài thu hoạch này chắc chắn sẽ không tránh khỏi phần sai sót. Chúng em mong nhận được
lời góp ý của PGS.TS. Đỗ Phúc để hướng phát triển sắp tới của chúng em sẽ hoàn thiện và
đạt kết quả tốt hơn. Chúng em chân thành cảm ơn!
NHÓM HỌC VIÊN THỰC HIỆN
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 5
PHẦN I: NỘI DUNG BÀI DỊCH
I.1. Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting
Fraud Detection Scheme.pdf”
Áp dụng các kỹ thuật khai phá dữ liệu cho Kế toán tài chính
Đề án Phát hiện gian lận
Tóm tắt: kỹ thuật khai phá dữ liệu được cung cấp viện trợ lớn trong việc phát hiện gian

viên phải đánh giá khả năng gian lận quản lý. Oxford Từ điển tiếng Anh [2] định nghĩa gian
lận là "sai trái hoặc lừa dối hình sự có ý định dẫn đến lợi ích tài chính hoặc cá nhân".
Trong tài liệu học thuật, gian lận được định nghĩa là dẫn đến sự lạm dụng của hệ thống tổ
chức lợi nhuận mà không nhất thiết phải dẫn đến hậu quả pháp lý trực tiếp [3]. Mặc dù các
tài liệu còn thiếu một định nghĩa được chấp nhận của gian lận tài chính, nhà nghiên cứu đã
xác định nó như là "Một hành động cố ý đó là trái pháp luật, nguyên tắc hay chính sách với
mục đích để có được lợi ích tài chính trái phép "[4] và" cố ý sai sót trọng yếu hoặc thiếu sót
của số lượng người sử dụng lừa gạt tài chính, đặc biệt là các nhà đầu tư và các chủ nợ "
[5]. gian lận kế toán thực hiện bằng cách làm cho báo cáo tài chính kế toán giả mạo mà
những con số thao túng bởi phóng đại tài sản, mục giả mạo liên quan đến doanh thu và lợi
nhuận, chiếm đoạt tiền thuế, hoặc dư nợ phải trả, nợ, chi phí hoặc tổn thất [1]. Sự gian lận
kế toán cũng được xác định bởi các chuyên gia kế toán là "có chủ ý và thực hiện không
đúng các ghi chép số liệu trong báo cáo tài chính để đạt được một lợi nhuận hoạt động của
công ty tốt hơn so với thực tế"[6].
Trong kinh tế, gian lận tài chính đang trở thành một vấn đề ngày càng nghiêm trọng và gian
lận kế toán phát hiện một cách hiệu quả đã và đang là một nhiệm vụ quan trọng nhưng phức
tạp cho các chuyên gia kế toán [7]. Kiểm toán nội bộ của các vấn đề tài chính trong các
công ty đã trở thành một hoạt động ngày càng thường xuyên và có nhiều bằng chứng cho
thấy "book cooking" là thông lệ kế toán được áp dụng trên toàn thế giới để thực hiện hành
vi gian lận tài chính [8]. Việc phát hiện gian lận kế toán sử dụng thủ tục kiểm toán nội bộ
truyền thống là một khó khăn hay đôi khi là một nhiệm vụ không thể [9]. Thứ nhất, kiểm
toán viên thường thiếu kiến thức cần thiết liên quan đến các đặc điểm của gian lận kế
toán. Thứ hai, như các thao tác gian lận số liệu kế toán là rất hiếm khi xảy ra, hầu hết các
kiểm toán viên thiếu kinh nghiệm và chuyên môn cần thiết để phát hiện và ngăn chặn gian
lận. Cuối cùng, những người quan tâm khác của bộ phận tài chính như Giám đốc tài chính
(CFO), quản lý tài chính và kế toán đang cố tình tìm cách đánh lừa các kiểm toán viên nội
bộ hay bên ngoài [10]. Trong khi biết những hạn chế của kiểm toán, quản lý tài chính và kế
toán đã kết luận rằng thủ tục kiểm toán truyền thống và những tiêu chuẩn là không đủ để
phát hiện gian lận. Những hạn chế của kiểm toán tài chính đề nghị cần bổ sung dữ liệu tự
động thủ tục phân tích và các công cụ để phát hiện hiệu quả của báo cáo tài chính sai

cả đều có đặc điểm riêng biệt của họ. Có ít nhất là nhiều loại gian lận như có nhiều loại của
những người thực hiện nó. Nhưng trong mỗi trường hợp, liên quan đến gian lận lừa
dối. Một người nào đó cố ý nằm để có được một lợi ích bất hợp pháp, hoặc một lợi thế
không công bằng. Một số ví dụ về gian lận bao gồm:
• Bất kỳ hành động không trung thực hoặc gian lận;
• Giả mạo hoặc thay đổi một phiếu, hối phiếu ngân hàng, hoặc tài liệu tài chính;
• Biển thủ tài sản;
• Cố ý không thích hợp trong việc xử lý hoặc báo cáo tiền hoặc giao dịch tài chính.
• Mạo sử dụng ảnh hưởng trong một giao dịch kinh doanh để nhận được một lợi ích (chẳng
hạn như hối lộ, lại quả, và thầu gian lận);
• Trục lợi là kết quả của thông tin nội bộ;
• Tiết lộ thông tin nội bộ cho người khác để cho họ để bảo đảm tăng bất hợp pháp.
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 8
Lạm dụng là hành vi thiếu hoặc không đúng khi so sánh với hành vi mà một người thận
trọng xem xét hành nghề kinh doanh hợp lý và cần thiết cho các sự kiện và hoàn
cảnh. Trường hợp lạm dụng không gian lận bất hợp pháp hoạt động, nhưng có hại, và họ
cần phải được giảm thiểu.
Tam giác gian lận là một mô hình để giải thích các yếu tố gây ra một người nào đó để
gian lận nghề nghiệp. Nó bao gồm ba thành phần dẫn đến hành vi gian lận:
1. Nhận thức nhu cầu tài chính không chia sẻ
2. Cơ hội cảm nhận
3. Hợp lý hoá
Hình 1: Tam giác Gian lận
3. Phương pháp tiếp cận khai phá dữ liệu:
Khai phá dữ liệu phân tích khối lượng lớn các giao dịch và dữ liệu thanh toán và tìm
ra mô hình, xu hướng và cụm đó tiết lộ gian lận. Các bước chính để thực hiện phương pháp
này để phát hiện gian lận trong một tổ chức kinh doanh là:
1. Phân tích các mục tiêu lừa đảo và gian lận tiềm năng, để chuyển đổi chúng thành mục

pháp tiếp cận bán giám sát với pháp lý (không gian lận) dữ liệu, phương pháp tiếp cận
không được giám sát với các dữ liệu không dán nhãn (Phua, 2005). Khung phân loại, được
thể hiện trong hình 1, dựa trên một nghiên cứu tài liệu hiện có kiến thức về bản chất của
khai phá dữ liệu nghiên cứu [19, 20], nghiên cứu phát hiện gian lận [18].
Một khung phân loại gian lận tài chính được đề xuất trong [7] dựa trên khung tội
phạm tài chính của Văn phòng Liên bang Mỹ điều tra [21], đó là một trong những khuôn
khổ được thiết lập cho phát hiện gian lận tài chính. Hình 2 bao gồm hai lớp, vòng đầu tiên
bao gồm sáu lớp học ứng dụng khai phá dữ liệu về phân loại, phân nhóm, dự báo, phát hiện
outlier, hồi quy, và trực quan [22,23], được hỗ trợ bởi một tập hợp các phương pháp tiếp cận
thuật toán để trích xuất các mối quan hệ có liên quan trong các dữ liệu [14].
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 10
Hình 2: Khung khái niệm cho ứng dụng của khai phá dữ liệu để phát hiện gian lận kế
toán tài chính.
Một mô tả ngắn gọn về các khuôn khổ khái niệm với tài liệu tham khảo được cung cấp và
các ứng dụng khai phá dữ liệu sáu lớp học (phân loại, phân nhóm, phát hiện outlier, dự báo,
hồi quy và trực quan), mỗi thành phần được thảo luận chi tiết hơn trong các phần sau.
3.1 Phân loại các ứng dụng khai phá dữ liệu:
Mỗi lớp ứng dụng khai phá dữ liệu được hỗ trợ bởi một tập hợp các phương pháp tiếp cận
thuật toán để trích xuất các liên quan các mối quan hệ trong dữ liệu. Những cách tiếp cận có
thể xử lý các lớp khác nhau của vấn đề. Các lớp được trình bày dưới đây.
Phân loại (Classification)- Phân loại xây dựng và sử dụng một mô hình để dự đoán các
nhãn phân loại các đối tượng không biết đến phân biệt giữa các đối tượng của các lớp khác
nhau. Các nhãn phân loại được xác định trước, rời rạc và không có thứ tự [24]. Các tài liệu
nghiên cứu mô tả rằng phân loại hoặc dự đoán là quá trình xác định một tập hợp các tính
năng phổ biến (Mô hình), và đề xuất các mô hình mô tả và phân biệt các lớp dữ liệu hoặc
các khái niệm [17]. Phân loại chung kỹ thuật bao gồm các mạng neural, kỹ thuật Naïve
Bayes, cây quyết định và Support vector Machines. Như vậy nhiệm vụ phân loại được sử
dụng trong việc phát hiện thẻ tín dụng, chăm sóc sức khỏe và bảo hiểm xe cộ, và gian lận

quy thường được thực hiện bằng cách sử dụng phương pháp toán học như hồi quy và tuyến
tính, và nó được sử dụng trong việc phát hiện thẻ tín dụng, cây trồng và bảo hiểm xe cộ, và
gian lận của công ty.
Trực quan (Visualization): Visualization đề cập đến trình bày dễ hiểu dữ liệu và phương
pháp có thể chuyển đổi đặc điểm dữ liệu phức tạp vào mô hình rõ ràng để cho phép người
dùng xem các mô hình phức tạp hoặc các mối quan hệ phát hiện trong quá trình khai phá dữ
liệu [14]. Các nhà nghiên cứu đã khai thác các khả năng phát hiện mô hình của thị giác con
người hệ thống bằng cách xây dựng một bộ công cụ và ứng dụng linh hoạt mã hóa dữ liệu
bằng cách sử dụng màu sắc, vị trí, kích thước và hình ảnh khác đặc trưng. Trực quan được
sử dụng tốt nhất để cung cấp các mẫu phức tạp thông qua trình bày rõ ràng về dữ liệu hoặc
các chức năng [29].
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 12
3.2 Phân loại kỹ thuật khai phá dữ liệu cho phát hiện gian lận trong Kế toán tài chính:
Để xác định các thuật toán chính được sử dụng để phát hiện gian lận kế toán tài
chính, chúng tôi trình bày một đánh giá của kỹ thuật khai phá dữ liệu được xác định trong
thực tế áp dụng để phát hiện các gian lận tài chính. Các kỹ thuật thông dụng nhất mô hình
hậu cần, mạng lưới neural, cây mạng Bayesian niềm tin, và quyết định, tất cả đều rơi vào
phân loại thể loại. Bốn kỹ thuật được thảo luận chi tiết hơn trong phần sau.
Mô hình hồi quy: Các mô hình hồi quy dựa chủ yếu được sử dụng trong việc phát hiện
gian lận kế toán tài chính. Đa số chúng đều dựa trên hồi quy logistic, stepwise-logistic
regression, đa phương pháp làm tiêu chí quyết định và mũ beta tổng quát hai (EGB2)
[7]. Mô hình Logistic là một mô hình tuyến tính tổng quát được sử dụng cho nhị thức hồi
quy trong đó các biến dự đoán có thể là số hoặc phân loại [30]. Nó là chủ yếu được sử dụng
để giải quyết vấn đề gây ra bởi bảo hiểm và gian lận của công ty.
Một số nghiên cứu đã đề xuất mô hình hồi quy dựa trên Logistic để dự đoán sự hiện diện
của gian lận báo cáo tài chính [30]. Phương pháp thống kê hồi quy logistic có thể phát hiện
giả mạo báo cáo tài chính một cách hiệu quả [30]. Một số nhà nghiên cứu cũng đã phát triển
mô hình tổng quát phản ứng định tính dựa trên Probit và Logit kỹ thuật để dự đoán tài chính

phát hiện gian lận tài chính. Sự gian lận mạng lưới neural mô hình phân loại sử dụng dữ liệu
tài chính nội sinh tạo ra từ mô hình hành vi học có thể được áp dụng cho một mẫu thử
nghiệm. Mạng lưới neural có thể được sử dụng để dự đoán sự xuất hiện của gian lận của
công ty ở cấp quản lý. Các nhà nghiên cứu đã khám phá hiệu quả của mạng lưới neural, cây
quyết định và các mạng niềm tin Bayesian trong phát hiện gian lận báo cáo tài chính (FFS)
và xác định các yếu tố liên quan đến FFS [8].
Nghiên cứu trong [10] cho thấy vector đầu vào bao gồm chỉ tiêu tài chính và biến
tính, đã được nhiều hơn hiệu quả khi mô hình phát hiện gian lận đã được phát triển bằng
cách sử dụng mạng lưới neural. Mô hình này cũng được so sánh với tiêu chuẩn phương
pháp thống kê như phân tích phân biệt tuyến tính và bậc hai, cũng như phương pháp hồi quy
logistic [10].
Các kiến trúc mạng nơron thích nghi tổng quát và mạng lý thích ứng được đón nhận
vì tội gian lận phát hiện. Các kỹ thuật lai giống như quy tắc mờ tích hợp với một mạng lưới
neural (hệ thống neural mờ) cũng là đề xuất. Các tài liệu mô tả rằng mạng lưới neural mờ
tích hợp tốt hơn mô hình thống kê truyền thống và mạng lưới mô hình neural được báo cáo
trong các nghiên cứu trước.
Bayesian Belief Network: Mạng lưới Belief Bayes (BBN) đại diện cho một tập hợp các
biến ngẫu nhiên và điều kiện độc lập của họ sử dụng một biểu đồ mạch hở có hướng
(DAG), trong đó các nút đại diện cho các biến ngẫu nhiên và cạnh mất tích mã hóa
independencies có điều kiện giữa các biến [8]. Mạng Bayesian niềm tin được sử dụng trong
việc phát triển mô hình thẻ tín dụng, bảo hiểm ô tô, và gian lận của công ty phát hiện. Các
nghiên cứu trong [8] mô tả niềm tin Bayesian mô hình mạng phân loại chính xác 90,3%
mẫu xác nhận để phát hiện gian lận. Mạng niềm tin Bayesian vượt trội so với phương pháp
mạng và quyết định cây neural và đạt được độ chính xác phân loại xuất sắc [8].
Cây quyết định (Decision Tree): Một cây quyết định (DT) là một cây cấu trúc công cụ hỗ
trợ quyết định, trong đó mỗi nút đại diện cho một thử nghiệm trên một thuộc tính và mỗi chi
nhánh đại diện cho kết quả có thể. Bằng cách này, các mô hình dự đoán cố gắng để phân
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 14

bảng tính Excel. Bằng việc sử dụng logic mờ mô hình phát triển cụm cho báo cáo khác nhau
đại diện cho lá cờ đỏ trong việc phát hiện gian lận, dữ liệu phi tài chính là bao gồm các biến
báo cáo tài chính để phân tích. Mô hình này bao gồm các biến khác nhau như tài chính đòn
bẩy, lợi nhuận, thanh khoản, dòng tiền và một biến được thiết kế để đại diện cho một công
ty "của nguy cơ gian lận. Logic mờ hiệu quả mô hình biến, được phát triển để định lượng
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 15
các yếu tố nguy cơ gian lận. Mô hình dự đoán hành vi gian lận với 86,7% độ chính xác
[5]. Cùng một mô hình được chuyển thể trong [1] để phát triển một mô hình để phát hiện
gian lận báo cáo tài chính.
Đề xuất mô hình sử dụng kết hợp dữ liệu báo cáo tài chính khác nhau. Mờ lý dựa
trên hệ thống chuyên gia đã được phát triển để xác định và đánh giá liệu các yếu tố gian lận
có liên quan đến bảo hiểm tuyên bố các khu định cư. Logic dựa mờ hệ thống chuyên gia
được phát triển cho các kiểm toán viên để xác định gian lận trong giải quyết tuyên bố bảo
hiểm. Hệ thống đã có thể cắt giảm chi phí bằng cách phát hiện hồ sơ giả mạo.
Lập trình di truyền với các quy tắc sản xuất logic mờ được sử dụng để phân loại dữ
liệu. Nghiên cứu trong [5] đã đề xuất và đã thử nghiệm một hệ thống để phát hiện gian lận
về yêu cầu bảo hiểm nhà sản và dữ liệu giao dịch thẻ tín dụng. Các nghiên cứu về di truyền
lập trình để phát hiện gian lận thiếu điểm chuẩn với các phương pháp và kỹ thuật hiện
có. Một thuật toán di truyền phương pháp tiếp cận dựa trên phát hiện gian lận báo cáo tài
chính. Có thể thấy rằng điểm bất thường đặc biệt là các số liệu có giá trị cho đặc trưng hành
vi tài chính doanh nghiệp và phân tích những điểm số theo thời gian đại diện cho một cách
hiệu quả phát hiện hành vi khả năng gian lận.
Hệ chuyên gia: Các nhà nghiên cứu trong lĩnh vực hệ thống chuyên gia đã xem xét vai trò
của hệ thống chuyên gia trong việc tăng phát hiện khả năng của kiểm toán viên và người sử
dụng báo cáo. Bằng cách sử dụng hệ thống chuyên gia, họ có thể có khả năng tốt hơn để
phát hiện chiếm nguy cơ gian lận trong bối cảnh và mức độ khác nhau và cho phép kiểm
toán viên cho các đề xuất kiểm toán đáng tin cậy hơn nhiều thông qua thủ tục kiểm toán hợp
lý. Nghiên cứu đã xác nhận rằng việc sử dụng một hệ thống chuyên gia tăng cường kiểm

mẽ và điều chỉnh. Sau khi phân bổ chính xác và đào tạo thích hợp, Neural Network có thể
thực hiện phân loại lớn so với hồi quy mô hình. Nhưng do đặc biệt cấu trúc bí ẩn bên trong,
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 17
đó là không thể đối với các nhà nghiên cứu theo dõi quá trình hình thành các đầu ra kết
luận. Có những vấn đề khác cũng liên quan với Neural Network như không có lời giải thích
rõ ràng về kết nối cân, chính xác phức tạp và thủ tục kiểm tra độ tin cậy thống kê, và thiếu
giải thích.
Nghiên cứu trong tương lai:
Bài viết này cho thấy rằng chỉ sử dụng dữ liệu báo cáo tài chính có thể không đủ cho việc
phát hiện gian lận. Các tầm quan trọng của kỹ thuật khai phá dữ liệu trong việc phát hiện
gian lận tài chính đã được công nhận. Công việc trong tương lai có thể đề xuất một khuôn
khổ phân loại toàn diện hoặc một hệ thống các ứng dụng khai phá dữ liệu trong tài chính
phát hiện gian lận kế toán.
Tài liệu tham khảo
[1] Yue, X., Wu, Y., Wang, Y. L., & Chu, C. (2007). A review of data mining-based
financial fraud detection research, international conference on wireless communications
Sep, Networking and Mobile Computing (2007) 5519 –5522.
[2] Oxford Concise English Dictionary, 11th Edition, Oxford University Press, 2009.
[3] Phua, C., Lee, V., Smith, K. & Gayler, R. (2005). A comprehensive survey of data
mining -based fraud detection research, Artificial Intelligence Review (2005) 1–14.
[4] Wang, J., Liao, Y., Tsai, T. & Hung, G. (2006). Technology-based financial
frauds in Taiwan: issue and approaches, IEEE Conference on: Systems, Man and
Cyberspace Oct (2006) 1120 –1124.
[5] Wang, S. (2010). A Comprehensive Survey of Data Mining-Based Accounting-
Fraud Detection Research. International Conference on Intelligent Computation
Technology and Automation, vol. 1, pp.50 -53, 2010.
[6] Accounting Fraud Definition and Examples that are retrieved from
/>free-accounting-fraud-article/

tài chính kế toán;
− Khung khai phá dữ liệu dùng để phát hiện gian lận trong tài chính kế toán;
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 19
PHẦN II: ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
DÙNG CÂY QUYẾT ĐỊNH QUA VIỆC BẮT MẠCH
II.1. Giới thiệu sơ lược về khai phá dữ liệu:
1. Khai phá dữ liệu là gì?
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của thập kỷ
1980. Nó là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu
được lưu trữ trong các CSDL, kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu,
người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ
CSDL, trích lọc dữ liệu, phân tích dữ liệu/ mẫu, khảo cổ dữ liệu, nạo vét dữ liệu.Nhiều
người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là phát hiện tri thức trong
CSDL (Knowlegde Discovery in Databases - KDD) là như nhau. Tuy nhiên trên thực tế,
khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình phát hiện tri thức trong CSDL. Có
thể nói Data Mining là giai đoạn quan trọng nhất trong tiến trình phát hiện tri thức từ CSDL,
các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh.
2. Quá trình khai phá dữ liệu:
Gồm 6 bước:
Hình 3: Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức được
chiết xuất ra. Nội dung của quá trình như sau:
2.1. Gom dữ liệu (gatherin):
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Đánh giá luật
Tri thức
Mô hình

khả năng kết nối). Những dữ liệu dạng này thường được xem là thông tin dư thừa, không có
giá trị. Bởi vậy đây là một quá trình rất quan trọng. Nếu dữ liệu không được làm sạch- tiền
xử lý - chuẩn bị trước thì sẽ gây nên những kết quả sai lệch nghiêm trọng về sau.
2.4. Chuyển đổi dữ liệu (transformation):
Trong giai đoạn này, dữ liệu có thể được tổ chức và sử dụng lại. Mục đích của việc
chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu.
2.5. Phát hiện và trích mẫu dữ liệu (pattern extraction and discovery):
Đây là bước tư duy trong khai phá dữ liệu. Ở trong giai đoạn này nhiều thuật toán
khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng để trích
mẫu dữ liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật toán mô hình hoá dữ liệu
tuần tự.
2.6. Đánh giá kết quả mẫu (evaluation of result ):
Đây là giai đoạn cuối cùng trong quá trình khai phá dữ liệu, ở giai đoạn này các mẫu
dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải mẫu dữ liệu nào cũng
hữu ích, đôi khi nó còn bị sai lệch. Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ ưu
tiên cho các mẫu dữ liệu để rút ra được những tri thức cần thiết.
3. Chức năng của khai phá dữ liệu:
Khai phá dữ liệu có hai chức năng cơ bản là: chức năng dự đoán và chức năng mô tả.
4. Các kỹ thuật khai phá dữ liệu:
Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện hai chức
năng mô tả và dự đoán.
− Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các đặc tính
chung của dữ liệu trong CSDL hiện có. Một số kỹ thuật khai phá trong nhóm này là: phân
cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan hoá (Visualization), phân
tích sự phát triển và độ lệch (Evolution and deviation analyst),….
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 21
− Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy
diễn trên cơ sở dữ liệu hiện thời. Một số kỹ thuật khai phá trong nhóm này là: phân lớp

dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được.
Phương pháp khai phá luật kết hợp gồm có hai bước:
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 22
Bước 1: Tìm ra tất cả các tập mục phổ biến. Một tập mục phổ biến được xác định
thông qua tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu.
Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thoả mãn
độ hỗ trợ và độ tin cậy cực tiểu.
4.4. Hồi quy: Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở
chỗ nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị
rời rạc.
4.5. Giải thuật di truyền: Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tưởng
chính của giải thuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến
hoá trong sinh học.
4.6. Mạng nơron:
Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay.
Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện
trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người.
Kết quả mà mạng nơron học được có khả năng tạo ra các mô hình dự báo, dự đoán
với độ chính xác và độ tin cậy cao. Nó có khả năng phát hiện ra được các xu hướng phức
tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được. Tuy nhiên phương pháp
mạng nơron rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều
thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm.
4.7. Cây quyết định: Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong
việc phân lớp và dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối
tượng dữ liệu chưa biết sẽ được dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này
thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử
dụng.
5. Các dạng dữ liệu có thể khai phá được:

− Khai thác dữ liệu web.
− Trong thông tin kỹ thuật: khai phá dữ liệu dùng để phân tích các sai hỏng, điều khiển
và lập lịch trình…
− Trong thông tin thương mại: dùng để phân tích dữ liệu người dùng, phân tích dữ liệu
marketing, phân tích đầu tư, phát hiện các gian lận
7. Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu.
Sự phát triển của phát hiện tri thức và khai phá dữ liệu gặp phải một số thách thức
sau:
− CSDL lớn (số lượng bản ghi, số bảng)
− Số chiều lớn
− Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp
nữa.
− Dữ liệu bị thiếu hoặc bị nhiễu.
− Quan hệ giữa các trường phức tạp
− Vấn đề giao tiếp với người sử dụng và kết hợp với các tri thức đã có.
− Tích hợp với các hệ thống khác.
− …
Hướng phát triển của khám phá tri thức và khai phá dữ liệu là vượt qua được tất cả
những thách thức trên. Chú trọng vào việc mở rộng ứng dụng để đáp ứng cho mọi lĩnh vực
trong đời sống xã hội, và tăng tính hữu ích của việc khai phá dữ liệu trong những lĩnh vực
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 24
đã có khai phá dữ liệu. Tạo ra các phương pháp khai phá dữ liệu linh động, uyển chuyển để
xử lý số lượng dữ liệu lớn một cách hiệu quả. Tạo ra tương tác người sử dụng tốt, giúp
người sử dụng tham gia điều khiển quá trình khai phá dữ liệu, định hướng hệ thống khai phá
dữ liệu trong việc phát hiện các mẫu đáng quan tâm. Tích hợp khai phá dữ liệu vào trong
các hệ cơ sở dữ liệu. Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến. Một
vấn đề quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề an
toàn và bảo mật thông tin trong khai phá dữ liệu.

Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 25
Dữ liệu được cho dưới dạng các bản ghi có dạng: (x,y) = (x1, x2, x3, …,xk, y). Biến
phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát
hóa. x1, x2, x3, … là các biến sẽ giúp ta thực hiện công việc đó.
Ví dụ: Cây quyết định phân lớp mức lương
Hình 4. Cây quyết định phân lớp mức lương
2.1.2. Ưu điểm của cây quyết định:
So với các phương pháp khai phá dữ liệu khác, cây quyết định có một số ưu điểm
sau:
− Cây quyết định tương đối dể hiểu.
− Đòi hỏi mức tiền xử lý dữ liệu đơn giản.
− Có thể xử lý với cả các dữ liệu rời rạc và liên tục.
− Cây quyết định là một mô hình hộp trắng.
− Kết quả dự đoán bằng cây quyết định có thể thẩm định lại bằng cách kiểm tra
thống kê.
2.1.3. Các kiểu cây quyết định:
Cây quyết định còn có hai tên khác:
− Cây hồi quy (Regression tree): ước lượng các hàm giá có giá trị là số thực thay
vì được sử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một ngôi nhà hoặc khoảng
thời gian một bệnh nhân nằm viện)
− Cây phân loại (Classification tree): nếu y là một biến phân loại như: giới tính
(nam hay nữ), kết quả của một trận đấu (thắng hay thua).
2.1.4. Vấn đề xây dựng cây quyết định:
Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5,
SLIQ, SPRINT, EC4.5, C5.0…Nhưng nói chung quá trình xây dựng cây quyết định đều
được chia ra làm 3 giai đoạn cơ bản:
a. Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến
khi các mẫu ở mối nút lá thuộc cùng một lớp
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status