Tiểu luận môn Hệ hỗ trợ quyết định KHAI THÁC DỮ LIỆU TÀI CHÍNH KẾ TOÁN TỔNG QUAN VỀ MỘT SỐ XU HƯỚNG NGHIÊN CỨU HIỆN NAY - Pdf 27

GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

1

MỤC LỤC
DANH MỤC HÌNH ẢNH 2
TÓM TẮT 3
CHƯƠNG 1: GIỚI THIỆU 3
CHƯƠNG 2: TÀI LIỆU TÌM KIẾM 5
CHƯƠNG 3: CÁC PHƯƠNG PHÁP SỬ DỤNG 6
3.1. Mạng Nơ ron 6
3.2. Thuật toán di truyền 7
3.3. Cây quyết định 8
3.4. Lý thuyêt tập thô 8
3.5. Cơ sở lý luận 8
CHƯƠNG 4: LĨNH VỰC ÁP DỤNG VÀ NGHIÊN CỨU 9
4.1. Dự báo phá sản 10
4.2. Sự quan tâm và những rủi ro tài chính 14
4.3. Gian lận quản lý 15
4.4. Dự đoán hiệu suất doanh nghiệp 16
4.5. Ước tính rủi ro tín dụng 16
CHƯƠNG 5: ĐÁNH GIÁ VÀ HƯỚNG NGHIÊN CỨU TƯƠNG LAI 17
Bảng 1. Lĩnh vực ứng dụng 18
5.1. Phương pháp và mô hình 18
Bảng 2 . Mô hình l{m việc 19
5.2. Dữ liệu 20
Bảng 3. Cỡ mẫu 20
5.3. Số liệu hiệu suất 21
CHƯƠNG 6: KẾT LUẬN 22
TÀI LIỆU THAM KHẢO 23



GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

3

TÓM TẮT
Công cụ khai ph| dữ liệu trở nên quan trọng đối với ng{nh t{i chính
v{ kế to|n. Khả năng ph}n loại v{ dự đo|n cho phép nó được sử dụng cho
c|c mục đích của dự b|o ph| sản, mối quan t}m về tình trạng v{ dự đo|n
khủng hoảng t{i chính , ph|t hiện gian lận quản lý , dự to|n rủi ro tín dụng ,
v{ dự đo|n hiệu suất của công ty. Nghiên cứu n{y nhằm mục đích cung cấp
cho nh{ nước một nghệ thuật xem xét c|c t{i liệu liên quan v{ để chỉ ra cơ
hội nghiên cứu có liên quan.
CHƯƠNG 1: GIỚI THIỆU
Khai th|c dữ liệu – DataMining (Khai ph| dữ liệu) l{ một lĩnh vực
được vinh danh của khoa học m|y tính. Nó xuất hiện ở cuối những năm 80
bởi c|c kh|i niệm v{ phương ph|p từ c|c lĩnh vực trí tuệ nh}n tạo, chứng
nhận bản quyền, hệ thống cơ sở dữ liệu v{ thống kê, khai ph| dữ liệu nhằm
mục đích kh|m ph| thông tin ẩn có gi| trị, phức tạp v{ không rõ r{ng từ
một lượng lớn dữ liệu.
Vì lý do n{y , một thuật ngữ tương đương cho khai ph| dữ liệu l{
Kh|m ph| tri thức trong cơ sở dữ liệu Knowledge Discovery in Databases (
KDD ) được bình đẳng hóa thường gặp trong văn học.
Dữ liệu t{i chính được thu thập bởi nhiều tổ chức như ng}n h{ng ,

cầu ? C|c phương ph|p lựa chọn tính năng |p dụng những gì đang có
?
- C|c số liệu hiệu suất tương đối c}n nhắc l{ gì?
Một nghiên cứu như vậy sẽ giúp c|c nh{ nghiên cứu để tr|nh chồng
chéo nỗ lực v{ điểm chuẩn thực h{nh của mình chống lại sự ph|t triển mới.
Mục đích kh|c của nghiên cứu n{y l{ để chỉ khu vực m{u mỡ để biết thêm
công việc nghiên cứu trong khu vực
Phần còn lại của b{i b|o n{y được tổ chức như sau:
- Phần 2 nói về T{i liệu tham khảo tìm kiếm thu thập được
- Phần 3 mô tả ngắn gọn của phương ph|p khai ph| dữ liệu |p dụng
trong c|c t{i liệu thu thập được
- Phần 4 đề cập đến c|c ứng dụng cụ thể v{ nghiên cứu
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

5

- Cuối cùng, tại mục 5 một vấn đề thẩm định v{ nghiên cứu tương lai
quan trọng được b|o c|o
- Phần 6 l{ phần kết luận
CHƯƠNG 2: TÀI LIỆU TÌM KIẾM
Đối với việc tìm kiếm c|c nghiên cứu liên quan đến việc |p dụng c|c
kỹ thuật khia ph| dữ liệu trong kế to|n t{i chính , chúng tôi đ~ nghiên cứu
c|c tạp chí của bốn nh{ xuất bản : Elsevier,Emerald, Kluwer v{ Wiley. B{i
viết liên quan đ~ được tìm thấy trong c|c tạp chí:
- Asia Pacific Financial Markets. (Thị trường t{i chính Ch}u Á Th|i
Bình Dương)
- Decision Support Systems (Hệ hỗ trợ ra quyết định)
- European Journal of Operational Research (Tạp chí Ch}u Âu hoạt
động nghiên cứu)
- Expert Systems with Applications (Hệ thống chuyên gia v{ c|c ứng

Mạng Nơ ron l{ một công nghệ trưởng th{nh với lý thuyết được
th{nh lập v{ khu vực ứng dụng công nhận. Mạng Nơ ron bao gồm một
số tế b{o nơ ron , tức l{ đơn vị xử lý liên kết với nhau . Liên kết của mỗi
kết nối được g|n một gi| trị số gọi l{ "trọng lượng". Mỗi tế b{o nơ ron
nhận được tín hiệu từ tế b{o nơ ron kết nối. Nếu đầu v{o cường độ tín
hiệu kết hợp vượt qu| một ngưỡng, c|c nơ ron sẽ bị ch|y. Gi| trị đầu
v{o được chuyển bởi c|c chức năng chuyển giao c|c tế b{o nơ ron.
C|c tế b{o nơ ron được sắp xếp th{nh c|c lớp . Một mạng lưới
lớp bao gồm ít nhất một đầu v{o ( đầu tiên ) v{ đầu ra ( cuối cùng ) lớp .
Giữa c|c lớp đầu v{o v{ đầu ra có thể tồn tại một hoặc nhiều lớp ẩn. C|c
loại mạng nơ ron kh|c nhau có một số lượng c|c lớp kh|c nhau. Sơ đồ
tự tổ chức chỉ có một lớp đầu v{o v{ đầu ra , trong khi mạng nơ ron lan
truyền ngược có thêm một hoặc nhiều lớp ẩn.
Sau khi c|c kiến trúc mạng được x|c định , mạng phải được huấn
luyện. Trong mạng lan truyền ngược một mô hình được |p dụng cho
c|c lớp đầu v{o v{ đầu ra cuối cùng được x|c định theo lớp ra. Sản
lượng được so s|nh với kết quả mong muốn v{ c|c lỗi được truyền
ngược trở lại trong mạng nơ ron bằng c|ch điều chỉnh trọng lượng của
c|c kết nối. Qu| trình n{y lặp đi lặp lại cho đến khi tỷ lệ lỗi chấp nhận
được đạt tới. C|c mạng nơ ron lan truyền ngược đ~ trở nên phổ biến
cho c|c dự đo|n v{ ph}n loại c|c vấn đề
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

7

Sơ đồ tự tổ chức l{ một nhóm v{ phương ph|p trực quan của học
không gi|m s|t . Đối với mỗi vector đầu v{o , đầu ra chỉ có một tế b{o
nơ ron sẽ được kích hoạt. Vector trọng số của người chiến thắng được
cập nhật để tương ứng với vector đầu v{o. Như vậy, đầu v{o tương tự
sẽ được |nh xạ tới c|c tế b{o nơ ron đầu ra tương tự hoặc l}n cận tạo

không gian giải ph|p. D}n số l{ một tập hợp c|c nhiễm sắc thể. Sau khi
tạo ngẫu nhiên của d}n số ban đầu mỗi nhiễm sắc thể được đ|nh gi|
bằng c|ch sử dụng chức năng đ|nh gi| năng lực người dùng định nghĩa.
Vai trò của chức năng đ|nh gi| năng lực l{ để đ|nh gi| hiệu quả hoạt
động của nhiễm sắc thể.
Ba bước khai th|c được |p dụng cho c|c nhiễm sắc thể.
- Sinh sản - nơi m{ c|c c| nh}n tự sinh sôi nảy nở bằng c|ch t|i tạo
bản th}n với một x|c suất tương tự như gi| trị năng lực của chúng
- Giao nhau, nơi hai nhiễm sắc thể cùng trao đổi một số bit tạo ra
nhiễm sắc thể mới
- Đột biến , hoạt động trên một nhiễm sắc thể duy nhất bằng c|ch thay
đổi một hoặc nhiều bit. X|c suất đột biến l{ rất thấp
3.3. Cây quyết định
C}y quyết định l{ một phương ph|p ph}n loại v{ dự đo|n, m{
liên tục quan s|t chia th{nh nhóm loại trừ lẫn nhau . Phương ph|p tìm
kiếm c|c thuộc tính tốt nhất t|ch mẫu v{o lớp học c| nh}n. Nhóm liên
tục được chia cho đến khi nhóm qu| nhỏ hoặc không có sự kh|c biệt ý
nghĩa thống kê tồn tại giữa c|c tập con ứng cử viên. Nếu c}y quyết định
trở nên qu| lớn, nó cuối cùng sẽ được tỉa.
3.4. Lý thuyêt tập thô
Lý thuyết tập thô được giới thiệu bởi Pawlak ( 1982). Mức độ lý
thuyết tập hợp với kh|i niệm có thể th{nh viên của một nguyên tố trong
một tập. Cho một lớp C , xấp xỉ dưới của C bao gồm c|c mẫu đó chắc
chắn thuộc về C. xấp xỉ trên của C bao gồm c|c mẫu m{ không thể được
định nghĩa l{ không thuộc C. Lý thuyết tập thô có thể được sử dụng để
mô tả phụ thuộc giữa c|c thuộc tính , để đ|nh gi| tầm quan trọng của
c|c thuộc tính, để đối phó với c|c dữ liệu không phù hợp v{ xử lý không
chắc chắn ( Dimitras et al.1999 )
3.5. Cơ sở lý luận
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

ph}n tích cho phép việc kiểm tra tính chính x|c của c}n bằng của t{i
khoản m{ không cần kiểm tra c|c giao dịch c| nh}n
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

10

Fraser ph}n loại c|c kỹ thuật đ|nh gi| ph}n tích trong không
định lượng như quét, định lượng đơn giản như xu hướng , tỷ lệ kiểm tra
hợp lý chẳng hạn như ph}n tích quy hồi v{ mạng Nơ ron (Fraser et
al.1997 ) (Koskivaara, 2004).
Một xu hướng hiện đại trong kiểm to|n l{ để nắm lấy c|c kh|i
niệm về rủi ro kinh doanh , trong đó nhấn mạnh c|c mục tiêu chiến lược
của một doanh nghiệp kinh doanh. Trong c|ch tiếp cận từ trên xuống
kiểm to|n viên hiểu được mục tiêu chiến lược v{ hoạt động xuống dưới
để qu| trình kinh doanh. Kỹ thuật khai ph| dữ liệu như mạng Nơ ron ,
Giải thuật di truyền , Cơ sở lý luận v{ logic mờ có thể tạo thuận lợi cho
phương ph|p tiếp cận dựa trên rủi ro kiểm to|n mới n{y ( Calderon v{
cộng sự . , 2002).
Những b{i b{o nói đến lĩnh vực ứng dụng cụ thể trong lĩnh vực
kiểm to|n bao gồm Dự b|o ph| sản, dự b|o động liên tục v{ t{i chính v{
gian lận trong quản lý
4.1. Dự báo phá sản
Dự b|o ph| sản dường như l{ chủ đề phổ biến nhất của việc |p
dụng c|c kỹ thuật khai ph| dữ liệu trên dữ liệu t{i chính . Doanh nghiệp
ph| sản g}y thiệt hại kinh tế cho nh{ quản lý , c|c nh{ đầu tư , c|c chủ
nợ v{ người lao động cùng với chi phí x~ hội. Những dự đo|n lý do ph|
sản l{ một vấn đề quan trọng về t{i chính . Dự b|o ph| sản bằng c|ch sử
dụng dữ liệu b|o c|o t{i chính thu hút nguồn gốc của nó từ công việc
của Altman năm 1968. Altman cho rằng thất bại của công ty l{ một qu|
trình thời gian d{i v{ dữ liệu b|o c|o t{i chính phải bao gồm c|c tín hiệu

TUng et al. (2004) sử dụng một mô hình lai tích hợp Mạng nơ ron
v{ hệ thống mờ. Mô hình được gọi l{ "Generic Fuzzy Neural Network "
l{ một cơ sở nguyên tắc bao gồm c|c quy tắc luật mờ IF-THEN có thể tự
điều chỉnh c|c thông số của c|c quy tắc mờ sử dụng thuật to|n học có
nguồn gốc từ c|c mô hình mạng nơ ron.
Ưu điểm chính của mạng nơ ron mờ đ~ được đề cập l{ khả năng
mô hình hóa một vấn đề bằng c|ch sử dụng dễ hiểu của mô hình ngôn
ngữ cấp cao thay vì biểu thức to|n học phức tạp. Mô hình n{y đ~ được
|p dụng để dự đo|n sự ph| sản của ng}n h{ng . Biến đầu v{o l{ 9 biến
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

12

t{i chính , đ~ được tìm thấy l{ quan trọng trong nghiên cứu trước đ}y .
Mẫu chứa dữ liệu về 2555 ng}n h{ng không ph| sản v{ 548 ng}n h{ng
ph| sản. 20 % dữ liệu đ~ được sử dụng như tập huấn luyện v{ 80% như
bộ kiểm tra . Để giảm loại 1 lỗi mẫu được sự c}n bao gồm số lượng
tương đương của c|c ng}n h{ng thất bại v{ không thất bại. T|c giả b|o
c|o một hiệu suất 93% khi sử dụng dữ liệu từ b|o c|o t{i chính có sẵn
mới nhất , 85% khi sử dụng b|o c|o thu được một năm trước v{ 75%
đối với b|o c|o hai năm trước khi c|c bản ghi có sẵn mới nhất. Mô hình
sản xuất một tập khoảng 50 luật mờ IF-THEN, trong đó mô tả sự tương
t|c giữa c|c biến đầu v{o 9 lựa chọn v{ t|c động của chúng đối với sức
khỏe t{i chính của c|c ng}n h{ng quan s|t.
Shin v{ Lee (2002) đề xuất một mô hình dựa trên giải thuật di
truyền . C|c t|c giả nhấn mạnh thực tế l{ như tr|i ngược với Mạng nơ
ron, giải thuật di truyền có thể sản xuất c|c quy tắc . Giải thuật di truyền
đ~ được |p dụng để tìm ngưỡng cho một hoặc nhiều biến trên hoặc
dưới một công ty được coi l{ nguy hiểm. Mô hình n{y sử dụng một cấu
trúc quy tắc có chứa 5 điều kiện, mỗi điều kiện trong số đó được gọi l{

bại. Một người quản lý tín dụng của một ng}n h{ng Hy Lạp lựa chọn 12
chỉ tiêu t{i chính v{o c|c bảng thông tin v{ rời rạc c|c gi| trị liên tục.
Ph}n tích tập thô sản xuất 54 reducts, mỗi có chứa 5-7 thuộc tính,
người quản lý ng}n h{ng được lựa chọn một trong những reduct v{ do
đó c|c thuộc tính còn lại l{ xo| bỏ, phải đồng bộ. Cuối cùng, c|c quy tắc
quyết định được nguồn gốc. Kết quả của phương ph|p n{y đ~ được so
s|nh với kết quả ph}n tích ph}n biệt v{ ph}n tích logit v{ đ~ được tìm
thấy để chiến thắng.
McKee (2003) so s|nh kết quả thu được bằng c|ch sử dụng lý
thuyết tập thô có ý kiến của kiểm to|n viên thực tế với mục đích dự b|o
ph| sản. Mẫu dữ liệu bao gồm 146 bị ph| sản v{ 145 công ty không bị
ph| sản phù hợp với Mỹ. 11 yếu tố tiên đo|n đ~ được lựa chọn, 10 trong
số đó l{ chỉ tiêu t{i chính v{ 1 l{ một ý kiến kiểm to|n trước. Tập thô
sản xuất 87 reducts, mỗi sử dụng 4-6 biến v{ 2 reducts được lựa chọn.
Hai mô hình của nguyên tắc quyết định được ph|t triển. C|c kết quả của
c|c mô hình được so s|nh với tỷ lệ tín hiệu kiểm to|n viên thực tế v{ đ~
được tìm thấy gần như bằng nhau. T|c giả kết luận rằng c|c mô hình
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

14

ph|t triển trong nghiên cứu n{y cung cấp không có lợi thế so s|nh tiên
đo|n đ|ng kể so với c|c phương ph|p hiện h{nh của kiểm to|n viên.
Park.V{ Han (2002) trong một nghiên cứu cơ sở lý luận ph|t
triển một mô hình để dự đo|n ng}n h{ng ph| sản. Đo khoảng c|ch sử
dụng tính năng trọng. Trọng lượng được tính to|n bằng c|ch sử dụng
c|c hương ph|p Ph}n tích qu| trình ph}n cấp (AHP). C|c mẫu bao gồm
1072 thất bại v{ 1072 công ty không thất bại. 13 biến t{i chính phi t{i
chính v{ 15 biến đ~ được lựa chọn cho đầu v{o. C|c t|c giả cho rằng
AHP / CBR thực hiện tốt hơn so với cơ sở lý luận thuần túy, cơ sở lý

quý được d|n nh~n l{ "Early Detector". Phương ph|p cải tiến n{y thực
hiện tốt hơn so với trước đó về loại II lỗi tốc độ. 13 chỉ tiêu t{i chính đ~
được sử dụng như l{ c|c biến đầu v{o v{ một mẫu của 2.144 quan s|t
được sử dụng Kết quả được so s|nh với những người của một mô hình
Probit v{ đ~ được tìm thấy nhỉnh hơn đặc biệt l{ tỷ lệ lỗi loại 1.
Konno v{ Kobayashi (2000) đề xuất một phương ph|p để đ|nh
gi| doanh nghiệp bằng c|ch sử dụng c|c kỹ thuật lập trình to|n học.
Phương ph|p n{y được thực hiện không có giả định ph}n phối về c|c
dữ liệu. Ba lựa chọn thay thế dựa trên ph}n biệt đối xử bởi ph}n biệt
đối xử, ph}n biệt đối xử bởi bề mặt bậc hai v{ ph}n biệt đối xử bởi bề
mặt được sử dụng. 6 chỉ tiêu t{i chính bắt nguồn từ b|o c|o t{i chính đ~
được sử dụng như l{ c|c biến đầu v{o. Mẫu dữ liệu chứa 455 doanh
nghiệp. Phương ph|p tính to|n điểm số cho từng doanh nghiệp.
4.3. Gian lận quản lý
Gian lận quản lý l{ gian lận c}n nhắc cam kết của c|c nh{ quản lý
thông qua b|o c|o t{i chính sai lệch . Gian lận quản lý bị thương cơ
quan thuế , cổ đông v{ chủ nợ .
Spathis (2002) đ~ ph|t triển hai mô hình để x|c định b|o c|o t{i
chính giả mạo từ số liệu công bố công khai. Biến đầu v{o cho c|c mô
hình đầu tiên chứa 9 chỉ tiêu t{i chính. Mô hình thứ hai được thêm v{o
như biến đầu v{o để phù hợp với mối quan hệ giữa khủng hoảng t{i
chính v{ thao t|c b|o c|o t{i chính. Phương ph|p sử dụng l{ hồi quy
logistic v{ c|c mẫu dữ liệu chứa 38 FFS v{ 38 công ty không FFS. Đối
với cả hai mô hình kết quả cho thấy 3 biến với hệ số quan trọng v{o mô
hình
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

16

4.4. Dự đoán hiệu suất doanh nghiệp


17

bộ kh|c có 265 công ty kh|c của Mỹ. Đối với cả hai tập hợp dữ liệu 5
loại đ|nh gi| được x|c định. Hai mô hình cho bộ dữ liệu của H{n Quốc
v{ hai mô hình cho bộ dữ liệu của Mỹ, mỗi người có một vector đầu v{o
kh|c nhau được x}y dựng. SVM v{ NNS lan truyền ngược được sử dụng
để dự đo|n xếp hạng tín dụng. SVM i hình th{nh tốt hơn trong ba trong
bốn mô hình. Một xem xét của nghiên cứu l{ để giải thích mạng nơ ron.
Phương ph|p Garson được sử dụng để đo tầm quan trọng tương đối
của c|c gi| trị đầu v{o
Mues et (2004) sử dụng sơ đồ quyết định sử dụng để x}y dựng
quy tắc đ|nh gi| rủi ro tín dụng. Sơ đồ quyết định có lợi thế mang tính
lý thuyết c}y quyết định rằng họ tr|nh sự lặp lại của sự đẳng cấu. Hai bộ
dữ liệu, một chứa dữ liệu của Đức v{ hai dữ liệu Benelux được sử dụng.
Một mạng nơ ron đ~ được sử dụng để thực hiện việc ph}n loại. C|c
phương ph|p khai th|c quy tắc Neurorule v{ khoan xương đ~ được |p
dụng để trích xuất c|c quy tắc từ mạng. Ngo{i ra C4.5,C4.5 quy tắc v{
Entropy dựa trên đồ thị Quyết định, phương ph|p đ~ được sử dụng để
sản xuất c}y quyết định v{ quy tắc. Hiệu suất của Neurorule v{ khoan
xương được so s|nh với hiệu suất của Mạng nơ ron lan truyền ngược v{
hiệu quả hoạt động của c|c phương ph|p kh|c. Cuối cùng c|c quy tắc đ~
được hình dung theo hình thức sơ đồ quyết định
CHƯƠNG 5: ĐÁNH GIÁ VÀ HƯỚNG NGHIÊN CỨU TƯƠNG LAI
T{i chính kế to|n l{ lĩnh vực ứng dụng phổ biến cho khai ph| dữ
liệu. Việc ph}n loại v{ khả năng dự đo|n của phương ph|p khai ph| dữ liệu
cho phép chúng được sử dụng cho c|c mục đích của dự b|o ph| sản, mối
quan t}m v{ dự đo|n khủng hoảng t{i chính , ph|t hiện gian lận quản lý ,
dự to|n rủi ro tín dụng , v{ dự đo|n hiệu suất của công ty. Kiểm to|n viên ,
c|c chuyên gia chấm điểm tín dụng v{ c|c nh{ đầu tư có thể được tạo điều

C|c phương ph|p khai ph| dữ liệu bao gồm một loạt c|c phương
ph|p có nguồn gốc từ thống kê , trí tuệ nh}n tạo v{ cơ sở dữ liệu . Trong
c|c t{i liệu thu thập mạng Nơ ron l{ mô hình được sử dụng nhiều nhất .
Bảng 2 cho thấy c|c mô hình l{m việc
Mô hình
Bài báo

Mạng Nơ ron
8
Tập thô
3
C}y quyết định
2
Giải thuật di truyền
2
Lai tạo
2
Cơ sở lý luận
1
Lập trình to|n học
1
Hồi quy Logistic
1
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

19
Bảng 2 . Mô hình l{m việc

GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

20

5.2. Dữ liệu
C|c dữ liệu được sử dụng trong c|c t{i liệu thu thập chủ yếu l{
chỉ tiêu t{i chính bắt nguồn từ b|o c|o t{i chính . Trong t|m trường
hợp, c|c vector đầu v{o chỉ bao gồm từ chỉ tiêu t{i chính. Trong trường
hợp chỉ có một tỷ lệ t{i chính không được sử dụng trong c|c vector đầu
v{o . Nhiều t|c giả đề cập đến sự cần thiết phải l{m phong phú thêm
vector đầu v{o với nhiều thông tin. Biến kinh tế vĩ mô có thể được bao
gồm : Thông tin định tính như việc đạt được c|c mục tiêu chiến lược
của công ty , ý kiến kiểm to|n trước, kinh nghiệm quản lý , thông tin thị
trường v{ nhiều yếu tố kh|c có thể được sử dụng để nắm bắt c|c yếu tố
chính trị , x~ hội v{ công nghệ kinh tế. Trong hai b{i b|o kỹ thuật khai
th|c văn bản được sử dụng để ph}n loại v{ dự đo|n hiệu suất của công
ty.
Như được công nhận bởi c|c t|c giả , trong một số c|c giấy tờ
kiểm tra kích thước mẫu không đạt yêu cầu lớn. Mẫu nhỏ có thể thiên vị
c|c kết quả. Hơn nữa có sự kh|c biệt quan trọng trong kích thước của
huấn luyện , thử nghiệm v{ x|c nhận mẫu . Bảng 3 mô tả kích thước
mẫu
Cỡ mẫu
Bài báo

> 1000
4

>500
2

Một xem xét quan trọng l{ số liệu hiệu suất . Hiệu suất được đ|nh
gi| bằng c|ch kiểm tra c|c mô hình chống lại một thử nghiệm v{ có thể
l{ một mẫu x|c nhận.
Trong nhiều trường hợp không có mẫu x|c nhận v{ c|c mẫu thử
nghiệm được sử dụng để đo hiệu suất mô hình. Một số thuật to|n sử
dụng c|c mẫu thử nghiệm để ngăn chặn sự huấn luyện của mô hình. Vì
điều n{y có thể giới thiệu như một thiên vị (gọi l{ " overfitting " ) điều
quan trọng l{ để đo hiệu suất trên một mẫu x|c nhận. Tuy nhiên , có
một xem xét bổ sung liên quan đến lỗi loại 1 v{ loại 2. Một lỗi loại 1 xảy
ra khi c|c mô hình dự đo|n không ph| sản đối với một công ty v{ công
ty thực sự bị ph| sản. Một lỗi loại 2 xảy ra khi c|c mô hình dự b|o ph|
sản cho một công ty l{nh mạnh. Lỗi loại 1 v{ loại 2 có chi phí kh|c nhau.
Lỗi loại 1 có thể dẫn đến quyết định sai lầm có thể g}y ra tổn thất t{i
chính. Loại 2 lỗi có thể g}y ra chỉ điều tra bổ sung. Do đó lỗi loại 1 có chi
phí lớn hơn lỗi loại 2. Chi phí tương đối của c|c loại lỗi Loại I v{ II phải
được xem xét trong số liệu hiệu suất.
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh

22 CHƯƠNG 6: KẾT LUẬN
Kỹ thuật khai ph| dữ liệu có khả năng dự đo|n v{ ph}n loại có
thể tạo thuận lợi cho qu| trình ra quyết định trong c|c vấn đề t{i chính.
C|c nhiệm vụ t{i chính v{ dự b|o trong c|c t{i liệu thu thập được giải
quyết c|c chủ đề dự đo|n ph| sản, ước tính rủi ro tín dụng , mối quan
t}m, khủng hoảng t{i chính , dự đo|n hiệu suất của công ty v{ quản lý

Educational Institution of Thessaloniki, Greece; Yannis Manolopoulos,
Department of Informatics Aristotle University of Thessaloniki, Greece
– “DATA MINING IN FINANCE AND ACCOUNTING: A REVIEW OF
CURRENT RESEARCH TRENDS”
[2] Lê Văn Dực, “ Hệ hỗ trợ ra quyết định”, NXB ĐHQG TPHCM , 2006
[3] PSG.TS. Đỗ Phúc, Slide b{i giảng DSS


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status