Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913) - Pdf 38

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2

PHẠM THỊ PHƢƠNG

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP HỒI QUY
DỮ LIỆU VÀ ỨNG DỤNG VÀO BÀI TOÁN TÍNH
ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ
THANH TRA THUẾ

LUẬN VĂN THẠC SĨ MÁY TÍNH

HÀ NỘI - 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2

PHẠM THỊ PHƢƠNG

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP HỒI QUY
DỮ LIỆU VÀ ỨNG DỤNG VÀO BÀI TOÁN TÍNH
ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ
THANH TRA THUẾ
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Long Giang


Tôi xin cam đoan: Đề tài: Nghiên cứu một số phƣơng pháp hồi quy dữ
liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ
thanh tra thuế” này là công trình nghiên cứu thực sự của cá nhân Học viên,
được thực hiện dưới sự hướng dẫn khoa học của TS. Nguyễn Long Giang.
Các kết quả, phân tích, kết luận trong Luận văn thạc sĩ này (ngoài các phần
được trích dẫn) đều là kết quả làm việc của cá nhân tác giả và chưa từng được
công bố dưới bất kỳ hình thức nào.
Nếu sai tôi xin chịu hoàn toàn trách nhiệm.
Hà Nội, ngày 10 tháng 07 năm 2016
Học viên

Phạm Thị Phƣơng


MỤC LỤC

MỞ ĐẦU...............................................................................................................................................1
NỘI DUNG ..........................................................................................................................................4
CHƢƠNG 1. TỔNG QUAN .........................................................................................................5
1.1 Tổng quan tình hình nghiên cứu trong và ngoài nƣớc ............................... 5
1.2 Sự cần thiết phải triển khai vấn đề nghiên cứu ............................................ 7
1.2.1. Hiện trạng hệ thống phân tích rủi ro người nộp thuế....................... 7
1.2.2. Phân tích hạn chế của hệ thống TPR ............................................. 10
1.2.3. Sự cần thiết phải xây dựng hệ thống tính điểm rủi ro của doanh
nghiệp ....................................................................................................... 10
Kết luận chương 1 .............................................................................................................................11
CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP HỒI QUY TUYẾN TÍNH.......................12
2.1. Phƣơng pháp hồi quy đơn biến .....................................................................12
2.1.1. Vấn đề mô hình hồi quy ................................................................ 12
2.1.2. Ước lượng hệ số hồi quy ................................................................ 14


DANH MỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT
Từ viết tắt

Mô tả

NNT

Người nộp thuế

GTGT

Giá trị gia tăng

TNDN

Thu nhập doanh nghiệp

BCTC

Báo cáo tài chính

TPR

Hệ thống phần mềm phân tích thông tin phục vụ
công tác thanh tra thuế các cấp

QLT

Quản lý thuế


DANH MỤC CÁC BẢNG
Bảng 2. 1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon ................. 12
Bảng 2. 2. Phân tích phương sai để kiểm định tính hiệu quả của hồi quy ...... 18
Bảng 2. 3. Phân tích hệ số và phân tích phương sai cho Ví dụ 1.2................. 27
Bảng 2. 4. Số liệu cho mô hình hồi quy bội .................................................... 28
Bảng 2. 5. Kết quả xử lý với số liệu lực kéo dây dẫn .................................... 35
Bảng 2. 6. Tóm tắt, phân tích phương sai và phân tích hệ số ......................... 36
Bảng 3. 2. Bảng dữ liệu đầu vào của hệ thống................................................ 43


1
MỞ ĐẦU
1. Lý do chọn đề tài
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và
Internet vào nhiều lĩnh vực khác nhau của đời sống xã hội trong mấy năm gần
đây đã tạo ra nhiều cơ sở dữ liệu khổng lồ. Để khai thác hiệu quả nguồn thông
tin trên các cơ sở dữ liệu khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết
định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà
nghiên cứu đã sử dụng công cụ máy tính điện tử để phát triển các phương
pháp, kỹ thuật mới hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin.
Lĩnh vực này được gọi là khai phá dữ liệu và khám phá tri thức (Data Mining
and Knowledge Discovery). Trong khai phá dữ liệu, phân lớp (classification)
và hồi quy (regresstion) là các phương pháp quan trọng và có ứng dụng rộng
rãi và hiệu quả trong các bài toán phân tích dữ liệu và dự báo trong lĩnh vực
kinh tế, tài chính.
Hồi quy dữ liệu là việc xác định một hàm ánh xạ từ một mẫu dữ liệu
vào một biến dự đoán có giá trị thực. Các phương pháp hồi quy được chia
thành các nhóm chính: hồi quy tương quan để xác định mối liên hệ giữa nhiều
biến ngẫu nhiên với nhau; hồi quy tuyến tính đơn biến để xác định mối liên hệ

Cục thuế Hà Nội trên bộ dữ liệu thử nghiệm, đánh giá độ chính xác của mô
hình hồi quy.
4. Đối tƣợng và phạm vi nghiên cứu
Đối tượng nghiên cứu là các phương pháp hồi quy dữ liệu. Phương
pháp nghiên cứu là phương pháp hồi quy tuyến tính đa biến và thử nghiệm
với bài toán tính điểm rủi ro cho các doanh nghiệp phục vụ thanh tra thuế.
5. Phƣơng pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và
nghiên cứu thực nghiệm.


3
Về nghiên cứu lý thuyết, luận văn sử dụng các phương pháp phân tích,
tổng hợp thông tin để tổng kết các kiến thức nền tảng, các công bố khoa học
và các ứng dụng của các phương pháp hồi quy dữ liệu từ các nguồn tài liệu
trên internet và các nguồn tài liệu khác: bao gồm các bài báo khoa học trên
các kỷ yếu hội thảo, tạp chí chuyên ngành…
Về nghiên cứu thực nghiệm, Tìm hiểu bài toán tính điểm rủi ro của
doanh nghiệp phục vụ công tác thanh tra thuế. Cài đặt chương trình tính điểm
rủi ro và thử nghiệm chương trình trên dữ liệu thử nghiệm của một số doanh
nghiệp thuộc Cục thuế Hà Nội.


4
NỘI DUNG
Luận văn gồm: Phần mở đầu, ba chương chính, phần kết luận, danh
mục tài liệu tham khảo và phụ lục. Bố cục như sau:
Phần mở đầu: Nêu lý do chọn đề tài và bố cục luận văn.
Chương 1. Tổng quan, giới thiệu tình hình trong và ngoài nước về vấn
đề liên quan đến ứng dụng công nghệ thông tin vào lĩnh vực thuế, vấn đề gian

and Knowledge Discovery). Trong khai phá dữ liệu, phân lớp (classification)
và hồi quy (regresstion) là các phương pháp quan trọng và có ứng dụng rộng
rãi và hiệu quả trong các bài toán phân tích dữ liệu và dự báo trong lĩnh vực
kinh tế, tài chính.
Hồi quy dữ liệu là việc xác định một hàm ánh xạ từ một mẫu dữ liệu
vào một biến dự đoán có giá trị thực. Các phương pháp hồi quy được chia
thành các nhóm chính: hồi quy tương quan để xác định mối liên hệ giữa nhiều
biến ngẫu nhiên với nhau; hồi quy tuyến tính đơn biến để xác định mối liên hệ
giữa một biến độc lập vào một biến phụ thuộc; hồi quy tuyến tính đa biến xác
định mối liên hệ giữa nhiều biến độc lập vào một biến phụ thuộc…
Trong lĩnh vực thuế, vấn đề gian lận và trốn thuế đang diễn biến ngày
càng trầm trọng và ngày càng phổ biến trên thế giới và tại Việt Nam [5].
Trên thế giới, phân tích rủi ro của các doanh nghiệp để phát hiện các
gian lận trong lĩnh vực thuế là chiến lược cải thiện nguồn thu ngân sách của
hầu hết các chính phủ trên thế giới, đặc biệt là các nước đang phát triển. Theo
báo cáo thống kê của tổ chức hợp tác kinh tế phát triển phúc lợi kinh tế xã hội
trên toàn thế giới (OECD) [6], số tiền ước tính gian lận từ thuế và tài chính từ


6
các quốc gia là rất lớn.Tại Úc, ước tính gian lận thuế khoảng từ 1- 4 tỷ $AUD
hàng năm và số tiền gian lận thuế được xác minh thông qua hồ sơ kê khai
thuế của người nộp thuế, hồ sơ tài chính của cá nhân và doanh nghiệp. Tại
Canada, ước tính gian gian lận thuế, tài chính khoảng 2,5 tỷ $CAN mỗi năm.
Cơ quan thuế của Canada xác minh tiền gian lận thuế trong dữ liệu đăng ký
thuế trong dựa trên quan hệ các yếu tố của doanh nghiệp như thời gian hoạt
động kinh doanh, giao dịch tín dụng, lợi nhuận từ hoạt động kinh doanh qua
kê khai thuế. Tại Ireland, ước tính thiệt hại về thuế từ các hộ gia đình và các
dịch vụ an sinh xã hội khoảng 25 - 50 tỷ USD. Tại Bồ Đào Nha ước tính hàng
triệu Euro mỗi năm. Tại vương quốc Anh ước tính có khoảng 1,7 tỷ bảng Anh

đã thực hiện thanh tra, kiểm tra đối với 67.053 doanh nghiệp với tổng số thuế
tăng thu qua thanh tra, kiểm tra là 12.224,85 tỷ đồng. Nhiều vụ gian luận thuế
được phát hiện trong thời gian gần đây tại Việt Nam cho thấy vấn đề gian luận
thuế đã và đang xảy ra với một mức độ nghiêm trọng. Hai vụ gian lận thuế điển
hình trong thời gian vừa qua là công ty Metro và công ty Coca Cola: “Hoạt
động 12 năm tại Việt Nam nhưng chỉ duy nhất vào năm 2010 Metro báo lãi còn
lại đều liên tục báo lỗ, tính đến năm 2012 Metro lỗ lũy kế lên đến 598 tỷ đồng
và chưa từng nộp thuế thu nhập doanh nghiệp” [11].
1.2 Sự cần thiết phải triển khai vấn đề nghiên cứu
Như đã trình bày ở trên, vấn đề gian lận, trốn thuế đang diễn biến ngày
càng trầm trọng cả ở trên thế giới và tại Việt Nam và là nguyên nhân quan
trọng dẫn đến thất thu ngân sách. Nhận thức được vấn đề này, Tổng cục thuế
đã nghiên cứu xây dựng dự án phần mềm ứng dụng “Phân tích thông tin phục
vụ công tác thanh tra thuế các cấp” năm 2009 nhằm tính điểm rủi ro của
doanh nghiệp phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế.
1.2.1. Hiện trạng hệ thống phân tích rủi ro người nộp thuế


8
Mục tiêu của hệ thống phần mềm phân tích thông tin phục vụ công tác
thanh tra thuế các cấp (viết tắt là TPR) là tính điểm rủi ro của doanh nghiệp
dựa trên các số liệu thu, nộp thuế trong cơ sở dữ liệu ngành Thuế hiện có.
Điểm rủi ro của doanh nghiệp là cơ sở để xếp loại rủi ro doanh nghiệp phục
vụ công tác lập kế hoạch thanh tra thuế. Doanh nghiệp có điểm rủi ro càng
cao thì có nguy cơ gian lận thuế càng cao và khả năng đưa vào thanh tra càng
cao. Hệ thống bao gồm hai phân hệ chính như sau:
1) Phân hệ xây dựng và thử nghiệm bộ tiêu chí phân tích rủi ro.
Quy trình xây dựng và thử nghiệm bộ tiêu chí phân tích rủi ro được
thực hiện như sau:
- Bước 1. Thiết lập bộ tiêu chí đánh giá rủi ro.

điểm rủi ro của từng người nộp thuế bằng cách tính tổng điểm của từng tiêu
chí nhân với trọng số của từng tiêu chí theo công thức sau:
Điểm rủi ro = 1 * TC1 + 2 * TC2 +...+n * TCn
Với i là trọng số của tiêu chí i, TCi là điểm rủi ro của tiêu chí i.
Nếu điểm rủi ro được tính sai khác so với kết quả thanh tra, cán bộ
thanh tra thay đổi việc lựa chọn các tiêu chí rủi ro và thay đổi các trọng số gán
cho từng tiêu chí. Quá trình này được lặp đi lặp lại cho đến khi điểm rủi ro
được tính phù hợp với kết quả thanh tra. Khi đó, các tiêu chí phân tích rủi ro
và trọng số tương ứng được chọn để chuyển sang bước phê duyệt.
- Bước 3. Phê duyệt bộ tiêu chí đánh giá rủi ro.
Lãnh đạo đơn vị có trách nhiệm phê duyệt bộ tiêu chí phân tích rủi ro,
bao gồm: phê duyệt bộ tiêu chí, phê duyệt trọng số. Bộ tiêu chí phê duyệt
được sử dụng trong năm.


10
2) Phân hệ phân tích rủi ro
Phân hệ phân tích rủi ro bản chất là tính điểm rủi ro cho doanh nghiệp
dựa vào bộ tiêu chí phân tích rủi ro và trọng số được phê duyệt nhằm phục vụ
công tác lập kế hoạch thanh tra thuế.
- Bước 1. Tính điểm rủi ro cho doanh nghiệp dựa vào bộ tiêu chí phân
tích rủi ro đã phê duyệt và số liệu thu nộp thuế trong cơ sở dữ liệu ngành thuế.
- Bước 2. Lập kế hoạch thanh tra thuế. Bộ phận thanh tra tổng hợp danh
sách người nộp thuế theo điểm rủi ro từ cao xuống thấp và cân đối với nguồn
nhân lực của bộ phận thanh tra để xác định số lượng người nộp thuế đưa vào
kế hoạch thanh tra.
1.2.2. Phân tích hạn chế của hệ thống TPR
Qua phần trình bày tóm tắt về hiện trạng hệ thống thanh tra rủi ro ở
phần trên, ta có thể thấy rằng bản chất hệ thống thanh tra rủi ro chỉ là phần
mềm quản lý thông tin rủi ro,chưa phải là hệ thống phân tích rủi ro. Điều này

biến ở hầu hết tất cả các nước trên thế giới. Và trình bày hiện trạng hệ thống
phân tích rủi ro của người nộp thuế. Cho thấy sự cần thiết phải xây dựng hệ
thống tính điểm của doanh nghiệp phục vụ thanh tra thuế.


12
CHƢƠNG 2
MỘT SỐ PHƢƠNG PHÁP HỒI QUY TUYẾN TÍNH
2.1. Phƣơng pháp hồi quy đơn biến
2.1.1. Vấn đề mô hình hồi quy
Nhiều bài toán trong khoa học kỹ thuật đòi hỏi khảo sát quan hệ giữa
hai hoặc nhiều biến. Lấy làm ví dụ, chúng ta xét số liệu ở Bảng 2.1, ở đó y chỉ
thị độ sạch của oxy sinh ra trong quá trình chưng cất hóa học, còn x là nồng
độ phần trăm của hydrocarbon có mặt ở bình ngưng bộ phận chưng cất.
Bảng 2. 1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon
TT

x(%) y(%)

TT

x(%) y(%)

TT

x(%) y(%)

1

0.99 90.01


1.26 93.25

4

1.29 93.74

11

1.19 93.54

18

1.32 93.41

5

1.46 96.73

12

1.15 92.52

19

1.43 94.98

6

1.36 94.45


Để tổng quát hóa, chúng ta nên dùng mô hình xác suất bằng cách coi Y
là BNN mà ứng với giá trị x của biến X thì
Y = f(x) + 
với  là sai số ngẫu nhiên.

(2.1.2)


13
Trước hết chúng ta xét trường hợp đơn giản nhất, cũng rất hay xảy ra
trong thực tế, khi f (x) = ax+b. Khi đó (2.1.2) trở thành
Y= ax+b+ 

(2.1.3)

100

95

90

85
.8

1.0

1.2

1.4

hiệu là y1,..., yn . Khi đó
i = yi - (axi +b)

(2.1.5)

thể hiện độ lệch của quan sát thứ i so với đường hồi quy lý thuyết (xem Hình
2.2). Tổng bình phương các độ lệch




thể hiện “chất lượng” của việc xấp xỉ số liệu bởi đường hồi quy lý thuyết. Ta
không thể biết đường hồi quy lý thuyết, việc ta có thể làm là tìm các hệ số a, b để


(

)

(2.16)

Vì (a,b) là đa thức bậc 2 của 2 ẩn a, b; điều kiện cần để nó đạt cực tiểu là
(2.1.7)

Độ lệch

Đường hồi quy
thực nghiệm
Đường hồi quy
lý thuyết




; ̅̅̅





;

̅ .

(2.1.9)

Với các ước lượng này ta được phương trình hồi quy thực nghiệm
̂

̂

(2.1.10)

Phương pháp tìm các ước lượng của hệ số như trên gọi là phương pháp
bình phương cực tiểu.
Các phương trình (2.1.5) - (2.1.10) áp dụng với mọi giá trị cụ thể của
các biến ngẫu nhiên y1,..., yn nên chúng cũng đúng cho các BNN này.
Dưới đây, khi áp dụng các phương trình này và khi không sợ nhầm lẫn,
ta không phân biệt các BNN y1,..., yn với các giá trị cụ thể của chúng.
2.1.3. Tính chất của ước lượng của hệ số hồi quy
Từ (2.1.8) ta có ngay ̅

(

)

= V[ ̂

(2.1.13)

iii) Uớc lượng không chệch của phương sai chung 2 của mô hình cho bởi
̂
với

̂

̂



̂



̂ : dự báo của quan sát thứ i
̂ : phần dư thứ i.

Ý tưởng chứng minh phần i) dựa vào chỗ ̂ và ̂ là tổ hợp tuyến tính
của các biến ngẫu nhiên chuẩn nên chúng là các biến ngẫu nhiên chuẩn, rồi
thực hiện phép lấy kỳ vọng.
Vì 2 trong công thức (1.1.13) chưa biết, ta phải dùng xấp xỉ của nó là
̂ . Chúng ta đưa ra định nghĩa.



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status