BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG
ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
NGUYỄN THỊ HUÂN
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỒI QUY
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO
LUẬN VĂN THẠC SĨ MÁY TÍNH
HÀ NỘI - 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG
ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
NGUYỄN THỊ HUÂN
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỒI QUY
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ MÁY TÍNH
Người hướng dẫn khoa học : TS. NGUYỄN LONG GIANG
HÀ NỘI - 2017
i
văn là hoàn toàn trung thực, của tôi, không vi phạm bất cứ điều gì trong luật
sở hữu trí tuệ và pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm
trước pháp luật.
Học viên
Nguyễn Thị Huân
3
MỤC LỤC
MỞ ĐẦU .................................................................................................................................... 1
1. Lý do chọn đề tài .................................................................................................................... 1
2. Mục đích nghiên cứu .............................................................................................................. 2
3. Nhiệm vụ nghiên cứu.............................................................................................................. 2
4. Đối tượng và phạm vi nghiên cứu .......................................................................................... 2
5. Phương pháp nghiên cứu ........................................................................................................ 2
NỘI DUNG ................................................................................................................................. 3
Chương 1. TỔNG QUAN VỀ HỒI QUY TUYẾN TÍNH.......................................................... 4
1.1. Giới thiệu về bài toán hồi quy.............................................................................................. 4
1.2. Các mô hình hồi quy ............................................................................................................ 6
1.2.1. Mô hình hồi quy tuyến tính............................................................................................... 6
1.2.2. Mô hình hồi quy logistic ................................................................................................... 6
1.2.3. Mô hình Logarit kép ........................................................................................................ 8
1.2.4. Mô hình Logarit-tuyến tính hay mô hình tăng trưởng ...................................................... 9
1.3. Các mô hình hồi quy tuyến tính ........................................................................................... 9
1.3.1. Mô hình hồi quy đơn giản.............................................................................................. 10
1.3.2. Mô hình hồi quy tuyến tính đa biến ................................................................................ 14
1.3.3. Mô hình ARIMA ............................................................................................................ 17
4.2. Bài toán dự báo chỉ số giá tiêu dùng CPI .......................................................................... 50
4.3. Xây dựng bài toán và các tham số của bài toán ................................................................. 53
4.3.1. Xây dựng bài toán ........................................................................................................... 53
4.3.2. Các tham số của bài toán ................................................................................................ 53
4.4. Công cụ và môi trường thử nghiệm. .................................................................................. 57
4.5. Mô hình dự báo và kết quả ................................................................................................ 57
4.5.1. Kết quả ứng dụng mô hình hồi quy tuyến tính ............................................................... 57
4.5.2. Kết quả ứng dụng mô hình hồi quy tuyến tính ARIMA ................................................. 62
4.5.3. Kết quả ứng dụng mô hình hồi quy đa thức.................................................................... 63
4.5.4. Kết quả ứng dụng mô hình hồi quy sử dụng GAMs ....................................................... 64
4.5.5. Kết quả sai số ứng dụng 4 mô hình hồi quy ................................................................... 65
4.6. Kết luận .............................................................................................................................. 65
KẾT LUẬN, KHUYẾN NGHỊ................................................................................................. 67
1. Kết luận ................................................................................................................................. 67
2. Khuyến nghị.......................................................................................................................... 67
TÀI LIỆU THAM KHẢO ........................................................................................................ 69
5
DANH MỤC BẢNG BIỂU
Bảng 3.1. Thông tin về một số file dữ liệu thực nghiệm ..................................... 34
Bảng 3.2. Tạo các file thực nghiệm từ file dữ liệu thu thập ................................ 38
Bảng 3.3. Kêt quả của phương pháp hồi quy tuyên tính...................................... 41
Bảng 3.4. Mô hình hồi quy tuyến tính ................................................................. 42
Bảng 3.5. Kết quả của phương pháp hồi quy ARIMA ........................................ 43
Bảng 3.6. Kết quả sử dụng phương pháp hồi quy đa thức ................................... 44
Bảng 3.7. Kết quả sử dụng phương pháp hồi quy sử dụng hàm GAMs .............. 46
Bảng 3.8. Kêt quả sai số sử dụng 4 phương pháp hồi quy................................... 48
Bảng 4.1. CPI của Việt Nam từ tháng 1 năm 1997 đến tháng 12 năm 2016 [8]. 55
Hình 4.1. Chuỗi thời gian ......................................................................................................... 51
1
MỞ ĐẦU
1. Lý do chọn đề tài
Dự báo là một công việc quan trọng, không thể thiếu trong nhiều lĩnh
vực. Khi tiến hành dự báo người ta căn cứ vào xử lý dữ liệu thu thập được
trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng
trong tương lai nhờ vào một số mô hình toán học.
Dự báo thống kê là một phương pháp thống kê được dùng để lượng hóa
sự tiên đoán các nhân tố ảnh hưởng, các mối quan hệ nhân quả, các trạng thái
hay quá trình mới, chiều hướng biến động của hiện tượng trên cơ sở phân tích
thực trạng của đối tượng một cách khoa học. Dự báo tốt sẽ giúp cho các tổ
chức hoặc cá nhân có định hướng và kế hoạch phù hợp. Trong kinh doanh hay
trong lĩnh vực y học, dự báo là hết sức cần thiết, nó cung cấp cơ sở khoa học
để hoạch định chính sách kinh doanh phù hợp hoặc để có các phác đồ điều trị
bệnh hợp lý.
Hiện nay, có nhiều phương pháp dự báo khác nhau như dự báo bằng hệ
chuyên gia, dự báo bằng phương trình hồi quy, dự báo bằng chuỗi thời gian…
Nhưng dự báo bằng phương pháp hồi quy tuyến tính được ứng dụng rộng rãi
trong nhiều lĩnh vực nhất là kinh doanh và y học, nó có cơ sở khoa học rõ
ràng và mang lại kết quả với độ chính xác cao. Mô hình hồi quy tuyến tính
đưa ra các phương pháp ước lượng, kiểm định giả thiết và dự báo. Thuật ngữ
“hồi quy” được nhà nghiên cứu Francis Galton sử dụng lần đầu tiên vào cuối
thế kỷ 19 trong một nghiên cứu tại sao có sự ổn định chiều cao trung bình của
dân số. Từ đó trở đi, vấn đề hồi quy được quan tâm nhiều hơn và được nghiên
cứu sâu hơn. Trong đó, mô hình hồi quy tuyến tính được xem là nền tảng, là
cơ sở để xây dựng các đường hồi quy khác. Để hiểu rõ về các mô hình hồi
của Việt Nam”, giới thiệu về bài toán, đưa ra mô hình dự báo, các tham số của
mô hình, kết quả và nhận xét.
NỘI DUNG
Luận văn gồm: Phần mở đầu, bốn chương chính, phần kết luận, danh
mục tài liệu tham khảo và phụ lục.
Bố cục như sau:
Phần mở đầu: Nêu lý do chọn đề tài và bố cục luận văn.
Chương 1. Tổng quan về hồi quy tuyến tính, giới thiệu tổng quan về dự
báo chuỗi thời gian, bài toán hồi quy, các mô hình hồi quy, các mô hình hồi quy
tuyến tính và một số đặc tính của mô hình hồi quy tuyến tính. Trên cơ sở nghiên
cứu tổng quan đó đưa ra kết luận.
Chương 2. Tổng quan về Mô hình hồi quy phi tuyến tính, trình bày một
số các phương pháp mới nhằm khắc phục những hạn chế của mô hình hồi quy
tuyến tính.
Chương 3. Đánh giá hiệu quả của mô hình trên dữ liệu mẫu, trình bày
thực nghiệm của các mô hình trên dữ liệu mẫu, qua đó đánh giá hiệu quả của
các phương pháp hồi quy nghiên cứu.
Chương 4. Dự báo chỉ số CPI Việt Nam, trong chương này, trình bày
kết quả nghiên cứu và thảo luận về ứng dụng các mô hình hồi quy đã được trình
bày ở trên vào bài toán cụ thể, đó là dự báo chỉ số CPI của Việt Nam. Trong đó,
kết quả cụ thể là tìm ra được mô hình dự báo và kết quả dự báo, trên cơ sở đó
đưa ra nhận xét, đánh giá về nghiên cứu định hướng ứng dụng vào thực tiễn.
Phần kết luận khuyên nghị: Tóm tắt các kết quả đạt được, hướng phát
chi cho các sản phẩm trong ba phương tiện truyền thông, gồm có TV, radio,
newspaper. Dữ liệu được biểu diễn theo sơ đồ trong hình 1.1.
Bài toán đặt ra là tìm mối liên hệ giữa doanh số bán hàng (sales) và
quảng cáo, sau đó đưa cho họ một hướng dẫn để họ điều chỉnh ngân sách
quảng cáo chi cho các phương tiện truyền thông, qua đó gián tiếp tăng doanh
số bán hàng. Nói cách khác, mục tiêu của chúng ta là phát triển một mô hình
chính xác mà có thể được sử dụng để dự đoán doanh số bán hàng trên cơ sở
của ba ngân sách
Trong bài toán này, ngân sách quảng cáo là các biến đầu vào, doanh số
bán hàng (sales) là một biến đầu ra. Các biến đầu vào ta ký hiệu là X, trong đó
X1 là ngân sách TV, X2 là ngân sách radio, X3 là ngân sách newspaper. Biến
đầu ra sales (biến phụ thuộc) ta ký hiệu là Y.
Tổng quát hơn, ta có một biến phụ thuộc Y và p biến độc lập, X 1, X2,
X3..., Xp, có một mối liên hệ giữa Y và X = {X1, X2, X3..., Xp} mà có thể viết
dưới dạng chung như sau:
Y= f(X) +�
(1.1)
là sai số ngẫu nhiên. f(X) là một giá trị mà chúng ta không xác định
được. Từ tập dữ liệu đầu vào X ta xác định giá trị dự đoán trên cơ sở sai số
bằng 0.
Y = f (X )
(1.2)
Trong đó, f là ước lượng của f và Y là giá trị dự báo của Y [4].
Việc xây dựng được một mô hình hồi quy hợp lý không phải là một bài
toán dễ. Đối với trường hợp đơn biến ta dễ dàng xây dựng được mô hình hồi
thống kê. Phương pháp hồi quy Logistic được sử dụng nhiều trong các bài
toán khi các biến phụ thuộc là nhị phân hay rời rạc [3].
Hồi quy Logistic được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau bao
gồm trang web, y tế, các lĩnh vực khoa khọc xã hội. Ví dụ như hồi quy
Logistic có thể được sử dụng để dự đoán liệu bệnh nhân có mắc bệnh nào đó
(chẳng hạn như bệnh tiểu đường) dựa trên các chỉ số quan sát được từ bệnh
nhân bao gồm: Giới tính, chỉ số khối của cơ thể, kết quả xét nghiệm máu...
Một ví dụ khác, hồi quy Logistic có thể ứng dụng để dự đoán xem một cử tri
người Mỹ sẽ bỏ phiếu cho đảng Dân chủ hay đảng Cộng hòa dựa vào tuổi tác,
thu nhập, giới tính, chủng tộc, tình trạng cư trú, phiếu trong các cuộc bầu cử
trước đó... Mô hình này cũng được sử dụng trong kỹ thuật, đặc biệt là để dự
đoán xác suất thất bại của một quy trình, một hệ thống hay một sản phẩm. Nó
cũng được sử dụng trong các ứng dụng tiếp thị như tiên đoán xu hướng của
khách hàng sẽ mua một sản phẩm hay tạm ngừng một thuê bao... Trong kinh
tế nó có thể được sử dụng để dự đoán khả năng vỡ nợ của một doanh nghiệp
dựa vào những con số thế chấp. Trong một dịch vụ ngân hàng trực tuyến nó
được sử dụng dự đoán độ tin cậy cho phép để thực hiện một giao dịch trên
các trang web căn cứ vào địa chỉ IP của người dùng, lịch sử giao dịch trong
quá khứ…
Hồi quy logistic là một phương pháp tiếp cận để nghiên cứu p(Y|X)
trong trường hợp Y có giá trị rời rạc, Y là một biến boolean và Y∈{0, 1}, X
=
(X1, ..., Xd) là vector bất kỳ với các tham số là rời rạc hoặc liên tục.
Mục tiêu của hồi quy logistic là ước tính trực tiếp xác suất p(Y|X) từ
dữ liệu huấn luyện. Mô hình hồi quy logistic được định nghĩa như sau:
(1.5)
(1.6)
Đặt Y = ln(Y) và �1* = ln( �1 ) ta được mô hình:
*
Y = �1
+
(1.8)
*
�2 X + ε
Mô hình này tuyến tính theo tham số nên có thể ước lượng theo OLS.
Theo phương pháp tổng phần dư nhỏ nhất theo OLS ta xác đinh được các
biến có trong mô hình chúng ta xác định được các tham số �1 và � 2 của mô
hình hồi quy cũng như các yếu tố khác có trong mô hình hồi quy
n
i �1
�e � �
2
i
n
(Yi � Yi ) � min
2
i �1
1.2.4. Mô hình Logarit-tuyến tính hay mô hình tăng trưởng
(Y � Y )2 � min
i
i �1
1.3. Các mô hình hồi quy tuyến tính
Hồi quy là phương pháp toán học được áp dụng thường xuyên trong
thống kê để phân tích mối liên hệ giữa các hiện tượng kinh tế xã hội. Hồi
quy tuyến tính được sử dụng rộng rãi trong thực tế do tính chất đơn giản
hóa của hồi quy. Hồi quy tuyến tính là một công cụ hữu ích để dự đoán và
định lượng. Hồi quy tuyến tính đã được ứng dụng trong nhiều lĩnh vực xã
hội như trong y học, kinh tế học, xã hội học...
1.3.1. Mô hình hồi quy đơn giản
Mô hình hồi quy đơn giản là giữa một biến phụ thuộc Y và một biến độc
lập X. Mối quan hệ giữa X và Y là tuyến tính [4]. Mô hình hồi quy tuyến tính
được viết như sau :
Y = �0 + � X + ε
1
(1.11)
Hình 1.3. Mô hình hồi quy tuyến tính đơn
biến
Trong đó, � 0 là giá trị chặn (Intercept) và �1 là độ dốc (slope) của mô
hình, ε là sai số ngẫu nhiên. ε là một biến số theo luật phân phối chuẩn với
trung bình 0 và phương sai � 2 .
� 0 , �1 là hai giá trị không biết chính xác, do vậy từ giá trị X mà ta thu thập
1 2
n
0
1 n
)
)
Phương pháp bình phương tối thiểu (the least squares) chọn � 0 , �1 sao cho
ESS đạt giá trị minimize [3]. Các hệ số ước tính của mô hình hồi quy
tuyến tính được tính theo phương pháp bình phương tối thiểu.
�
� �0
�
� �1
n
�[y - ( �
i
0
+ �1 xi )]2 = 0
�[y - ( �
0
+ �1 xi )]2 = 0
i �1
i �1
�[yi - (�0 +�1 xi )] 2 = -2 � (yi - �0 + �1 xi )xi
� �1
Xây dựng hệ phương trình ta có:
n
�y
i �1
�
n
i
n
i
= n �0 + �1 � x1
i �1
n
n
yi xi = �0 � i�1 xi � �1 � i�1 xi2
2
x �
x )
( x � x)( � y)
y
=
2
i �1
(1.15)
n
�
i �1
i
i �1
( xi � x) 2
i
i �1
Trong đó, y �
1
n
n
�
i
i �1
n
i �1
i
n
�
x
x)
i �1
i �1
i
1.3.1.2. Đánh giá độ chính xác của mô hình hồi quy tuyến tính
Để đánh giá sự phù hợp của mô hình hồi quy tuyến tính ta tìm hiểu hai
2
khái niệm là sai số chuẩn RSE (residual standard error) và hệ số xác định R (R
squares) [4].
-Sai số chuẩn RSE (s hay � 2 ) là ước tính độ lệch chuẩn hay phương sai
của phần dư, đó là giá trị trung bình của các giá trị quan sát so với đường hồi quy,
được tính theo công thức sau:
RSE �
1
ESS �
n� 2
1
�
n
(
)2
R =
ESS
TSS �
TSS
n
Trong đó, TSS � � i �1 ( yi �
n
i �1
( yi � i y )
2
(1.18)
�1�
ESS
TSS
là tổng bình phương (total sum of
y)2
squares), là tổng số các biến thiên của các giá trị yi so với giá trị trung bình.
2
(b)
(c)
(e)
(f)
2
2
2
Hình 1.5. Phương pháp Bcillentine với R , (a) R = 0, (f) R =1
Trong hình 1.5, vòng tròn Y tượng trưng cho biến thiên trong
biến phụ thuộc Y và vòng tròn X tượng trưng cho biến thiên trong biến độc
lập X. Vùng chồng lên nhau của hai vòng tròn (vùng tối) chỉ rõ phạm vi mà
độ biến thiên trong Y được giải thích bởi biến thiên trong X (cho là theo
hướng hồi quy các bình phương tối thiểu thông thường OLS). Phạm vi vùng
chồng lên càng lớn, độ biến thiên trong Y được giải thích bởi X càng lớn. R
2
đơn giản là đại lượng đo bằng số cho vùng tối này. Trong hình, khi ta di
chuyển từ trái sang phải, vùng tối tăng dần nghĩa là tỷ lệ biến thiên trong Y
được giải thích bởi X tăng dần [3].
1.3.2. Mô hình hồi quy tuyến tính đa biến
Mô hình hồi quy tuyến tính đơn giản là một giải pháp hữu ích để dự
báo trên cơ sở một biến dự báo duy nhất. Tuy nhiên, trong thực tế chúng ta
Các tham số được ước tính giống phương phương pháp bình
phương tối thiểu đã được trình bày trong mô hình hồi quy tuyến tính
đơn giản. Chúng ta chọn ß 0 , ß 1 ,…, ß p ..., sao cho tổng bình phương
của phần dư là nhỏ nhất.
ESS � �
( 2y � y
) i
i
i �1
n
(1.21)
n
��
i1
i
0
i �1
2
i2
�
�
�
T
[(y-X � ) (y-X � )]=0
��
�
T
T
[(y y-2y X � +
T
XT X � )]=0
�
��
XT X � =XT
y
(1.22)