BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
======
NGUYỄN THỊ HUÂN
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỒI QUY
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO
LUẬN VĂN THẠC SĨ MÁY TÍNH
HÀ NỘI - 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
======
NGUYỄN THỊ HUÂN
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỒI QUY
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ MÁY TÍNH
Ngƣời hƣớng dẫn khoa học : TS. NGUYỄN LONG GIANG
HÀ NỘI - 2017
LỜI CAM ĐOAN
Tôi xin cam đoan những kết quả nghiên cứu được trình bày trong luận
văn là hoàn toàn trung thực, của tôi, không vi phạm bất cứ điều gì trong luật
sở hữu trí tuệ và pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm
trước pháp luật.
Học viên
Nguyễn Thị Huân
iii
MỤC LỤC
MỞ ĐẦU .................................................................................................................................... 1
1. Lý do chọn đề tài .................................................................................................................... 1
2. Mục đích nghiên cứu .............................................................................................................. 2
3. Nhiệm vụ nghiên cứu .............................................................................................................. 2
4. Đối tượng và phạm vi nghiên cứu .......................................................................................... 2
5. Phương pháp nghiên cứu ........................................................................................................ 2
NỘI DUNG ................................................................................................................................. 3
Chương 1. TỔNG QUAN VỀ HỒI QUY TUYẾN TÍNH .......................................................... 4
1.1. Giới thiệu về bài toán hồi quy.............................................................................................. 4
1.2. Các mô hình hồi quy ............................................................................................................ 6
1.2.1. Mô hình hồi quy tuyến tính............................................................................................... 6
1.2.2. Mô hình hồi quy logistic ................................................................................................... 6
1.2.3. Mô hình Logarit kép ........................................................................................................ 8
1.2.4. Mô hình Logarit-tuyến tính hay mô hình tăng trưởng ...................................................... 9
1.3. Các mô hình hồi quy tuyến tính ........................................................................................... 9
1.3.1. Mô hình hồi quy đơn giản .............................................................................................. 10
Chương 4. DỰ BÁO CHỈ SỐ CPI VIỆT NAM ....................................................................... 49
4.1. Tổng quan về dự báo chuỗi thời gian ................................................................................ 49
4.2. Bài toán dự báo chỉ số giá tiêu dùng CPI .......................................................................... 50
4.3. Xây dựng bài toán và các tham số của bài toán ................................................................. 53
4.3.1. Xây dựng bài toán ........................................................................................................... 53
4.3.2. Các tham số của bài toán ................................................................................................ 53
4.4. Công cụ và môi trường thử nghiệm. .................................................................................. 57
4.5. Mô hình dự báo và kết quả ................................................................................................ 57
4.5.1. Kết quả ứng dụng mô hình hồi quy tuyến tính ............................................................... 57
4.5.2. Kết quả ứng dụng mô hình hồi quy tuyến tính ARIMA ................................................. 62
4.5.3. Kết quả ứng dụng mô hình hồi quy đa thức.................................................................... 63
4.5.4. Kết quả ứng dụng mô hình hồi quy sử dụng GAMs ....................................................... 64
4.5.5. Kết quả sai số ứng dụng 4 mô hình hồi quy ................................................................... 65
4.6. Kết luận .............................................................................................................................. 65
KẾT LUẬN, KHUYẾN NGHỊ ................................................................................................. 67
1. Kết luận ................................................................................................................................. 67
2. Khuyến nghị .......................................................................................................................... 67
TÀI LIỆU THAM KHẢO ........................................................................................................ 69
v
DANH MỤC BẢNG BIỂU
Bảng 3.1. Thông tin về một số file dữ liệu thực nghiệm ..................................... 34
Bảng 3.2. Tạo các file thực nghiệm từ file dữ liệu thu thập ................................ 38
Bảng 3.3. Kêt quả của phương pháp hồi quy tuyên tính ...................................... 41
Bảng 3.4. Mô hình hồi quy tuyến tính ................................................................. 42
Bảng 3.5. Kết quả của phương pháp hồi quy ARIMA ........................................ 43
Bảng 3.6. Kết quả sử dụng phương pháp hồi quy đa thức ................................... 44
Bảng 3.7. Kết quả sử dụng phương pháp hồi quy sử dụng hàm GAMs .............. 46
Dự báo là một công việc quan trọng, không thể thiếu trong nhiều lĩnh
vực. Khi tiến hành dự báo người ta căn cứ vào xử lý dữ liệu thu thập được
trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng
trong tương lai nhờ vào một số mô hình toán học.
Dự báo thống kê là một phương pháp thống kê được dùng để lượng hóa
sự tiên đoán các nhân tố ảnh hưởng, các mối quan hệ nhân quả, các trạng thái
hay quá trình mới, chiều hướng biến động của hiện tượng trên cơ sở phân tích
thực trạng của đối tượng một cách khoa học. Dự báo tốt sẽ giúp cho các tổ
chức hoặc cá nhân có định hướng và kế hoạch phù hợp. Trong kinh doanh hay
trong lĩnh vực y học, dự báo là hết sức cần thiết, nó cung cấp cơ sở khoa học
để hoạch định chính sách kinh doanh phù hợp hoặc để có các phác đồ điều trị
bệnh hợp lý.
Hiện nay, có nhiều phương pháp dự báo khác nhau như dự báo bằng hệ
chuyên gia, dự báo bằng phương trình hồi quy, dự báo bằng chuỗi thời gian…
Nhưng dự báo bằng phương pháp hồi quy tuyến tính được ứng dụng rộng rãi
trong nhiều lĩnh vực nhất là kinh doanh và y học, nó có cơ sở khoa học rõ
ràng và mang lại kết quả với độ chính xác cao. Mô hình hồi quy tuyến tính
đưa ra các phương pháp ước lượng, kiểm định giả thiết và dự báo. Thuật ngữ
“hồi quy” được nhà nghiên cứu Francis Galton sử dụng lần đầu tiên vào cuối
thế kỷ 19 trong một nghiên cứu tại sao có sự ổn định chiều cao trung bình của
dân số. Từ đó trở đi, vấn đề hồi quy được quan tâm nhiều hơn và được nghiên
cứu sâu hơn. Trong đó, mô hình hồi quy tuyến tính được xem là nền tảng, là
cơ sở để xây dựng các đường hồi quy khác. Để hiểu rõ về các mô hình hồi
quy và ứng dụng trong dự báo chuỗi thời gian, luận văn đã lựa chọn đề tài
nghiên cứu, tiêu đề: “Nghiên cứu một số mô hình hồi quy và ứng dụng
trong bài toán dự báo”.
2
2. Mục đích nghiên cứu
Luận văn gồm: Phần mở đầu, bốn chương chính, phần kết luận, danh
mục tài liệu tham khảo và phụ lục.
Bố cục như sau:
Phần mở đầu: Nêu lý do chọn đề tài và bố cục luận văn.
Chương 1. Tổng quan về hồi quy tuyến tính, giới thiệu tổng quan về dự
báo chuỗi thời gian, bài toán hồi quy, các mô hình hồi quy, các mô hình hồi quy
tuyến tính và một số đặc tính của mô hình hồi quy tuyến tính. Trên cơ sở nghiên
cứu tổng quan đó đưa ra kết luận.
Chương 2. Tổng quan về Mô hình hồi quy phi tuyến tính, trình bày một
số các phương pháp mới nhằm khắc phục những hạn chế của mô hình hồi quy
tuyến tính.
Chương 3. Đánh giá hiệu quả của mô hình trên dữ liệu mẫu, trình bày
thực nghiệm của các mô hình trên dữ liệu mẫu, qua đó đánh giá hiệu quả của
các phương pháp hồi quy nghiên cứu.
Chương 4. Dự báo chỉ số CPI Việt Nam, trong chương này, trình bày
kết quả nghiên cứu và thảo luận về ứng dụng các mô hình hồi quy đã được trình
bày ở trên vào bài toán cụ thể, đó là dự báo chỉ số CPI của Việt Nam. Trong đó,
kết quả cụ thể là tìm ra được mô hình dự báo và kết quả dự báo, trên cơ sở đó
đưa ra nhận xét, đánh giá về nghiên cứu định hướng ứng dụng vào thực tiễn.
Phần kết luận khuyên nghị: Tóm tắt các kết quả đạt được, hướng phát
triển tiếp theo.
Tài liệu tham khảo.
4
quảng cáo chi cho các phương tiện truyền thông, qua đó gián tiếp tăng doanh
số bán hàng. Nói cách khác, mục tiêu của chúng ta là phát triển một mô hình
chính xác mà có thể được sử dụng để dự đoán doanh số bán hàng trên cơ sở
của ba ngân sách
Trong bài toán này, ngân sách quảng cáo là các biến đầu vào, doanh số
bán hàng (sales) là một biến đầu ra. Các biến đầu vào ta ký hiệu là X, trong đó
X1 là ngân sách TV, X2 là ngân sách radio, X3 là ngân sách newspaper. Biến
đầu ra sales (biến phụ thuộc) ta ký hiệu là Y.
Tổng quát hơn, ta có một biến phụ thuộc Y và p biến độc lập, X 1, X2,
X3..., Xp, có một mối liên hệ giữa Y và X = {X1, X2, X3..., Xp} mà có thể viết
dưới dạng chung như sau:
Y= f(X) +𝜀
(1.1)
là sai số ngẫu nhiên. f(X) là một giá trị mà chúng ta không xác định
được. Từ tập dữ liệu đầu vào X ta xác định giá trị dự đoán trên cơ sở sai số
bằng 0.
Y = f (X )
(1.2)
Trong đó, f là ước lượng của f và Y là giá trị dự báo của Y [4].
Việc xây dựng được một mô hình hồi quy hợp lý không phải là một bài
toán dễ. Đối với trường hợp đơn biến ta dễ dàng xây dựng được mô hình hồi
quy. Nhưng với dữ liệu đa biến thì việc xây dựng mô hình hồi quy đủ tốt phụ
6
gồm trang web, y tế, các lĩnh vực khoa khọc xã hội. Ví dụ như hồi quy
Logistic có thể được sử dụng để dự đoán liệu bệnh nhân có mắc bệnh nào đó
(chẳng hạn như bệnh tiểu đường) dựa trên các chỉ số quan sát được từ bệnh
7
nhân bao gồm: Giới tính, chỉ số khối của cơ thể, kết quả xét nghiệm máu...
Một ví dụ khác, hồi quy Logistic có thể ứng dụng để dự đoán xem một cử tri
người Mỹ sẽ bỏ phiếu cho đảng Dân chủ hay đảng Cộng hòa dựa vào tuổi tác,
thu nhập, giới tính, chủng tộc, tình trạng cư trú, phiếu trong các cuộc bầu cử
trước đó... Mô hình này cũng được sử dụng trong kỹ thuật, đặc biệt là để dự
đoán xác suất thất bại của một quy trình, một hệ thống hay một sản phẩm. Nó
cũng được sử dụng trong các ứng dụng tiếp thị như tiên đoán xu hướng của
khách hàng sẽ mua một sản phẩm hay tạm ngừng một thuê bao... Trong kinh
tế nó có thể được sử dụng để dự đoán khả năng vỡ nợ của một doanh nghiệp
dựa vào những con số thế chấp. Trong một dịch vụ ngân hàng trực tuyến nó
được sử dụng dự đoán độ tin cậy cho phép để thực hiện một giao dịch trên
các trang web căn cứ vào địa chỉ IP của người dùng, lịch sử giao dịch trong
quá khứ…
Hồi quy logistic là một phương pháp tiếp cận để nghiên cứu p(Y|X)
trong trường hợp Y có giá trị rời rạc, Y là một biến boolean và Y∈{0, 1}, X =
(X1, ..., Xd) là vector bất kỳ với các tham số là rời rạc hoặc liên tục.
Mục tiêu của hồi quy logistic là ước tính trực tiếp xác suất p(Y|X) từ
dữ liệu huấn luyện. Mô hình hồi quy logistic được định nghĩa như sau:
(1.5)
(1.6)
Trong công thức (1.5)
xác suất để nhãn dữ liệu nhận giá trị
Mô hình này tuyến tính theo tham số nên có thể ước lượng theo OLS.
Theo phương pháp tổng phần dư nhỏ nhất theo OLS ta xác đinh được các
biến có trong mô hình chúng ta xác định được các tham số 1 và 2 của mô
hình hồi quy cũng như các yếu tố khác có trong mô hình hồi quy
n
n
i 1
i 1
ei2 (Yi Yi )2 min
1.2.4. Mô hình Logarit-tuyến tính hay mô hình tăng trưởng
Gọi g là tốc độ tăng trưởng, t chỉ thời kỳ. Mô hình tăng trưởng như sau:
(1.9)
Yt = (1 + g)tY0
Lấy logarit hai vế của mô hình tăng trưởng trên, ta được:
ln(Y t) = t ln(1 + g) + ln(Y0)
Đặt Y1* = ln(Y t ), 1 = ln(Y0) và 2 = ln(1 + g)) ta được mô hình hồi
quy:
Y1* = 1 + 2 t + ε
(1.10)
Theo phương pháp tổng phần dư nhỏ nhất theo OLS ta xác đinh được
các biến có trong mô hình chúng ta xác định được các tham số 1 và 2 của mô
hình hồi quy cũng như các yếu tố khác có trong mô hình hồi quy:
1.3.1. Mô hình hồi quy đơn giản
Mô hình hồi quy đơn giản là giữa một biến phụ thuộc Y và một biến độc
lập X. Mối quan hệ giữa X và Y là tuyến tính [4]. Mô hình hồi quy tuyến tính
được viết như sau :
Y = 0 + 1 X + ε
(1.11)
Hình 1.3. Mô hình hồi quy tuyến tính đơn biến
Trong đó, 0 là giá trị chặn (Intercept) và 1 là độ dốc (slope) của mô
hình, ε là sai số ngẫu nhiên. ε là một biến số theo luật phân phối chuẩn với
trung bình 0 và phương sai 2 .
0 , 1 là hai giá trị không biết chính xác, do vậy từ giá trị X mà ta thu thập
được phải ước tính các hệ số của mô hình là 1 , 2 , 2 .
11
y = 0 + 1 x
(1.12)
Với y là biểu thị cho giá trị dự đoán Y, x = X.
1.3.1.1. Ước tính các tham số 0 , 1 của mô hình hồi quy tuyến tính đơn
giản.
(xj yj), (x2 y2), (x3 y3).. (xn yn) là n cặp quan sát. Mục đích của hồi quy
tuyến tính là ước tính các tham số 0 , 1 của mô hình hồi quy tuyến tính sao
cho biểu thị đúng các cặp dữ liệu mà chúng ta quan sát được, y i = 0 + 1 xi
với i=1...n. Ta có ei = y i - y là sai số (residual) thứ i. Đây là sự khác biệt
+ 1 xi )] 2 = 0
n
[y - (
i 1
i
Lấy vi phân từng phần theo 0 , 1 ta có:
0
n
[y - (
i 1
i
0
n
+ 1 xi )] = -2 yi - ( 0 1 xi )
2
i 1
n
i
= n 0 + 1 x1
i 1
yi xi = 0 i 1 xi 1 i 1 xi2
n
n
(1.14)
Giả hệ phương trình chuẩn trên ta được
1
=
n
i
yi xi i 1 xi i 1 yi
n
n i 1 xi2 ( i 1 xi ) 2
n
n
2
i
i
(1.15)
x)
2
n
n i 1 x ( i 1 xi )
n
x)( yi y )
2
0 y 1 x
(1.16)
1
n
1
n
n2
n2
(1.17)
13
Sai số chuẩn được coi là giải pháp để đánh giá sự đúng đắn của mô hình
hồi quy tuyến tính, khi đó y i ≈ yi, sai số càng nhỏ thì giá trị dự báo càng gần với
giá trị quan sát, nghĩa là mô hình hồi quy là phù hợp.
- Hệ số xác định R2
Một câu hỏi được đặt ra là làm thế nào chúng ta đo lường mức độ phù
hợp của hàm hồi quy tìm được cho dữ liệu mẫu. Thước đo độ phù hợp của mô
hình đối với dữ liệu là R2. Để có cái nhìn trực quan về R2, chúng ta xem xét
đồ thị hình 1.4.
R2 được tính theo công thức (1.18) sau: ESS i 1 ( yi yi )2
n
R2 =
TSS ESS
ESS
1
TSS
TSS
(1.18)
Trong đó, TSS i 1 ( yi y )2 là tổng bình phương (total sum of
Hình 1.5. Phương pháp Bcillentine với R 2 , (a) R 2 = 0, (f) R 2 =1
Trong hình 1.5, vòng tròn Y tượng trưng cho biến thiên trong
biến phụ thuộc Y và vòng tròn X tượng trưng cho biến thiên trong biến độc
lập X. Vùng chồng lên nhau của hai vòng tròn (vùng tối) chỉ rõ phạm vi mà
độ biến thiên trong Y được giải thích bởi biến thiên trong X (cho là theo
hướng hồi quy các bình phương tối thiểu thông thường OLS). Phạm vi vùng
chồng lên càng lớn, độ biến thiên trong Y được giải thích bởi X càng lớn. R 2
đơn giản là đại lượng đo bằng số cho vùng tối này. Trong hình, khi ta di
chuyển từ trái sang phải, vùng tối tăng dần nghĩa là tỷ lệ biến thiên trong Y
được giải thích bởi X tăng dần [3].
1.3.2. Mô hình hồi quy tuyến tính đa biến
Mô hình hồi quy tuyến tính đơn giản là một giải pháp hữu ích để dự
báo trên cơ sở một biến dự báo duy nhất. Tuy nhiên, trong thực tế chúng ta
thường có nhiều hơn một yếu tố dự báo. Ví dụ, trong bài toán ở phần 1.1 ta
15
thấy rằng có tới ba biến dự báo là TV, radio, newspaper (X1, X2, X3) và
chúng ta muốn biết sự ảnh hưởng của cả ba yếu tố này tới doanh thu bán hàng
(sales). Một giải pháp có thể được đưa ra là sử dụng 3 mô hình hồi quy đơn
giản cho ba biến, tuy nhiên, cách tiếp cận của mỗi mô hình hồi quy tuyến tính
đơn giản không hoàn toàn thảo mãn. Trước hết, nó không rõ ràng và nó
không là duy nhất cho mỗi phương tiện truyền thông vì mỗi phương tiện
truyềnthông gắn với một hàm hồi quy riêng. Thứ hai, một trong ba hàm hồi
quy bỏ qua hai phương tiện truyền thông khác khi thực hiện phân tích tương
quan. Do vậy, thay vì sử dụng hồi quy tuyến tính đơn giản riêng biệt cho từng
dự báo, một cách tiếp cận tốt hơn là mở rộng mô hình hồi quy tuyến tính đơn
giản để nó chứa nhiều hơn một yếu tố dự báo là mô hình hồi quy đa biến [4].
Dạng tổng quan của mô hình hồi quy đa biến:
i 1
Vì có nhiều biến dự báo nên giá trị của X là một ma trận n x pphần tử
và
được viết gọn lại Y X trong đó:
Áp dụng phương pháp bình phương tối thiểu để ước tính các giá trị
sao cho sai số là nhỏ nhất
L( ) y X
2
Tìm sao cho L( ) đạt giá trị nhỏ nhất
2
= argmin(L( )) = argmin ||y — X ||
[(y-X )T (y-X )]=0
(1.23)
n
(1.24)
RSS TSS ES
0 ≤ R ≤ 1 , R2 càng gần giá trị 1 thì sự phù hợp của mô hình càng cao
và ngược lại, R2 càng gần giá trị 0 thì sự phù hợp của mô hình càng thấp.
1.3.3. Mô hình ARIMA
Mô hình dự báo ARIMA là phương pháp dự báo yếu tố nghiên cứu
một cách độc lập (dự báo theo chuỗi thời gian). Bằng các thuật toán sử dụng
độ trễ sẽ đưa ra mô hình dự báo thích hợp. Một phương pháp rất phổ biến
trong việc lập mô hình chuỗi thời gian là phương pháp trung bình trượt kết
hợp tự hồi quy phương pháp trung bình trượt kết hợp tự hồi quy
(autoregressive integrated moving average - ARIMA), thường được gọi là
phương pháp luận Box-Jenkins. Trong phần này, ta sẽ trình bày các nguyên lý
cơ bản của cách tiếp cận Box-Jenkins đối với việc lập mô hình và dự báo [7].
1.3.3.1. Hàm tự tương quan ACF
Hàm tự tương quan đo lường phụ thuộc tuyến tính giữa các cặp quan
sát yt và yt+p, ứng với thời đoạn k = 1, 2... (k còn gọi là độ trễ). Với mỗi độ trễ
k, hàm tự tương quan tại độ trễ k được xác định qua độ lệch giữa các biến