1
1
Ch
Ch
ươ
ươ
ng
ng
3:
3:
Hồi
Hồi
qui
qui
dữ
dữ
liệu
liệu
Họckỳ 1 – 2011-2012
Khoa
Khoa
Khoa
Khoa
Học
Học
&
&
Kỹ
Kỹ
Thuật
Thuật
Cao
Cao
Học
Học
Ngành
Ngành
Khoa
Khoa
Học
Học
Máy
Máy
Tính
Tính
Giáo
Giáo
trình
trình
đ
đ
iện
iện
tử
tử
Biên
Biên
soạn
soạn
bởi
bởi
[6] Daniel T. Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006.
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005.
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
Discovery Handbook”, Second Edition, Springer Science + Business
Media, LLC 2005, 2010.
3
3
Nộidung
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Các vấn đề tiềnxử lý dữ liệu
Chương 3: Hồiqui dữ liệu
Chương 4: Phân loạidữ liệu
Chương 5: Gom cụmdữ liệu
Chương 6: Luậtkếthợp
Chương 7: Khai phá dữ liệuvàcôngnghệ cơ sở dữ
liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứutrongkhaiphádữ
liệu
Chương 10: Ôn tập
4
4
Chương 3: Hồiqui dữ liệu
3.1. Tổng quan về hồiqui
3.2. Hồiqui tuyếntính
3.3. Hồiqui phi tuyến
sử dụng quảng cáo trựctuyếntạiViệtNam
Sự giảitrícảmnhận (+0.209)
Chấtlượng thông tin (+0.261)
Chấtlượng thông tin cảmnhận (+0.199)
Sự khó chịucảmnhận (-0.175)
Sự tin cậycảmnhận
Thái độ về tính riêng tư
Sự tương tác (+0.373)
Chuẩnchủ quan (+0.254)
Nhậnthứckiểm soát hành vi (+0.377)
9
9
3.0. Tình huống …
Hồi qui (regression)
Khai phá dữ liệucótínhdự báo (Predictive data
mining)
Tình huống ???
Khai phá dữ liệucótínhmôtả (Descriptive data
mining)
Tình huống ???
10
10
3.1. Tổng quan về hồiqui
Định nghĩa-Hồi qui (regression)
J. Han et al (2001, 2006): Hồiqui làkỹ thuậtthống
kê cho phép dựđoán các trị (số) liên tục.
Wiki (2009): Hồi qui (Phân tích hồiqui –regression
analysis) là kỹ thuậtthống kê cho phép ướclượng
các mốiliênkếtgiữacácbiến
R. D. Snee (1977): Hồi qui (Phân tích hồiqui) làkỹ
Æ Quan hệ giữaY vàX đượcdiễntả bởisự phụ thuộc
hàm củaY đốivớiX.
Æ β mô tả sựảnh hưởng của X đối với Y.
13
13
3.1. Tổng quan về hồiqui
Phân loại
Hồi qui tuyến tính (linear) và phi tuyến
(nonlinear)
Hồi qui đơnbiến (single) và đabiến (multiple)
Hồi qui có thông số (parametric), phi thông số
(nonparametric), và thông số kếthợp
(semiparametric)
Hồi qui đốixứng (symmetric) và bất đốixứng
(asymmetric)
14
14
3.1. Tổng quan về hồiqui
Phân loại
Hồi qui tuyến tính
(linear) và phi tuyến
(nonlinear)
Linear in parameters:
kếthợptuyến tính các
thông số tạonênY
Nonlinear in
parameters: kếthợp
phi tuyến các thông số
tạonênY
[Regression and Calibration.ppt]
Nonparametric
Y = β0 + β1*X
Parametric
Mathematical FormTypes of (Additive) Model
17
17
3.1. Tổng quan về hồiqui
Phân loại
Hồi qui đốixứng (symmetric) và bất đốixứng
(asymmetric)
Symmetric: mô hình hồiqui cótínhmôtả (descriptive) (eg.
log-linear models)
The objective of the analysis is descriptive – to describe
the associative structure among the variables.
Asymmetric: mô hình hồi qui có tính dự báo (predictive)
(eg. linear regression models, logistic regression models )
The variables are divided in two groups, response and
explanatory – to predict the responses on the basis of the
explanatory variables.
Æ Generalized linear models: symmetric vs. asymmetric
P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
18
18
3.2. Hồi qui tuyếntính
Hồiqui tuyếntínhđơnbiến
Đường hồi qui (regression line)
Hồiqui tuyếntínhđabiến
Mặtphẳng hồi qui (regression plane)
19
i
: trị củax, y từ tậpdữ liệu
huấnluyện
x, y: trị trung bình từ tậpdữ liệu
huấnluyện
ŷ
i
: trịướclượng vớibộ thông số β
22
22
3.2.2. Hồiqui tuyếntínhđabiến
Hồiqui tuyếntínhđabiến: phân tích mối
quan hệ giữabiếnphụ thuộc
(response/dependent variable) và hai hay
nhiềubiến độclập (independent variables)
y
i
= b
0
+ b
1
x
i1
+ b
2
x
i2
+ … + b
k
x
21
,1 ,2 ,
1
1
, ,
1
k
k
nn nk
nk
xx x
Yb
xx x
Yb
xx x
Yb
== =
3.2.2. Hồiqui tuyếntínhđabiến
40060010.0F
1001003.0E
2004006.0D
4008008.0C
3007005.0B
1002001.0A
Toy sales
(Thousands of Dollars) y
Population
(Thousands)
x2
Advertising Expenditures
(Thousands of Dollars)
x1
Market
Area
[Chapter 6 Regression and Correlation.ppt]