Tài liệu Chương 3: Hồi qui dữ liệu doc - Pdf 10

1
1
Ch
Ch
ươ
ươ
ng
ng
3:
3:
Hồi
Hồi
qui
qui
dữ
dữ
liệu
liệu
Họckỳ 1 – 2011-2012
Khoa
Khoa
Khoa
Khoa
Học
Học
&
&
Kỹ
Kỹ
Thuật
Thuật

Cao
Cao
Học
Học
Ngành
Ngành
Khoa
Khoa
Học
Học
Máy
Máy
Tính
Tính
Giáo
Giáo
trình
trình
đ
đ
iện
iện
tử
tử
Biên
Biên
soạn
soạn
bởi
bởi

 [6] Daniel T. Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006.
 [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005.
 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
Discovery Handbook”, Second Edition, Springer Science + Business
Media, LLC 2005, 2010.
3
3
Nộidung
 Chương 1: Tổng quan về khai phá dữ liệu
 Chương 2: Các vấn đề tiềnxử lý dữ liệu
 Chương 3: Hồiqui dữ liệu
 Chương 4: Phân loạidữ liệu
 Chương 5: Gom cụmdữ liệu
 Chương 6: Luậtkếthợp
 Chương 7: Khai phá dữ liệuvàcôngnghệ cơ sở dữ
liệu
 Chương 8: Ứng dụng khai phá dữ liệu
 Chương 9: Các đề tài nghiên cứutrongkhaiphádữ
liệu
 Chương 10: Ôn tập
4
4
Chương 3: Hồiqui dữ liệu
 3.1. Tổng quan về hồiqui
 3.2. Hồiqui tuyếntính
 3.3. Hồiqui phi tuyến

sử dụng quảng cáo trựctuyếntạiViệtNam
 Sự giảitrícảmnhận (+0.209)
 Chấtlượng thông tin (+0.261)
 Chấtlượng thông tin cảmnhận (+0.199)
 Sự khó chịucảmnhận (-0.175)
 Sự tin cậycảmnhận
 Thái độ về tính riêng tư
 Sự tương tác (+0.373)
 Chuẩnchủ quan (+0.254)
 Nhậnthứckiểm soát hành vi (+0.377)
9
9
3.0. Tình huống …
 Hồi qui (regression)
 Khai phá dữ liệucótínhdự báo (Predictive data
mining)
 Tình huống ???
 Khai phá dữ liệucótínhmôtả (Descriptive data
mining)
 Tình huống ???
10
10
3.1. Tổng quan về hồiqui
 Định nghĩa-Hồi qui (regression)
 J. Han et al (2001, 2006): Hồiqui làkỹ thuậtthống
kê cho phép dựđoán các trị (số) liên tục.
 Wiki (2009): Hồi qui (Phân tích hồiqui –regression
analysis) là kỹ thuậtthống kê cho phép ướclượng
các mốiliênkếtgiữacácbiến
 R. D. Snee (1977): Hồi qui (Phân tích hồiqui) làkỹ

Æ Quan hệ giữaY vàX đượcdiễntả bởisự phụ thuộc
hàm củaY đốivớiX.
Æ β mô tả sựảnh hưởng của X đối với Y.
13
13
3.1. Tổng quan về hồiqui
 Phân loại
 Hồi qui tuyến tính (linear) và phi tuyến
(nonlinear)
 Hồi qui đơnbiến (single) và đabiến (multiple)
 Hồi qui có thông số (parametric), phi thông số
(nonparametric), và thông số kếthợp
(semiparametric)
 Hồi qui đốixứng (symmetric) và bất đốixứng
(asymmetric)
14
14
3.1. Tổng quan về hồiqui
 Phân loại
 Hồi qui tuyến tính
(linear) và phi tuyến
(nonlinear)
 Linear in parameters:
kếthợptuyến tính các
thông số tạonênY
 Nonlinear in
parameters: kếthợp
phi tuyến các thông số
tạonênY
[Regression and Calibration.ppt]

Nonparametric
Y = β0 + β1*X
Parametric
Mathematical FormTypes of (Additive) Model
17
17
3.1. Tổng quan về hồiqui
 Phân loại
 Hồi qui đốixứng (symmetric) và bất đốixứng
(asymmetric)
 Symmetric: mô hình hồiqui cótínhmôtả (descriptive) (eg.
log-linear models)
 The objective of the analysis is descriptive – to describe
the associative structure among the variables.
 Asymmetric: mô hình hồi qui có tính dự báo (predictive)
(eg. linear regression models, logistic regression models )
 The variables are divided in two groups, response and
explanatory – to predict the responses on the basis of the
explanatory variables.
Æ Generalized linear models: symmetric vs. asymmetric
P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
18
18
3.2. Hồi qui tuyếntính
 Hồiqui tuyếntínhđơnbiến
 Đường hồi qui (regression line)

Hồiqui tuyếntínhđabiến
 Mặtphẳng hồi qui (regression plane)
19

i
: trị củax, y từ tậpdữ liệu
huấnluyện
x, y: trị trung bình từ tậpdữ liệu
huấnluyện
ŷ
i
: trịướclượng vớibộ thông số β
22
22
3.2.2. Hồiqui tuyếntínhđabiến
 Hồiqui tuyếntínhđabiến: phân tích mối
quan hệ giữabiếnphụ thuộc
(response/dependent variable) và hai hay
nhiềubiến độclập (independent variables)
y
i
= b
0
+ b
1
x
i1
+ b
2
x
i2
+ … + b
k
x

21
,1 ,2 ,
1
1
, ,
1
k
k
nn nk
nk
xx x
Yb
xx x
Yb
xx x
Yb









== =





3.2.2. Hồiqui tuyếntínhđabiến
40060010.0F
1001003.0E
2004006.0D
4008008.0C
3007005.0B
1002001.0A
Toy sales
(Thousands of Dollars) y
Population
(Thousands)
x2
Advertising Expenditures
(Thousands of Dollars)
x1
Market
Area
[Chapter 6 Regression and Correlation.ppt]


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status