Khai thác và sử dụng SPSS để xử lý số liệu nghiên cứu trong lâm nghiệp - Chương 6 doc - Pdf 20


114
Hình 5.41

Bảng trên ( H 5.39) cho thấy các công thức khác nhau là rõ. Điều này cũng phản
ảnh rõ ràng ở 2 bảng dới (H 5.40 và H 5.41) vì các công thức chia thành 3 nhóm với
công thức 3 (a
1
b
3
) là tốt nhất. Có nghĩa là cây trồng ở cự ly 10*10m và 24 tháng tuổi là
tốt nhất.

CHƯƠNG 6
Hồi quy Tuyến tính Một lớp
v nhiều lớp

6.1. Hệ số tơng quan
6.1.1. Công thức tính hệ số tơng quan
Hệ số tơng quan là khái niệm chỉ mức độ liên hệ giữa 2 đại lợng ngẫu
nhiên đợc tính theo công thức
r =
QyQx
Qxy
.
(6.1)
Với Qxy =
xy - (x)*( y)/n và Qx = x
2

trong công

thức (6-2) gần 1, nên việc kiểm tra giả thuyết H
0
có thể thực hiện theo công thức rút
gọn sau:
T = r
2n
Ngoài phơng pháp tính hệ số tơng quan nói trên (gọi là hệ số tơng quan
Pearson), ngời ta còn tính theo phơng pháp phi tham số mà thờng dùng là hệ số
tơng quan hạng của Spearman. Cách tính theo phơng pháp này nh sau:

115
Gọi R
i
là vị thứ của biến X sau khi đã xếp hạng từ lớn đến nhỏ và S
i
là vị thứ
xếp hạng từ lớn đến nhỏ của y và r
s
là hệ số tơng quan hạng của của Spearman ta có
công thức:

r
s
= 1 - 6(R
i
=S
i

1.3
và Dt vào máy ta thực hiện Quy trình tính theo SPSS
cho ví dụ (5-1) nh sau:
QT6.1
Analyze\Correlate \ Bivariate.
Trong hộp thoại Bivariate Correlations đa các biến Dt và D
1.3
vào khung
Variables
Đánh dấu vào Pearson (có thể thêm hệ số tơng quan Spearman và
Kendall tau-b nếu cần)
OK 116

Hình 6.1 Hộp thoại Bivariate correlation
Kết quả nh sau
Correlations
1 .984**
. .000
10 10
.984** 1
.000 .
10 10
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)

Giải thích:
Bảng 1 (H 6.2) cho hệ số tơng quan Pearson giữa Dt và D
1.3
ở hàng thứ 2 theo
kiểu ma trận. Nh trong ví dụ của ta cho hệ số tơng quan r = 0,984. Hàng thứ 3 cho
xác suất kiểm tra sự tồn tại của r theo công thức (6-2). Vì xác suất quá nhỏ nên r tồn
tại, cũng có nghĩa giả thuyết H
0
: = 0 bị bác bỏ ở mức =0.01. Bảng 2 (H 6.3) chỉ
hệ số tơng quan đợc tính theo phơng pháp phi tham số có tên chung là tơng quan

117
hạng của Spearman và Kendall có kết cấu nh hình 6.2 nhng mức độ liên hệ bằng 1
cao hơn hệ số tơng quan tính theo Pearson. ở đây, không khai báo vấn đề tơng quan
riêng phần (Partial correlation) vì nó sẽ đề cập trong phân tích hồi quy nhiều biến số.
6.2. Hồi quy tuyến tính một lớp
6.2.1. Cách biểu thị một hàm hồi quy tuyến tính một lớp
Nếu 2 đại lợng X và Y trong tổng thể có quan hệ tuyến tính thì quan hệ đó
đợc viết dới dạng kỳ vọng.
E(Y/X) = A + B X (6-4)
Còn ở mẫu

yabx=+
(6-5)
Ngoài ra ngời ta còn có thể biểu thị dới dạng phơng trình mô hình
y
i
= A + BX +
i
(6-6)

t
a
= a/S
a
(6.9)

118

t
b
= b/S
b
(6.10)
Trong đó: S
a
=

S
y
x
nQx

/
2
và S
b
=

S
y

(6.1.2).
6.2.4. Hệ số xác định
Trong phân tích hồi quy thờng ngời ta dùng cái gọi là Hệ số xác định
(Coefficient of determination) để đánh giá mức độ phụ thuộc giữa Y và X. Hệ số xác
định đợc tính theo công thức:
R
2
= 1 - ((y-

y
)
2
/ ( y -y )
2
(6 -11)
Hoặc R
2
= (

y
- y)
2
/ ( y -
y
)
2

Theo các công thức trên thì Hệ số xác định là tỷ lệ biến động của đại lợng Y
đợc giải thích bởi hàm hồi quy


y
/ S
2
y
(6.12)
Với

S
2
y
là phơng sai hồi quy hay phơng sai d.

6.2.5. Bảng phân tích phơng sai trong phân tích Hồi quy
Để phân tích sâu hơn về quan hệ giữa 2 đại lợng theo mô hình I hoặc mô hình
II ngoài những thông tin về hệ số tơng quan hoặc hệ số xác định và phơng sai hồi
quy ngời ta còn đa ra một bảng phân tích phơng sai (ANOVA) có dạng sau:
Bảng 6-2: ANOVA
Nguồn biến động
(Source)
Tổng B.Đ
(SS )
Bậc tự do
( DF)
Phơng sai
(MS)
F.tính
Xác suất
của F(Sig)

119

2
+ (

y
-
y
)]
2
với bậc tự do tơng ứng
là n- 2 và 1. Cho nên hàng cuối cùng bằng hàng thứ 2 cộng với hàng thứ 3 về các tổng
biến động cũng nh bậc tự do. Thực chất của bảng phân tích phơng sai nói trên là việc
kiểm ra sự tồn tại của hệ số xác định R
2
theo tiêu chuẩn F theo công thức:
F = MR/ME (6.13)
Với bậc tự do k1=1, k2= n-2. Nếu mức ý nghĩa của F (sigF) < 0.05 hoặc F tính
lớn hơn F tra bảng thì hệ số xác định là tồn tại và phơng trình hồi quy mới có ý
nghĩa .

6.2.6. Dự báo trung bình và dự báo cá biệt (mean prediction, individual prediction)
Trong nhiều trờng hợp ngời ta cần ớc lợng giá trị của E(Y/X) thông qua
hàm ớc lợng

yabx
=
+
bằng cách thay x
0
vào phơng trình hồi quy ở mẫu. Sai số
ớc lợng trung bình đợc tính theo công thức:


/2
đợc tra bảng theo phân bố t với n-2 bậc tự do và .
Ngoài việc ớc lợng trung bình ngời ta còn đề cập đến vấn đề dự báo giá trị
Y cá biệt theo mô hình (6-6) khi biết đợc một giá trị cụ thể của biến X, tức x
0
.
Trong trờng hợp này, nếu dùng hàm hồi quy mẫu để dự báo ta sẽ mắc sai số cực hạn
nh sau:
y = t

/2* QxXxnS
y
/)(/11

2
0
++
(6-16) Nh vậy độ tin cậy của khoảng dự báo khi dự báo một giá trị của y cá biệt tính
theo mô hình (6-6) là
P(

y
-

y y
0

120
Bây giờ ta thử dùng phần mềm SPSS để phân tích hồi quy theo ví dụ 6.1
với quy trình sau QT6.2
1. Analyze\Regression\ Linear

2
Trong hộp toại Linear Resgession ghi DT vào Dependent và ghi D
1.3

vào
Independent(s) chọn Enter trong Method (vì chỉ có một biến độc
lập)
3
Nháy chuột vào Statistics chọn Estimates và confidence interval trong
Regression coefficients

4 Nháy chuột vào Save, chọn unstandardized và standardized trong
Predicted valuve,
trong Residuals chọn unstandardized và
standardized,trong Prediction intervals chọn Mean & individual
5
Nếu muốn kiểm tra các điều kiện của mô hình thì nháy chuột vào Plots:
Đa Zresid vào khung Y (Trục Y) đa Zpred vào khung X (trục X),
chọn

Histogram và Normal probability Plot
6. OK

R Square
Std. Error of
the Estimate
Predictors: (Constant), D1.3
a.
Dependent Variable: DT
b.

H×nh 6.9
ANOVA
b
10.191 1 10.191 246.833 .000
a
.330 8 .041
10.521 9
Regression
Residual
Total
Model
1
Sum of
Squares
df Mean Square F Sig.
Predictors: (Constant), D1.3
a.
Dependent Variable: DT
b.

H×nh 6.10
Coefficients

123
Residuals Statistics
a
2.2124 5.4019 3.9700 1.06410 10
-1.652 1.346 .000 1.000 10
.06665 .12901 .08884 .02011 10
2.0181 5.2734 3.9493 1.08062 10
2482 .2981 .0000 .19157 10
-1.222 1.467 .000 .943 10
-1.293 1.832 .043 1.106 10
2790 .4819 .0207 .26596 10
-1.360 2.250 .106 1.254 10
.068 2.728 .900 .844 10
.001 1.134 .225 .376 10
.008 .303 .100 .094 10
Predicted Value
Std. Predicted Value
Standard Error of
Predicted Value
Adjusted Predicted Valu
e
Residual
Std. Residual
Stud. Residual
Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's Distance
Centered Leverage Valu
e

Expected Cum Prob
1.00
.75
.50
.25
0.00

H×nh 6.14 124
Scatterplot
Dependent Variable: DT
Regression Standardized Predicted Value
1.51.0.50.0 5-1.0-1.5-2.0
Regression Standardized Residual
1.5
1.0
.5
0.0
5
-1.0
-1.5 Hình 6.15 Giải thích
Bảng đầu tiên (H 6.9) chỉ hệ số tơng quan, hệ số xác định và hệ số xác

)


y
= -2,945 + 0,6786 X hoặc (6.19)
D
t
= -2,945 + 0,6786 D
1,3

Bảng (H6.12) cuối cùng cho các chỉ tiêu thống kê mà quan trọng là các
hàng sau: Hàng đầu tiên là các chỉ tiêu thống kê của y lý luận (trị số dự báo).
Hàng thứ 2 các chỉ tiêu thống kê của sai số d. Hàng thứ 3 cho các chỉ tiêu
thống kê của trị số lý luận đã chuẩn hoá theo công thức ( y lý luận trung bình
của y lý luận)/sai tiêu chuẩn của y lý luận. Hàng thứ 4 cho các đặc trng thống
kê của sai số d đã chuẩn hoá theo công thức (6-18) Hai biểu đồ số (H6.13 và
H6.14) nhằm kiểm tra điều kiện chuẩn của mô hình. Theo ví dụ của ta thì điều

125
kiện này cha thoả mãn vì các điểm toạ độ ở hình H6.14 nằm cha thật thẳng
hàng trên đờng chéo góc của hình vuông và biểu đồ tần số của sai số d cũng
tơng đối xa với phân bố chuẩn. Tuy nhiên nếu yêu cầu độ chính xác không cao
ta cũng có thể tạm thời chấp nhận đợc Hình 6.15 kiểm tra điều kiện bằng nhau
về phơng sai của sai số d. Nếu phơng sai bằng nhau thì đám mây điểm của
hình này phải nằm trên một băng dài song song với truc X . Nh ví dụ của ta ở
đây cũng cha thật thoả mãn nhng nếu yêu cầu không cao thì cũng có thể chấp
nhận đợc. Cuối cùng là hình 6.16 cho kết quả khi thực hiện thủ tục
SAVE.
Những kết quả này đợc cho cùng với số liệu gốc ở cửa sổ màn hình
SPSS

4
OK
Kết quả quy trình trên cho ta đám mây điểm về quan hệ giữa D
t
và D
1.3
.
Tiếp theo thực hiện thêm các bớc còn lại nh sau:
5
Sau khi kích hoạt biểu đồ vừa vẽ theo quy trình trên, từ menu Edit chọn
SPSS chart object options và xuất hiện cửa sổ SPSS chart editor
chọn
chart options- trong Fit line chọn total nháy chuột vào Fit
options(
xem hộp thoại Scatterplot options ở dới) chọn Linear
Regression
và đánh dấu vào các ô Mean và individual trong
Regression prediction line(s). Nếu muốn cho biết R
2
bên cạnh sơ đồ thì
nhớ nháy chuột vào ô
Display R square in legend trong Regression
options
.

Kết quả của quy trình tính vừa rồi sẽ cho ta một biểu đồ nh hình 6-19 cho
các đờng lý luận và các đờng biên khi thực hiện việc ớc lợng trung bình và
ớc lợng cá biệt.
4.0
3.5
3.0
2.5
2.0 Rsq = 0.9686

Hình 6.19 Đồ thị khoảng ớc lợng của E(Y/X) và Y cá biệt
(2 đờng biên ngoài cùng)

6.3. Hồi quy tuyến tính nhiều lớp
6.3.1. Cách viết một hồi quy nhiều lớp
Ngời ta có thể biểu thị một hồi quy nhiều lớp nh sau
- Viết dới dạng hàm hồi quy kỳ vọng (trong tổng thể)
E(y/x) =Y = A
0
+A
1
X
1
+A
2
X
2
++A
r
X
r
(6.20)
- Viết dới dạng phơng trình mô hình
y

=a
o
+a
1
x
1
+a
2
x
2
+ + a
r
x
r
(6.22)

128
Đây là một hàm mang tính chất trung bình, các a
i
là những hàm ớc lợng của
A
i
trong công thức (6.20). Việc nghiên cứu các tham số này là một trong những nội
dung quan trọng của mục này.

6.3.2. Cách xây dựng một hồi quy nhiều lớp
Do những tình huống và yêu cầu khác nhau mà ngời ta có thể xây
dựng các dạng khác nhau. Ví dụ quan hệ giữa Y với X
1
và X

(2)
Y =A
0
+ A
1
X
2
+ A
2
X
2
+ A
3
X
1
2
+ A
4
X
2
2
+ A
5
X
1
X
2
(3)
Y = A
0

+ +A
r
Xr +

i
có phân bố chuẩn N(0,
2
), cũng có nghĩa là phân bố của đại lợng Y là phân
bố chuẩn có trung bình là E(Y/X
1
X
2
) và phơng sai bằng nhau=
2
,
i

j
độc lập từng
đôi một, các biến X
i
không có sai số khi quan sát.
Những điều kiện trên đây trong thực tế rất khó đạt đợc. Trong những trờng
hợp không yêu cầu chính xác cao thờng ngời ta hoặc bỏ qua việc kiểm tra những
những điều kiện đó hoặc kiểm tra bằng những phơng pháp đơn giản. Thờng ngời ta
dùng các phơng pháp sơ đồ.

6.3.4. Một số nội dung chính trong phân tích Hồi quy tuyến tính nhiều lớp
6.3.4.1. Xác định các hệ số hồi quy:
Bằng phơng pháp bình phơng bé nhất và với một số thuật toán nh phơng

X
Xxxxx
x
xx x
=


Và (X X)
-1
là ma trận đảo của ma trận (XX). Ngời ta nhân ma trận đảo ngợc
(X X)
-1
với ma trận cột có chứa các phần tử y yx
1
yx
2
cho ta các hệ số tơng ứng
a
0
, a
1
, a
2
.

129










2
1
1
2
2212
2121
21
3
2
1
yx
yx
y
xxxx
xxxx
xxn
a
a
a
(6.23)

Phơng pháp ớc lợng bằng bình phơng tối thiểu có những tính chất sau:

)
2
/(n r) (6.24)
Nó là một ớc lợng không chệch của phơng sai hồi quy trong tổng thể
2
.
Còn sai tiêu chuẩn d hoặc sai tiêu chuẩn hồi quy (Standard Error) là căn bậc 2 của
phơng sai hồi quy. Phơng sai hồi quy càng bé thì mức độ phụ thuộc của Y vào X
i

càng cao. Nó bằng 0 khi các trị quan sát của Y đều nằm trên mặt hồi quy mẫu.

6.3.4.3. Tính hệ số xác định
Cũng nh trong quan hệ tuyến tính đơn, trong hồi quy nhiều lớp hệ số xác định
là độ đo mức độ phụ thuộc của Y vào các biến độc lập. Nó là tỷ lệ biến động của của
Y đợc giải thích bởi phơng trình hồi quy và đợc tính theo công thức.





=
2
2
2
)yY(
)yy

(
R

2
trong trờng hợp X
1
và X
2
quan hệ tuyến
tính rất chặt.
Bảng 6.3

Y
10 12 15 16 17 18 20
X1
5 8 13 15 17 15 17

130
X2
10 16 25 30 34 30 34

Nhìn vào bảng trên,ta thấy dãy X
2
có 6 trị số gấp đôi X
1
trừ trị số ở cột thứ 4 chỉ
gần gấp đôi mà thôi. Có nghĩa là biến số này hầu nh không có ý nghĩa gì khi dùng nó
để ớc lợng Y. Vậy mà hệ số xác định của nó lại khá cao. Trờng hợp quan hệ giữa Y
với X
1
R
2
= 0,9194. Còn trờng hợp cả 2 biến R

2
/(1-R
2
)]/ [(r-1)/ (n-r)] (6.26)
Với bậc tự do K
1
=r-1 và k
2
= n-r. Nếu F tính mà lớn hơn F
05
thì giả thuyết H
0

bị bác bỏ. Ta nói ít nhất có một hệ số A
i
nào đó khác không (A
i
0). Trong bảng phân
tích phơng sai trong phân tích hồi quy giả thuyết H
0
đợc kiểm tra bằng F = MR/ ME.
6.3.4.4. Hệ số R
2
điều chỉnh (Adjusted R square)
Do nhợc điểm của hệ số xác định nh đã nói ở trên nên nó đợc điều chỉnh
theo công thức:
Ra
2
= 1 - (


0. A
i

tham số mà ta muốn thêm vào.

6. 3.4.5. Bảng phân tích phơng sai
Từ công thức biến động của Y và dựa vào tính chất 3 của phơng pháp ớc
lợng bằng bình phơng nhỏ nhất ta có thể viết :
(y -
y
)
2
= [(y-

y
) +(

y
-
y
)]
2
= (y-

y
)
2
+ (

y

05
hoặc xác suất của F nhỏ hơn 0.05 thì mô hình
tuyến tính tồn tại với ít nhất có một hệ số hồi quy A
i
nào đó 0, cũng tức là trong tổng
thể R
0
2
>0 .

6.3.4.6. Kiểm tra sự tồn tại của các hệ số
Trong trờng hợp giả thuyết H
0
: R
0
2
= 0 đợc chấp nhận thì bớc kiểm tra này là
không cần đặt ra vì R
0
2
= 0 cũng đồng nghĩa tất các hệ số hồi quy đều bằng không. Tuy
nhiên, trong trờng hợp ngợc lại thì ít nhất cũng có một hệ số hồi quy 0. Vì vậy, mà
cần kiểm tra xem trong số những hệ số hồi quy đợc đa vào thì có những hệ số nào
không tồn tại. Ngời ta chứng minh rằng nếu các điều kiện của mô hình là thoả mãn
thì các giả thuyết H
0
: A
i
=0 và H
1


/2
*S
ai
) = 1- (6-29)
Để nhận đợc phơng sai cũng nh hiệp phơng sai các hệ số ta nhân ma trận
đảo (XX)
-1
với phơng sai hồi quy

S
2
y
. Kết quả cho ta một ma trận vuông mà các
phần tử nằm trên đờng chéo chính là phơng sai của các hệ số, các phần tử còn lại là
các hiệp phơng sai của (a
i
,a
j
)
COV(a
i
a
j
) =

S
2
y
* (X X)


( / ) (1 )*( , )

y
X
DYX S XX XX
X
X
X

= (6-31)
Có nghĩa là đem phơng sai hồi quy nhân với ma trận đảo ngợc (XX)
-1

đem kết quả này nhân với tích của ma trận hàng và ma trân cột của những giá trị cần
dự báo của các biến độc lập.
Công thức dự báo đối với rị số lý luận của hàm hồi quy nh sau :
P(

y
- t

/2
* S
(Y/X
o
)
)< E(Y/X
0
) <

)
=

S
2
y
+ D
2
(Y/X
o
)
(6.33)
Và công thức dự báo cá biệt:
P(

y
- t

/2
* S
(Yo/X
o
)
< Y
0
/X
0
<

y

2
+A
3
X
3

Với X
1
= G/ha X
2
= Hvn và X
3
= N/ha Y = M/ha
133
Bảng 6.5 Trữ lợng/ha, Tổng diện ngang/ha, Chiều cao bình quân và mật độ của 20
lâm phần keo lá tràm của khu vực miền trung (nguồn Hoàng Văn Dỡng)
y X
1
X
2
X
3
X
4
(X
1
X

hơn
g

p

p
Enter (Xem
H6.5)
3 Click vào Statistics: Trong hộp thoại này chọn Model Fit, Part and partial
correlation, Descriptives , Colinearity diagnostic, chọn Estimates confidence
intervals, covariance matrix trong Regression coefficients, trong Residuals
chọn Durbin-Watson để kiểm tra tính độc lập của sai số d (Xem H6.20)
4. Click vào Plots: Đa ZRESID vào Y và ZPRED vào X chọn Histogram và
Normal probability plot (Xem H6.21) để kiểm tra các điều kiện của mô hình đã
vận dụng. Nếu muốn tìm hiểu quan hệ riêng giữa trữ lợng với từng nhân của
biến độc lập thì chọn thêm Produce all partial plots (Xem H 6.21). Click vào
Save để ghi những thông tin khác nh đã hớng dẫn ở QT5.2 (Xem H6.8). Nếu
muốn thay đổi các mặc định về tiêu chuẩn chọn biến thì click vào Options.
Nhng thông thờng ta không cần thay đổi các tiêu chuẩn này.
5. OK

134
H×nh 6.20 Hép tho¹i Statistics

H×nh 6.21 Hép tho¹i Plots
KÕt qu¶ nh− sau
Descriptive Statistics

N/ha
M/ha
G/ha
Htb
N/ha
M/ha
G/ha
Htb
N/ha
Pearson Correlation
Sig. (1-tailed)
N
M/ha G/ha Htb N/ha

H×nh 6.23 Variables Entered/Removed
b
N/ha, G/ha,
Htb
a
. Enter
Model
1
Variables
Entered
Variables
Removed
Method

b
16362.266 3 5454.089 72.853 .000
a
1197.827 16 74.864
17560.093 19
Regression
Residual
Total
Model
1
Sum of
Squares
df Mean Square F Sig.
Predictors: (Constant), N/ha, G/ha, Htb
a.
Dependent Variable: M/ha
b.

H×nh 6.26 136
Coefficients
a
-102 18.893 -5.41 .000 -142.2 -62.07
2.923 .605 .473 4.833 .000 1.641 4.205 .890 .770 .316 .445 2.2
11.06 1.963 .559 5.636 .000 6.903 15.226 .822 .815 .368 .433 2.3
.012 .004 .256 3.455 .003 .005 .020 .201 .654 .226 .779 1.3
(Const
ant)

Part
Correlations
Tol
era
nce
VIF
Collinearity
Statistics
Dependent Variable: M/ha
a.

H×nh 6.27

Coefficient Correlations
a
1.000 423 .450
423 1.000 738
.450 738 1.000
1.269E-05 -9.11E-04 3.147E-03
-9.11E-04 .366 876
3.147E-03 876 3.854
N/ha
G/ha
Htb
N/ha
G/ha
Htb
Correlations
Covariances
Model

Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's Distance
Centered Leverage Val
u
Minimum Maximum Mean Std. Deviation N
Dependent Variable: M/ha
a.

Hinh 6.29

137
Regression Standardized Residual
2.502.001.501.00.500.00 50-1.00-1.50
Histogram
Dependent Variable: M/ha
Frequency
6
5
4
3
2
1
0
Std. Dev = .92
Mean = 0.00
N = 20.00
H×nh 6.32 138
Partial Regression Plot
Dependent Variable: M/ha
G/ha
121086420-2-4-6
M/ha
30
20
10
0
-10
-20 (a)
Partial Regression Plot
Dependent Variable: M/ha
Htb
210-1-2-3
M/ha
30
20
10
0
-10
-20
-30


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status