Giáo trình xử lý thống kê nông nghiệp - Pdf 11

TRƯỜNG ðẠI HỌC NÔNG NGHIỆP HÀ NỘI
PGS. TS. Nguyễn Hải Thanh −
−−
− ThS. ðỗ ðức Lực XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP
với phần mềm Excel và SAS
(Bài giảng cho dự án CNTT)

tổng thể; cách này ñòi hỏi chi phí cao, tốn kém thời gian, nhiều khi không khả thi. Cách 2:
ðiều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu ñiều tra
ñược và các ñịnh lý của lý thuyết xác suất cần xử lý số liệu mẫu ñể ñưa ra một suy ñoán
thống kê về chỉ số ñó cho toàn bộ tổng thể. Cách 2 có thể ñược gọi là phương pháp thống
kê toán học, hay còn gọi là phương pháp khảo sát mẫu.
Tổng quát hơn, phương pháp khảo sát mẫu ñược áp dụng khi cần nghiên cứu một
số chỉ số nào ñó cũng như các mối liên quan của chúng trên các cá thể của tổng thể.
Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một
tổng thể. Xét một mẫu ngẫu nhiên dung lượng n của X là (X
1
, X
2
, , X
n
) trong ñó X
i
, i = 1,
2, …, n, là các biến ngẫu nhiên ñộc lập thu ñược từ X. ðể ñơn giản chúng ta gọi mẫu này
là mẫu lý thuyết. Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x
1
, x
2
, , x
n
)
trong ñó x
i
là giá trị ño ñược của X
i
thu ñược từ kết quả của thực nghiệm.

n
1
2
n
1i
i
)XX(
∑
=
−
ñượ
c
gọ
i
là
ph
ươ
ng sai m
ẫ
u lý
thuy
ế
t ch
ư
a hi
ệ
u ch
ỉ
nh, còn
ñạ

chỉ
nh. Chúng
ñề
u
ñượ
c l
ấ
y làm
ướ
c l
ượ
ng cho ph
ươ
ng sai V(X) c
ủ
a X v
ớ
i
V(X)
ñượ
c coi là s
ố

ñặ
c tr
ư
ng cho
ñộ
bi
ế

, thì ph
ươ
ng sai m
ẫ
u lý
thuy
ế
t
ñ
ã hi
ệ
u ch
ỉ
nh l
ạ
i có c
ả
ba tính ch
ấ
t
không chệch, vững và hiệu quả.
Lúc
ñ
ó,
2
s
ˆ
=
n
1

2
=
1n
1
−
2
n
1i
i
)xx(
∑
=
− cũ
ng
ñượ
c
gọ
i
là
ph
ươ
ng sai m
ẫ
u th
ự
c nghi
ệ
m
ñã
hi

ẩ
n
m
ẫ
u lý thuy
ế
t và th
ự
c nghi
ệ
m ch
ư
a hi
ệ
u
chỉ
nh, còn S và s
gọ
i
là ñộ
l
ệ
ch chu
ẩ
n m
ẫ
u lý
thuy
ế
t và th

ă
ng th
ố
ng kê mô t
ả

trong phân tích s
ố
li
ệ
u c
ủ
a Excel
ñể
tính các s
ố

ñặ
c tr
ư
ng m
ẫ
u c
ủ
a m
ẫ
u th
ự
c nghi
ệ

Ch
ọ
n Tools>Data Analysis>Descriptive Statistics, và khai báo các m
ụ
c sau
trong h
ộ
p tho
ạ
i:
- Input range: mi
ề
n d
ữ
li
ệ
u k
ể
c
ả
nhãn.
- Grouped by: Column (s
ố
li
ệ
u theo c
ộ
t).
- Labels in first row :
ð

ỏ
nh
ấ
t, 2 s
ố
nh
ỏ
nhì ).
- Output range: mi
ề
n ra.
- Summary Statistics:
ð
ánh d
ấ
u
√
n
ế
u mu
ố
n hi
ệ
n các th
ố
ng kê c
ơ
b
ả
n.

t cây, n
ă
ng su
ấ
t. S
ố
li
ệ
u
ñượ
c b
ố
trí nh
ư
trong hình I.1.
Ch
ọ
n Tools>Data Analysis>Descriptive Statistics, sau
ñ
ó khai báo h
ộ
p tho
ạ
i.

Hình I.1. Bảng số liệu khảo sát về lúa và khai báo hộp thoại.

4

K

a dãy s
ố
.
- Standard error cho ta bi
ế
t t
ỷ
s
ố

ñộ
l
ệ
ch chu
ẩ
n m
ẫ
u /c
ă
n b
ậ
c hai c
ủ
a n.
- Median cho giá tr
ị

ñ
i
ể

u là cân
ñố
i tr
ừ
c
ộ
t “s
ố
bông” h
ơ
i b
ị
l
ệ
ch.
- Mode cho bi
ế
t giá tr
ị
x
ả
y ra nhi
ề
u nh
ấ
t trên m
ẫ
u
- Ph
ươ

ế
u các giá tr
ị
này càng nh
ỏ
ch
ứ
ng t
ỏ
s
ố
li
ệ
u càng t
ậ
p
trung.
- Kurtosis
ñ
ánh giá
ñườ
ng m
ậ
t
ñộ
phân ph
ố
i c
ủ
a dãy s

coi s
ố
li
ệ
u x
ấ
p x
ỉ

chu
ẩ
n.
- Skewness
ñ
ánh giá
ñườ
ng phân ph
ố
i l
ệ
ch trái hay l
ệ
ch ph
ả
i. N
ế
u trong kho
ả
ng
t

u là n
ử
a
ñộ
dài kho
ả
ng tin c
ậ
y. Gi
ả
s
ử
Confidence
Level là m thì kho
ả
ng tin c
ậ
y c
ủ
a trung bình t
ổ
ng th
ể
là: (Mean- m , Mean+m). Trong ví
d
ụ
1, hình I.2., ta có kho
ả
ng tin c
ậ

t, ta có công th
ứ
c tìm kho
ả
ng tin c
ậ
y v
ớ
i
ñộ
tin c
ậ
y p = 1
−α

nh
ư
sau: [
x
-
1,
2
−n
t
α
n
s
;
x
+

i b
ậ
c t
ự
do n
−
1.

5

2. Tổ chức ñồ
T
ầ
n s
ố
xu
ấ
t hi
ệ
n c
ủ
a s
ố
li
ệ
u trong các kho
ả
ng cách
ñề
u nhau cho phép phác ho

n ph
ả
i ti
ế
n hành phân t
ổ
/ nhóm
s
ố
li
ệ
u.
2.1. Tạo miền phân tổ
ðể
ti
ế
n hành phân t
ổ
s
ố
li
ệ
u (t
ạ
o Bin), c
ầ
n th
ự
c hi
ệ

c
ậ
n trên c
ủ
a mi
ề
n phân t
ổ
.
- Ghi giá tr
ị
c
ậ
n d
ướ
i vào ô
ñầ
u c
ủ
a mi
ề
n phân t
ổ
và bôi
ñ
en toàn mi
ề
n này.
- Ch
ọ

c
ộ
ng)
+ Trong Step value: nh
ậ
p giá tr
ị
b
ướ
c t
ă
ng
+ Trong Stop value: nh
ậ
p giá tr
ị
c
ậ
n trên
+ OK.
Ví dụ 2
: D
ự
a trên 30 s
ố
li
ệ
u v
ề
chi

i là 10, c
ậ
n trên là 55, giá tr
ị

b
ướ
c t
ă
ng 5.

Hình I.3. Tạo miền Bin cho các số liệu về chiều dài cá

2.2. Vẽ tổ chức ñồ
a. Các bước thực hiện
Ch
ọ
n Tools> Data Analysis> Histogram
ñể
khai báo các m
ụ
c:
- Input range: mi
ề
n d
ữ
li
ệ
u.
- Input Bin: mi

ả
m d
ầ
n.
- Cumulative Percentage: T
ầ
n su
ấ
t c
ộ
ng d
ồ
n %.
- Chart output: Bi
ể
u
ñồ
.
- OK.
Trong ví d
ụ
2 ch
ọ
n Tools> Data Analysis> Histogram và khai báo nh
ư
trong hình I.4.

Hình I.4. Các khai báo ñể vẽ tổ chức ñồ
b. Kết quả vẽ tổ chức ñồ

ng
h
ạ
n, có 2 s
ố
li
ệ
u thu
ộ
c vào kho
ả
ng (10,15], vì v
ậ
y s
ố
2
ñượ
c ghi t
ươ
ng
ứ
ng v
ớ
i s
ố
15 là
c
ậ
n trên).
- Nhìn vào hình I.5. ta có th

t: dãy s
ố
li
ệ
u kh
ả
o sát
ñượ
c v
ề
chi
ề
u dài c
ủ
a
cá có th
ể
coi là tuân theo lu
ậ
t chu
ẩ
n.

7

3. Tính hệ số tương quan và tìm phương trình hồi qui
3.1. Tính hệ số tương quan
Excel cho phép tính h
ệ
s

Các bước thực hiện
Ch
ọ
n Tools>Data Analysis>Correlation và khai báo các m
ụ
c:
- Input range: mi
ề
n d
ữ
li
ệ
u k
ể
c
ả
nhãn.
- Grouped by: Column (s
ố
li
ệ
u theo c
ộ
t).
- Labels in first row :
ð
ánh d
ấ
u

ố
bông v
ớ
i
n
ă
ng su
ấ
t lúa, c
ầ
n th
ự
c hi
ệ
n các b
ướ
c sau:
- Ch
ọ
n Tools>Data analysis>Correlation.
- Khai báo các m
ụ
c (xem hình I.6).

Hình I.6. Các bước khai báo khi tính hệ số tương quan
- K
ế
t qu
ả
thu

b. Phân tích kết quả
- H
ệ
s
ố
t
ươ
ng quan c
ủ
a hàng và c
ộ
t ghi
ở
ô giao gi
ữ
a hàng và c
ộ
t.
- H
ệ
s
ố
t
ươ
ng quan âm ( < 0) th
ể
hi
ệ
n m
ố

tuy
ệ
t
ñố
i x
ấ
p x
ỉ
0.75 tr
ở
lên th
ể
hi
ệ
n m
ố
i t
ươ
ng
quan tuy
ế
n tính m
ạ
nh gi
ữ
a hai bi
ế
n (t
ươ
ng quan gi

ế
n
tính b
ộ
i y = a
0
+ a
1
x
1
+ a
2
x
2
+ . . . + a
n
x
n
. Các bi
ế
n
ñộ
c l
ậ
p ch
ứ
a trong n c
ộ
t, bi
ế

ộ
c
ñượ
c
x
ế
p trên cùng m
ộ
t hàng.
a. Các bước thực hiện
Ch
ọ
n Tools>Data Analysis>Regression và khai báo các m
ụ
c:
- Input y range: mi
ề
n d
ữ
li
ệ
u bi
ế
n y.
- Input x range: mi
ề
n d
ữ
li
ệ

ệ
s
ố
t
ự
do a
0
= 0 .
- Output range: mi
ề
n xu
ấ
t k
ế
t qu
ả
.
- Residuals :
ð
ánh d
ấ
u
√
vào ô này
ñể
hi
ệ
n ph
ầ
n d

ẩ
n hoá.
- Residuals plot:
ð
ánh d
ấ
u
√

ñể
hi
ệ
n
ñồ
th
ị
ph
ầ
n d
ư
.
- Line fit plots:
ð
ánh d
ấ
u
√

ñể
hi

ã chu
ẩ
n hoá.
- OK.
Ví dụ 4
: Tìm ph
ươ
ng trình h
ồ
i qui y= a
0
+ a
1
x
1
+ a
2
yx
2
+ a
3
x
3
c
ủ
a n
ă
ng su
ấ
t lúa y ph

ệ
u cho trong hình I.7.
Ch
ọ
n Tools>Data Analysis>Regression và khai báo các m
ụ
c nh
ư
trên hình I.7.
ñể

thu
ñượ
c k
ế
t qu
ả
nh
ư
trên hình I.8.
b. Phân tích kết quả
- N
ế
u h
ệ
s
ố
t
ươ
ng quan b

ng quan b
ộ
i là
0.8375 nên mô hình tuy
ế
n tính
ñượ
c coi là thích h
ợ
p.
- H
ệ
s
ố
t
ươ
ng quan R square trong ví d
ụ
4 là 0.7014 cho bi
ế
t 70.14% s
ự
bi
ế
n
ñộ
ng
c
ủ
a y là do các y

n
ñư
a vào là th
ự
c s
ự
c
ầ
n thi
ế
t.

9

- F th
ự
c nghi
ệ
m là 8.6142
ứ
ng v
ớ
i xác su
ấ
t 0.00316 nh
ỏ
h
ơ
n m
ứ

c
ñườ
ng h
ồ
i quy d
ự
báo. Trong ví d
ụ

4 ph
ươ
ng trình h
ồ
i quy là: y =
−
3.61899 + 0.085345x
1
+ 0.081163x
2
+ 0.02083x
3
. Tuy
nhiên c
ă
n c
ứ
vào các xác su
ấ
t cho
ở

ườ
ng h
ợ
p này, c
ầ
n ti
ế
n hành l
ọ
c
b
ớ
t bi
ế
n x
1

ñể

ñượ
c
ñườ
ng h
ồ
i quy v
ớ
i các h
ệ
s
ố

nh h
ưở
ng
c
ủ
a các nhân t
ố
(factor) trong thí nghi
ệ
m và
ả
nh h
ưở
ng t
ươ
ng tác c
ủ
a chúng lên m
ộ
t (hay
nhi
ề
u) ch
ỉ
s
ố

ñầ
u ra.
ðể

u ki
ệ
n c
ụ
th
ể
n
ơ
i ti
ế
n hành thí nghi
ệ
m.
ðể
phân tích m
ộ
t nhân t
ố
,
thí nghi
ệ
m th
ườ
ng
ñượ
c thi
ế
t k
ế
theo ki

ừ
a, ô nh
ỏ
, ho
ặ
c k
ế
t h
ợ
p v
ừ
a chia b
ă
ng v
ừ
a chia ô. T
ừ
ba nhân t
ố

tr
ở
lên thì c
ầ
n b
ố
trí thí nghi
ệ
m sao cho m
ỗ

ố
li
ệ
u khi theo dõi
ả
nh h
ưở
ng c
ủ
a các m
ứ
c c
ủ
a nhân t
ố
t
ớ
i k
ế
t qu
ả
, nh
ư

ả
nh h
ưở
ng c
ủ
a các công th

ệ
nh
ðể
phân tích ph
ươ
ng sai m
ộ
t nhân t
ố
c
ầ
n thi
ế
t k
ế
thí nghi
ệ
m ki
ể
u hoàn toàn ng
ẫ
u
nhiên, m
ỗ
i m
ứ
c l
ặ
p l
ạ

t k
ế
thí nghi
ệ
m m
ộ
t nhân t
ố
hoàn toàn ng
ẫ
u nhiên (CRD). G
ọ
i k m
ứ
c c
ủ
a
nhân t
ố
hay k công th
ứ
c c
ầ
n ti
ế
n hành là T
1
, T
2
. . . , T

t gi
ố
ng lúa, nhân t
ố

ở

ñ
ây ch
ỉ
g
ồ
m m
ộ
t y
ế
u t
ố
có 11 m
ứ
c là 11 lo
ạ
i thu
ố
c nên k = 11. M
ỗ
i lo
ạ
i thu
ố

N
ế
u thí nghi
ệ
m 5 gi
ố
ng lúa và 11 lo
ạ
i thu
ố
c trên và ch
ỉ
xét tác
ñộ
ng chung c
ủ
a t
ổ
h
ợ
p
gi
ố
ng và thu
ố
c (G
i

×
P

n l
ặ
p) cho m
ỗ
i công th
ứ
c có th
ể
ch
ọ
n tu
ỳ

ý, không nh
ấ
t thi
ế
t ph
ả
i b
ằ
ng nhau.
Phân tích ph
ươ
ng sai m
ộ
t nhân t
ố

ñượ

ố
, nh
ằ
m tách bi
ệ
t các ph
ươ
ng
sai theo hai ngu
ồ
n bi
ế
n
ñộ
ng nhân t
ố
và sai s
ố
. V
ớ
i i = 1, 2, …, k, m
ỗ
i công th
ứ
c T
i
ñượ
c
th
ự

i v
ớ
i bi
ế
n ng
ẫ
u nhiên X
i
. D
ự
a vào k
ế
t qu
ả
th
ự
c nghi
ệ
m c
ầ
n
ñư
a ra suy
ñ
oán v
ề

vi
ệ
c các trung bình m

n kh
ả
o sát) hay là khác nhau. Có nhi
ề
u ki
ể
u thi
ế
t k
ế
thí nghi
ệ
m
ñể

gi
ả
i quy
ế
t bài toán này. Gi
ả
s
ử
nhân t
ố
có a m
ứ
c, m
ứ
c i

m hoàn
toàn ng
ẫ
u nhiên ta có thi
ế
t k
ế
thí nghi
ệ
m hoàn toàn ng
ẫ
u nhiên (completely randomized
design). Khi ti
ế
n hành thí nghi
ệ
m ki
ể
u này ph
ả
i dùng n phi
ế
u ghi t
ừ
1
ñế
n n, rút th
ă
m ng
ẫ

i công th
ứ
c 2, , n
k
ô cu
ố
i cùng là c
ủ
a công th
ứ
c k. Vi
ệ
c rút th
ă
m ng
ẫ
u
nhiên
ñượ
c th
ự
c hi
ệ
n trên toàn b
ộ
các ô thí nghi
ệ
m.
Vi
ệ

n l
ặ
p th
ứ
j c
ủ
a m
ứ
c i,
µ
là trung bình chung,
α
i
là
ả
nh h
ưở
ng
c
ủ
a m
ứ
c i c
ủ
a nhân t
ố
, còn e
ij

là sai s

p và tuân theo phân ph
ố
i chu
ẩ
n v
ớ
i k
ỳ
v
ọ
ng 0 và ph
ươ
ng sai
σ
2
.
Các
α
i

ñượ
c coi là tho
ả
mãn
ñ
i
ề
u ki
ệ
n

i m
ộ
t m
ứ
c c
ủ
a nhân t
ố
), ô
ñầ
u tiên ghi tên m
ứ
c, các ô ti
ế
p theo ghi s
ố
li
ệ
u. Ch
ọ
n Tools>
Data Analysis > Anova: Single Factor và khai báo:
- Input range: Khai báo mi
ề
n d
ữ
li
ệ
u vào (m
ộ

u theo hàng).
- Label in First column : nhãn hàng
ñầ
u.
- Alpha: 0.05 (m
ứ
c ý ngh
ĩ
a
α
).
- Output range: mi
ề
n ra.

b. Phân tích kết quả

- K
ế
t qu
ả
in ra g
ồ
m các th
ố
ng kê c
ơ
b
ả
n cho t

công th
ứ
c có tác
ñộ
ng khác nhau t
ớ
i k
ế
t qu
ả
, ng
ượ
c l
ạ
i các công th
ứ
c không có khác bi
ệ
t
ñ
áng k
ể
.
- N
ế
u k
ế
t lu
ậ
n các công th

Ví dụ 5:
Thí nghi
ệ
m
ả
nh h
ưở
ng c
ủ
a các lo
ạ
i thu
ố
c
ñế
n n
ă
ng su
ấ
t lúa (11 lo
ạ
i thu
ố
c là T1
ñế
n T11, 4 c
ộ
t s
ố
li

cho trong b
ả
ng I.3.
Bảng I.2. Ảnh hưởng của các loại thuốc ñến năng suất (ns) lúa
Lo
ạ
i thu
ố
c NS ô 1 NS ô 2 NS ô 3 NS ô 4
T1 3.187 4.61 3.562 3.217
T2 3.39 2.875 2.775
T3 2.797 3.001 2.505 3.49
T4 2.832 3.103 3.448 2.255
T5 2.233 2.743 2.727
T6 2.952 2.272 2.47
T7 2.858 2.895 2.458 1.723
T8 2.308 2.335 1.957
T9 2.013 1.788 2.248 2.115
T10 3.202 3.06 2.24 2.69
T11 1.192 1.652 1.075 1.03
OK

12

Hình I.9. Thực hiện phân tích phương sai một nhân tố trong Excel.

Bảng I.3. Kết quả phân tích phương sai

Groups Count Sum Average Variance
T 1 4 14.576 3.644 0.443686

ng I.3 ta k
ế
t lu
ậ
n các công th
ứ
c có tác
ñộ
ng khác nhau t
ớ
i n
ă
ng su
ấ
t lúa.
Gi
ả
i thích: Nh
ư

ñ
ã nói
ở
trên, phân tích ph
ươ
ng sai m
ộ
t nhân t
ố
tách bi

ạ
o nên là SST (sum of
squares treatment) =
( )
k
2
i i
i 1
n x x
=
−
∑
=
i i
2 2
n n
k k
ij i ij
i 1 j 1 i=1 j=1
x /n x /n
= =
   
−
   
   
∑ ∑ ∑∑
= 15.1039. Do ñó
tổng sai lệch trung bình giữa các nhóm là MSST = SST/ (k−1) = 15.1039/ 10 = 1.5139.
- Tổng sai lệch trong từng nhóm do các sai số e
ij

Với các giả thiết ñã nêu, có thể chứng minh ñược ñại lượng thống kê F =
MSSB/MSSE (ñối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,
n−k). Do ñó, nếu F thực nghiệm = 8.54171 > F lý thuyết = f (0.05; 10, 29) = 2.1768 thì giả
thuyết “các công thức sử dụng thuốc không ảnh hưởng tới năng suất (trung bình) của lúa”
bị bác bỏ ở mức ý nghĩa α = 0.05. ðiều này có nghĩa là các công thức sử dụng thuốc có tác
ñộng khác nhau tới năng suất lúa.
Ngoài ra, từ bảng I.3 có thể nhận xét rằng công thức T1 cho năng suất cao nhất.Tuy
nhiên, ñể kết luận chính xác hơn về ñiều này cần so sánh trung bình giữa các nhóm.
Bảng I.4. So sánh trung bình giữa các nhóm
Groups Count Sum Average
T1-Ti
T1 4 14.576

3.6440
T2 3 9.040 3.0133 0.6307
T3 4 11.793

2.9483 0.6958
T4 4 11.638

2.9095 0.7345
T10 4 11.192

2.7980 0.8460
T5 3 7.703 2.5677 1.0763
T6 3 7.694 2.5647 1.0793
T7 4 9.934 2.4835 1.1605
T8 3 6.600 2.2000 1.4440
T9 4 8.164 2.0410 1.6030
T11 4 4.949 1.2373 2.4068

là giá trị t của bảng Student ứng với mức ý nghĩa α và df bậc tự
do. t
α , df
có thể tìm ñược bằng cách tra bảng số hay bằng hàm TINV trong Excel.
Trong ví dụ 5, ñể so sánh ảnh hưởng của thuốc T1, T2 ñến năng suất lúa, trước hết
cần tính trị tuyệt ñối | m
1
- m
2
| của hiệu các năng suất trung bình m
1
, m
2
khi sử dụng 2 loại
thuốc trên (chính bằng 0.6307, xem bảng I.4). Ứng với t = t(0.05 , 29) = 2.045 (tra từ bảng
Student)có s
2
= 0.17682. LSD ñược tính cho các trường hợp r
i
, r
j
bằng 3 hoặc 4 như sau:
LSD= 2.045 × SQRT( 0.17682×(1/3+1/4) = 0.656739049;
LSD= 2.045 × SQRT( 0.17682×(1/4+1/4) = 0.608022212;
LSD= 2.045 × SQRT( 0.17682×(1/3+1/3) = 0.702083575.
Trong trường hợp tính ảnh hưởng của thuốc T1, T2 tới năng suất trung bình của lúa
ta có: | m
1
- m
2

Giả sử có k công thức,
mỗi công thức lặp lại r lần. Tất cả có n = k×r ô thí nghiệm. ðể tránh các tác ñộng của một
số yếu tố ngoại cảnh lên kết quả ñầu ra của một số công thức nào ñó, chúng ta cần bố trí
các ô thí nghiệm một cách hợp lý. Trong ñiều kiện không có ñủ n ô thí nghiệm ñồng ñều,
cần thiết kế thí nghiệm bằng cách chia thí nghiệm thành r khối với k ô trong mỗi khối
tương ñối ñồng ñều về mọi mặt sao cho các tác ñộng phụ không ảnh hưởng tới thí nghiệm.
Sau ñó, xét khối thứ nhất và làm k phiếu ñể bắt thăm xem k công thức xếp vào k ô nào.
Tiếp tục bắt thăm cho khối thứ hai, thứ ba, . . . cho tới khối thứ r.
Việc chia khối thí nghiệm nói chung phụ thuộc vào ñịa ñiểm thí nghiệm. Chẳng
hạn, cần chia khối thẳng góc với một hướng biến ñộng có ảnh hưởng ñến kết quả thí
nghiệm như hướng gió, hướng chảy của nước ngầm, hướng nắng, hướng dốc, hướng thay
ñổi của ñộ phì của ñất sao cho mỗi công thức có mặt một lần ở một mức của biến ñộng.
Việc chia khối thí nghiệm cũng có thể phụ thuộc vào thời gian tiến hành thí nghiệm với các
tác ñộng của thời tiết. Nếu mỗi ngày chỉ làm ñược k thí nghiệm và ta chỉ có r ngày ñể làm
tất cả các thí nghiệm, thì cần phải phân chia việc thực hiện các thí nghiệm ra r ngày, như
vậy ở ñây ngày là khối.
Một cái lợi nữa là trong thiết kế thí nghiệm RCBD có thể chọn khối khác nhau về
không gian hoặc khác nhau về thời gian (nhưng không ñược khác nhau quá xa ñến mức có
sự thay ñổi ñiều kiện thí nghiệm). Do ñó, kết luận rút ra có tính khái quát cao hơn khi so
v
ới kết luận ñạt ñược trong thiết kế thí nghiệm hoàn toàn ngẫu nhiên (tập trung toàn bộ các
thí nghiệm vào một nơi hay cùng một thời gian).

15

Việc tính toán và kết luận dựa trên mô hình: x
ij
= µ + α
i
+ β

r
j
j 1=
β
∑
= 0.
a. Các bước thực hiện
Khi phân tích phương sai hai nhân tố không tương tác, số liệu cần ñược sắp xếp
theo cách sau: hàng là các mức của nhân tố thứ nhất, cột là các mức của nhân tố thứ hai
(trong trường hợp cần phân tích phương sai một nhân tố bố trí kiểu khối ngẫu nhiên thì
hàng là các mức của nhân tố, cột là các khối ngẫu nhiên).
Chọn
Tools >Data Analysis >Anova: Two Factor Without Replication
sau ñó khai báo tiếp
các thông tin trong hình I.10 và kích OK.

Hình I.10. Hộp thoại khai báo ñể phân tích phương sai không tương tác
Ví dụ 6: Bố trí thí nghiệm phân tích nhân tố 1 (có bốn mức) theo khối hoàn toàn ngẫu
nhiên (nhân tố 2 có bốn khối), ta thu ñược các số liệu như trong bảng I.5.
Bảng I.5. Số liệu phân tích một nhân tố theo khối ngẫu nhiên
Khối 1 Khối 2 Khối 3 Khối 4
Mức 1 47 52 62 51
Mức 2 50 54 67 57
Mức 3 57 53 69 57
Mức 4 54 65 74 59
Kết quả thu ñược khi phân tích phương sai cho ở bảng I.6.

16
Rows 208 3 69.3333 8.91429 0.00465 3.86254
Columns 576 3 192 24.6857 0.00011 3.86254
Error 70 9 7.77778
Total 854 15

Giải thích: Phân tích phương sai hai nhân tố không tương tác tách biệt các phương
sai theo ba nguồn biến ñộng nhân tố A (khối), nhân tố B và sai số. Theo bảng I.6, ta có:
- Tổng sai lệch toàn phần là SSTO (total sum of squares) =
( )
k r
2
ij
i 1 j 1
x x
= =
−
∑∑
=
r k
2 2
ij
j=1 i=1
x nx
−
∑∑
= 854.
- T
ổ
ng sai l
ệ

ủa nhân tố A là MSSB = SSB/ (r−1) = 576/ 3 = 132.

17

- Tổng sai lệch do nhân tố B là SST (sum of squares due to treatment)
( )
k
2
i.
i 1
k x x
=
−
∑
=
2
k r
2
ij
i=1 j=1
1
x nx
r
 
−
 
 
∑ ∑
= 208. Do ñó tổng sai lệch trung bình giữa các nhóm
của nhân tố B là MSST = SST/ (k−1) = 208 / 3 = 69.3333.

theo cột (mỗi cột là một mức của nhân tố B, chẳng hạn như ñộ cao của ñịa ñiểm canh tác).
Trong thiết kế thí nghiệm theo ô vuông La tinh, số mức của nhân tố A bắt buộc bằng số
mức của nhân tố B và bằng k. Ngoài ra, số công thức cần tiến hành thí nghiệm (số mức của
nhân tố C) cũng bằng k. Thí nghiệm ñược thiết kế ngẫu nhiên sao cho tại mỗi tổ hợp (một
mức của nhân tố A, một mức của nhân tố B) có duy nhất một công thức thí nghiệm (một
mức của nhân tố C) ñược tiến hành. Như vậy thay vì số ô thí nghiệm là k
3
, trong thiết kế
thí nghiệm kiểu ô vuông La tinh chúng ta chỉ cần có k
2
ô thí nghiệm.
Các công thức tính SSTO (tổng sai lệch toàn phần), SSA , SSB, SSC và SSE (các
tổng sai lệch do các nhân tố A, B, C và sai số ngẫu nhiên) cũng ñược tính tương tự như các
công thức ñã biết trên ñây. Các tổng sai lệch này có các bậc tự do tương ứng là k
2
−1, k −1,
k − 1, k −1 và k
2
− 3k +2 (với k ≥ 4). Từ ñó tính ñược MSSA, MSSB, MSSC và MSSE.
Tiếp theo cần thiết lập các giá trị F thực nghiệm là: F
A
= MSSA/MSSE, F
B
=
MSSB/MSSE, F
C
= MSSC/MSSE ñể rút ra các suy ñoán thống kê tương ứng.
Sử dụng chức năng phân tích số liệu của Excel cũng có thể giúp xử lý ñược các số
liệu thu ñược khi thiết kế thí nghiệm theo kiểu ô vuông La tinh một cách nhanh chóng hơn.
Trước hết cần nhập số liệu của các ô vuông La tinh vào bảng tính Excel (giả sử các số liệu

−
 
 
∑ ∑
, trong ñó x
ijs
là các số liệu thu ñược khi
th
ực hiện công thức s, với s = 1, 2, …, k. Giả sử các số liệu ñược tổng hợp như tại bảng I.7.

18

Bảng I.7. Số liệu phân tích một nhân tố theo ô vuông La tinh
Các mức B1 B2 B3 B4
A1 47 (C3) 52 (C4) 62 (C1) 51 (C2)
A2 50 (C2) 54 (C3) 67 (C4) 57 (C1)
A3 57 (C1) 53 (C2) 69 (C3) 57 (C4)
A4 54 (C4) 65 (C1) 74 (C2) 59 (C3)
Lúc ñó, SSC = (241
2
+ 228
2
+ 229
2
+ 230
2
)/4 −(241 + 228 + 229 + 230)
2
/16 = 27.5.
Do ñó, SSE = SSTO − SSA − SSB − SSC = 854 − 208 − 576 − 27.5 = 42.5. Từ ñó tính

ñược xử lý một cách phù hợp nhằm rút ra các suy ñoán thống kê có ý nghĩa.

4.3.1 Thiết kế thí nghiệm trực giao
Trường hợp ñơn giản nhất của mô hình chéo nhau là yếu tố A có 2 mức A
1
và A
2
, yếu tố B
có 2 mức B
1
và B
2
. Các tổ hợp có thể của các mức yếu tố là:
Yếu tố B
Yếu tố A
B
1
B
2

A
1
A
1
B
1
A
1
B
2

, B
3
. Mỗi con bò cái sinh 4 con. Ta có sơ ñồ sau:

194.3.2 Thiết kế thí nghiệm phân cấp theo khối
Thường bố trí thí nghiệm theo khối, mỗi khối chia thành a ô lớn ñể bắt thăm cho a
mức của nhân tố A. Việc bắt thăm ñược thực hiện riêng rẽ cho từng khối. Mỗi ô lớn chia
thành b ô nhỏ ñể bắt thăm cho b mức của nhân tố B. Việc bắt thăm thực hiện riêng rẽ cho
từng ô lớn.
Thí dụ yếu tố A có 4 mức (A
1
, A
2
, A
3
và A
4
), yếu tố B có 2 mức (B
1
và B
2
). Ba mức
của yếu tố A ñược bố trí trên ô lớn trong 3 khối. Mỗi ô lớn chia nhỏ thành 2 ô nhỏ ñể bố trí
ngẫu nhiên các mức của yếu tố B. Sơ bố trí thí nghiệm có thể ñược trình bày như sau:
Khối 1 Khối 2 Khối 3
A
4

2
B
1
B
2
B
1
B
1
B
2
B
1
B
2
B
1

B
1
B
1
B
2
B
1
B
2
B
1

và nhân tố B có r mức là B
1
, B
2
, … B
r
. Số
công thức là k×r, mỗi công thức ñược lặp lại s lần. Như vậy chúng ta có tất cả k×r×s ô thí
nghiệm. Có thể thiết kế thí nghiệm trực giao theo kiểu ngẫu nhiên hoàn toàn (CRD) hoặc
theo kiểu khối ngẫu nhiên ñầy ñủ (RCBD). Trong trường hợp thứ nhất ta cần bắt thăm các
ô thí nghiệm ñể phân vào mỗi ô một công thức: trước hết bắt thăm ngẫu nhiên s ô ñể phân
công cho công thức thứ nhất, tiếp theo bắt thăm s ô ñể phân cho công thức thức 2, …, làm
như vậy cho tới công thức thứ k×r. Trong trường hợp thứ hai, ta cần bố trí ñủ s khối, mỗi
khối phải có ñủ k×r công thức ñược phân vào các ô một cách ngẫu nhiên.
Việc tính toán và kết luận dựa trên mô hình: x
ijq
= µ + α
i
+ β
j
+ (αβ)
ij
+ e
ijq
(i = 1,
…, k, j = 1, , r và q = 1, 2, …, s), với x
ijq
là kết quả của các mức i của nhân tố A, mức j
của nhân tố B và ô thí nghiệm thứ q, µ là trung bình chung, α
i

=
( )
k
ij
i=1
αβ
∑
=
( )
r
ij
j=1
αβ
∑
=0.
A 1 2 3 4

B 1 2 3 1 2 3 1 2 3 1 2 3

x
111
x
121
x
131
x
211
x
221
x

x
332
x
412
x
422
x
432

x
113
x
123
x
133
x
213
x
223
x
233
x
313
x
323
x
333
x
413
x

Sau khi tiến hành thí nghệm, số liệu thu ñược ñược sắp xếp như sau:
- Nhân tố A ñánh theo hàng với các mức khác nhau, nhân tố B ñánh theo cột với
các mức khác nhau.
- Mỗi mức của nhân tố A ñược dành s hàng (cho s lần lặp) còn mỗi mức của nhân
tố B ñược dành ñúng 1 cột.
- Tên mỗi mức của nhân tố A chỉ viết một lần trong s ô ở cột ñầu, còn tên các mức
của nhân tố B thì ghi ñầu ở mỗi cột trên hàng ñầu, kể từ cột thứ 2. Các ô từ hàng 2 cột 2 trở
ñi ghi kết quả của các lần lặp của các tổ tổ hợp mức.
- Bảng phân tích phương sai có 5 hàng: Hàng cho nhân tố A, hàng dành cho nhân tố
B, hàng cho tương tác A× B, hàng cho sai số và hàng Total. Giá trị F lý thuyết ñược tính ở
cột cuối, ta có thể kiểm tra qua hàm FINV (trong Excel). Cột P – value là xác suất tương
ứng với giá trị F thực nghiệm, nếu giá trị này nhỏ hơn alpha thì ta kết luận nhân tố (hoặc
tương tác) tương ứng có ảnh hưởng ñến kết quả thí nghiệm.
Muốn so sánh các trung bình ta làm như phân tích một nhân tố sau khi tìm giá trị t
bằng hàm TINV với số bậc tự do của sai số và căn cứ vào số lần lặp của các trung bình mà
ta muốn so sánh.
a. Các bước thực hiện
Chọn
Tools >Data Analysis >Anova: Two Factor With Replication
, sau ñó khai báo
các thông tin như trong hình I.12 và kích OK.
Ví dụ 7: Nghiên cứu ảnh hưởng của việc bón phân khoáng (nhân tố A) theo bốn công thức
và mật ñộ trồng (nhân tố B) gồm ba mức tới sản lượng bông ta có bảng số liệu (bảng I.8).
Bảng I.8. Năng suất bông (tạ/ha)
Mức 1 Mức 2 Mức 3
C.thức 1 14 15 19
15 17 19
16 19 18
21 18 17

0.5B
= 3.25944, nên tăng mật ñộ cây không hy vọng làm tăng
năng suất bông.
- F
AB
= 1.46684 < F
0.5AB
= 2.36375, nên ảnh hưởng ñồng thời của cả hai nhân tố
không tác ñộng ñáng kể tới năng suất bông.

Bảng I.9. Kết quả phân tích phương sai hai nhân tố tương tác
SUMMARY Mức 1 Mức 2 Mức 3 Total
Công thức 1 Count 4

4

4

12

Sum 66

69

4

1222

Sum 81

75

85

241

Average 20.25

18.75

21.25

20.08333

Variance 3.583333

0.916667

1.583333

2.810606

Variance 1.666667

0.916667

3

1.901515

Công thức 4 Count 4

4

4

12

Sum 83

82

93

258

Sum 312

313

333Average 19.5

19.5625

20.8125Variance 6.8

4.395833

5.095833
ANOVA
Source of

3.993056

1.466837

0.21725

2.363748

Within 98

36

2.722222 Total 261.9167

47

261.9167 (với n = k×r×s = 4×3×4 = 48).
- Tổng sai lệch do nhân tố A là SSA (sum of squares due to factor A) =
2
k r s
2
ijq
i 1 j 1 q=1
1
x nx
rs
= =
 
−
 
 
∑ ∑∑
= 122.4167. Do ñó tổng sai lệch trung bình giữa các nhóm của
nhân tố A là MSSA = SSA/ (k−1) =122.4167/ 3 = 40.80556.
- Tổng sai lệch do nhân tố B là SSB (sum of squares due to factor B) =
2
r k s
2
ijq
j 1 i 1 q=1
1
x nx
ks
= =
 
−

krs−kr). Do ñó, F
A
thực nghiệm =14.9898 > F
A
lý thuyết = f (0.05; 3, 6) = 2.866265 thì giả
thuyết “các mức của nhân tố A (các mức bón phân) không ảnh hưởng tới số trung bình
chung (sản lượng bông)” không ñược chấp nhận theo quy tắc kiểm ñịnh có mức ý nghĩa α
= 0.05. ðiều này có nghĩa là các mức bón phân khác nhau có tác ñộng khác nhau tới sản
lượng bông nói chung. Tương tự chúng ta có thế giải thích ñược rằng các mức mật ñộ cây
(nhân tố B) cũng như tác ñộng ñồng thời của A và B không ảnh hưởng ñáng kể tới năng
suất bông. 24

5. So sánh hai mẫu
Bài

toán ở ñây là cần so sánh hai mẫu thông qua việc kiểm ñịnh giả thuyết H
0
: m
1
=
m
2
(kỳ vọng của biến X bằng kỳ vọng của biến Y) với ñối thuyết H
1
: m
1
≠ m

σσ
σ
2
2

Rút mẫu ñộc lập từ hai tổng thể phân phối chuẩn, trong một số tình huống nào ñó
chúng ta có thể ước lượng ñược phương sai (thường xảy ra khi ñiều tra lại một tổng thể sau
một thời gian chưa lâu, nên phương sai chưa thay ñổi, do ñó lấy phương sai của lần ñiều tra
trước làm
σ
1
2

và
σ
2
2
, chẳng hạn khi xem xét các kết quả phân tích của hai phòng thí
nghiệm mà ñộ chính xác ñã ổn ñịnh, từ ñó có các ước lượng về phương sai).
a. Các bước thực hiện
Chọn
Tools >Data Analysis > z-Test: Two Sample for Means,
sau ñó lần lượt trả lời:

- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng ñầu của mẫu quan sát.
- Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng ñầu
của mẫu quan sát.
- Labels: Nếu cần thêm hàng ñầu về tên biến thì chọn mục này.
- Hypothesized means difference: Giả thuyết về hiệu hai trung bình của hai tổng

Bảng I.10. Kết quả so sánh hai mẫu ñộc lập
z-Test: Two Sample for Means
M
ẫ
u 1 M
ẫ
u 2
Mean 3.6 3.5
Known Variance

2.7 2.6
Observations 10 12
Hypothesized
Mean Difference

0
Z 0.14335
P(Z<=z) one-tail 0.44301
z Critical one-tail

1.64485
P(Z<=z) two-tail

0.88602
z Critical two-tail

1.95996

25

1
2
/n
1
+
σ
2
2
/n
2
)
- Giá trị P một phía và giá trị P hai phía.
- Giá trị z lý thuyết (tới hạn) một phía và hai phía.
Chú ý rằng,

có thể dùng một số hàm trong Excel ñể tính một số kết quả:
- Giá trị P một phía tính bằng hàm 1-Normsdist(z).
- Giá trị P hai phía tính bằng hàm (1-Normsdist(z))×2.
- Giá trị tới hạn của hàm phân phối chuẩn tắc z một phía tính bằng hàm
Normsinv(0.95).
- Giá trị z tới hạn hai phía tính bằng hàm Normsinv(0.975).
Trong ví dụ 8 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ hơn z lý thuyết (tới hạn)
một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía ñều
lớn hơn mức ý nghĩa α = 0.05). Kết luận: kỳ vọng của hai biến không khác nhau.

5.2. So sánh hai mẫu kiểu cặp ñôi
Ta xét thí dụ: lấy một ổ chim và cân trọng lượng chim cái, trọng lượng chim ñực ta
ñược hai mẫu quan sát của hai tổng thể chim cái và chim ñực. Nếu lấy một số chim ñực
ngẫu nhiên trong nhiều chim ñực và lấy một số chim cái ngẫu nhiên trong nhiều chim cái
thì có hai mẫu quan sát ñộc lập.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Giáo trình xử lý thống kê nông nghiệp - Pdf 11

Tài liệu, ebook tham khảo khác

Học thêm