Phân tích phương sai - Pdf 13

Phân tích phương sai
Phân tích phương sai là một trong những nội dung của thống kê phân tích. Nội dung cơ bản của
phân tích phương sai về mặt kĩ thuật là tìm cách phân chia tổng sai số bình phương của một
biến ngẫu nhiên X thành những bộ phận khác nhau, mà mỗi bộ phận này phản ánh tổng bình
phương sai số của X theo một đặc trưng nào đó. Đặc trưng được xác định tuỳ thuộc vào mục
đích nghiên cứu thống kê. Với phần này chúng ta sẽ bắt đầu bằng một phân tích đơn giản, sau
đó sẽ xem đến phân tích phương sai hai chiều, các phương pháp phi tham số thông dụng.
11.1. phân tích phương sai đơn giản (one-way analysis of variance- ANOVA)
Ví dụ 1. Bảng thống kê dưới đây đưa ra mật độ dân số 4 miền của một tỉnh. Đvt: ng/km2
qs F1(Bắc
)
F2(Nam
)
F3(Tây
)
F4( cậ
n Tây)
1 293 121 114 136
2 280 116 176 164
3 283 223 224 117
4 242 238 183 153
5 268 118 159 152
6 184 222 149 108
Câu hỏi đặt ra là mật độ dân số giữa 4 miền của một tỉnh có khác nhau hay không? Gọi giá trị
trung bình của cả bốn nhóm là α1, α2, α3 và α4 và bây giờ chúng ta phải đi kiểm định cặp giả
thiết:
KĐGT: Ho: α1 = α2 = α3 = α4
H1: có một khác biệt giữa 4 αj (j=1,2,3,4)
11.1.1

Mô

là

xij.

Mô

hình

phân

tích
phương sai phát biểu rằng:
x
ij

=
µ
+

αij
+
εij
[1]
Hay cụ thể hơn:
xi1 =
µ
+ α1 +
ε
i1

phương

sai

đơn

giản

với
R
Tất cả các tính toán trên tương đối rườm rà, và tốn khá nhiều thời gian.

Tuy nhiên với R,
các

tính

toán

đó

có

thể

làm

trong

vòng

với bộ số liệu “tr134.csv” chúng ta cần nhập dữ liệu vào R bằng
lệnh read.csv()
Ta thực hiện các lệnh trong R như sau:
Trong hàm  trên chúng ta cho R biết biến  là một hàm số của Gọi kết
quả phân tích là
(b) Kết quả phân tích phương sai. Bây giờ chúng ta dùng lệnh anova để biết kết quả
phân tích:
Trong kết quả có 3ba cột: ( Degrees of freedom) là bậc tự do; là tổng bình
phương( sum of squares), là trung bình bình phương ( mean square);  là
giá trị được tính ; và !" là trị số P liên quan đến kiểm định F.
Dòng  trong kết quả trên có nghĩa là bình phương giữa các nhóm (GSS) và
# là bình phương trong mỗi nhóm (WSS).
Trị số p=0.0005568 có nghĩa là tín hiệu cho thấy có sự khác biệt về mật độ dân số giừa
4 miền.
(c) Ước số. Để biết thêm chi tiết kết quả phân tích, chúng ta dùng lệnh như
sau:

Theo kết quả trên đây, intercept chính là µ-mũ=258.33 và sai số chuẩn là 17.20
Để ước tính thông số αj_mũ, R đặt α1_mũ =0, và α2-mũ= α2_mũ - α1_mũ = -85.33, với
sai số chuẩn là 24.32 và kiểm định t= -85.33/24.32=-3.509 với trị số p=0.00221. Nói
cách khác, so với nhóm 1(miền Bắc), mật độ dân số trung bình miền Nam thấp hơn, có
ý nghĩa thống kê.
Tương tự so với miền Bắc, mật độ đân số trung bình miền Tây ( p=0.00131) và Cận
Tây(p=8.00e-05) thấp hơn, có ya nghĩa thống kê.
11.2. So sánh nhiều nhóm ( multiple comparisons) và điều chỉnh trị số p.
Cho k

nhóm,chúngtacóítnhấtlà k(k-1)/2sosánh.

Vídụtrêncó4nhóm,cho

danh

tiếng).
Phươngphápnàothíchhợpnhất?

Khôngcócâutrảlờidứtkhoátchocâuhỏinày,nhưng
haiđiểmsauđâycóthểgiúpchúng ta quyếtđịnhtốthơn:
(a) Nếu k<10,chúngtacóthểápdụngbấtcứphươngphápnàođểđiều
chỉnhtrịsốp.

RiêngcánhântôithìthấyphươngphápTukeythường
rấthữuíchtrongsosánh.
(b) Nếu

k>10,phươngphápBonferronicóthểtrởnênrất“bảothủ”.

Bảo
thủởđâycónghĩalàphươngphápnàyrấtítkhinàotuyênbốmộtso
sánh

có

ý

nghĩa

thống

kê,


Chúngtacóthểdùnglệnhpairwise.t.testđểcóđượctấtcảcáctrịsốpso
sánhgiữabốn nhómnhưsau:
Kết quả trên cho thấy trị số p giữa nhóm 1( Bắc) và nhóm 2(Tây) là 0.01327( tức có ý nghĩa
thống kê); giữa nhóm 1 và 3 là 0.00784 (có ý nghĩa thống kê); nhóm 1 và 4 là 0.00048( có ý
nghĩa thống kê); còn giữa các nhóm 2 và3, 2 và 4, 3 và 4 đều là 1( tức không có ý nghĩa thống
kê)
Một phương pháp điều chỉnh trị số p khác có tên là Holm:
Kết quả này kũng không khác so với phương pháp Bonferroni.
Tất cả các phương pháp so sánh trên sử dụng một sai số chuẩn chung cho cả 4 nhóm. Nếu
chúng ta muốn sử dụng cho từng nhóm thì lệnh sau đây#$ sẽ đáp ứng yêu cầu đó:
Một lần nữa kết quả này cũng không làm thay đổi kết luận.
11.2.1. So sánh nhiều nhóm bằng phương pháp Tukey
Trong

các

phương

pháp

trên,

chúng

ta

chỉ

biết


Ta có biểu đồ trung bình biệu và khoảng tin cậy 95% giữa nhóm 1 và 2, 1 và 3, 1và 4, 2 và 3,
2 và 4, và cuối cùng là 3 và 4
Biểu đồ 11.1
11.3. Phân tích bằng phương pháp phi tham số
Phương

pháp

so

sánh

nhiều

nhóm phi

thamsố

(non-parametric

statistics)

tương
đươngvớiphươngphápphântíchphươngsailàKruskal-Wallis.

Cũngnhưphươngpháp
Wilcoxonsosánhhainhómtheophươngphápphithamsố,phươngphápKruskal-Wallis
cũngbiếnđổisốliệuthànhthứbậc(ranks)vàphântíchđộkhácbiệtthứbậcnàygiữacác
nhóm.



quả

như

các

phương
phápthốngkêthamsố(parametricstatistics).
11.4. Phân tích phương sai hai chiều( two-way analysis of variance-ANOVA)
Phântíchphươngsaiđơngiảnhaymộtchiềuchỉcómộtyếutố(factor).

Nhưng
phântíchphươngsaihaichiều(two-wayANOVA),nhưtêngọi,cóhaiyếutố.

Phương
pháp

phân

tích

phương

sai

hai

chiều


(a) Bước đầu tiên là nhập số liêu từ bảng trên vào R. Chúng ta cần phải tổ chức dữ liệu sao
cho có 4 biến như sau:
(
)*
+,

/0
)*
1
   
  2 
   
 2  
 2  
 2  3
  3 2
   
   3
2  4 
2   3
2  2 2
2 2  
2 2  
2 2  
2   3
2  3 
2   
   
  24 3
  2 

  2 
   
   
3   
3   
3  3 
3 2  
3 2  
3 2 4 
3   
3  2 
3   
   
   
   2
 2 3 
 2  
 2  
  34 3
  3 
  32 2
  3 3
  3 
  3 
 2 3 
 2 33 
 2 3 
  3 
  4 2
   

ta có bằng chứng để kết luận rằng ảnh hưởng tương tác giữa loại máy và công nhân không có ý
nghĩa thống kê. Vậy chấp nhận mô hính ban đầu, tức không có tương tác.
(e) So sánh giữa các nhóm. Chúng ta sẽ ước tính độ khác biệt giữa 10 loại máy và 3 công nhân
bằng hàm %&' với  K
Biểu đồ sau đay sẽ minh hoạ cho các kết quả trên
Biểu đồ 11.2
(f) Biểu đồ. Để xem qua độ ảnh hưởng của hai yêu tố máy và công nhân, chúng ta càn phải có
một đò thị, mà trong phân tích phương sai gọi là đồ thị tương tác. Hàm interaction.plot cung cấp
phương tiện để vẽ biểu đồ này:
Biểu đồ 11.3 Công suất trung bình cho từng loại máy cho 3 công nhân.
12
Phân

tích

hồi

qui

logistic
Trongcácchươngtrướcvềphântíchhồiquituyếntínhvàphântíchphươngsai,
chúng

ta

tìm

mô

hình

liên

tục.

Chúng

ta

cũngmuốn

tìm

hiểu

mối

liên

hệ

giữa

các

biến

độc

lập


odds (cũng có thể gọi là tỷ số OR – cho biết khả năng của một biến cố xảy ra bằng bao nhiêu lần
sô với khả năng biến cố không xảy ra.

Hàm logit của odds được định nghĩa như sau:
Mối liên hệ giữa p và logit(p) là một mối liên hệ liên tục và theo dạng như sau:
Biểu đồ 12.1
Biểu đồ trên được vẽ bằng các lệnh:
Cho một biêns độc lập x( x có thể là biến liên tục hay không liên tục), mô hình hồi qui logistic
phát biểu rằng:
Tương tự như mô hình hôi qui tuyến tính, α và β là hai thông số tuyến tính cần phải ước tính từ
dữ liệu nghiên cứu. Nhưng ý nghĩa của thông số này, đặc biệt là thông số β, rất khác với ý nghĩa
mà ta đã quen với mô hình hồi qui tuyến tính. Để hiểu ý nghĩa của hai thông số này, quay lại ví
dụ 1 ta có.
Để tiện cho việc minh hoạ gọi incom là x, vấn đề cần giải quyết được viết lại theo ngôn ngữ mô
hình như sau:
Nói cách khác
Mô hình hồi qui logistic vừa trình bày ở trên phát biểu rằng mối quan hệ giữa xác suất vỡ nợ (p)
và thu nhập income là một mối liên hệ theo hình chữ S. mô hình trên còn cho thấy xác suất vỡ nợ
tuỳ thuộc vào giá trị của x. Từ đó ta có thể viết lại thành:
Khi x = xₒ, khả năng vỡ nợ của khách hàng là:
Khi x = xₒ +1, khả năng vỡ nợ là :

Và tỉ số của 2 xác suất vỡ nợ trên là:
Để ước tính thông số trong mô hình [3] thì chúng ta có thể sử dụng phương pháp hợp lí cực
đại( maximum likelihood).
12.2 Phân tích hồi quy logistic bằng R
Ví dụ 1( tiếp). Trước hết chúng ta phải nhập tệp leha.csv vào Rvà chuyển đổi nó thành một Data
frame với cái tên vd. Các lệnh cần thiết để nhập số liệu:
Hai biến mà chúng ta quan tâm trong ví dụ này là: default.int(không trả được lãi đúng hạn) và
income( thu nhập). R có thể kiểm tra xem có bao nhiêu khách hàng không trả được lãi đúng hạn:

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Phân tích phương sai - Pdf 13

Tài liệu, ebook tham khảo khác

Học thêm