Phân tích phương sai
Phân tích phương sai là một trong những nội dung của thống kê phân tích. Nội dung cơ bản của
phân tích phương sai về mặt kĩ thuật là tìm cách phân chia tổng sai số bình phương của một
biến ngẫu nhiên X thành những bộ phận khác nhau, mà mỗi bộ phận này phản ánh tổng bình
phương sai số của X theo một đặc trưng nào đó. Đặc trưng được xác định tuỳ thuộc vào mục
đích nghiên cứu thống kê. Với phần này chúng ta sẽ bắt đầu bằng một phân tích đơn giản, sau
đó sẽ xem đến phân tích phương sai hai chiều, các phương pháp phi tham số thông dụng.
11.1. phân tích phương sai đơn giản (one-way analysis of variance- ANOVA)
Ví dụ 1. Bảng thống kê dưới đây đưa ra mật độ dân số 4 miền của một tỉnh. Đvt: ng/km2
qs F1(Bắc
)
F2(Nam
)
F3(Tây
)
F4( cậ
n Tây)
1 293 121 114 136
2 280 116 176 164
3 283 223 224 117
4 242 238 183 153
5 268 118 159 152
6 184 222 149 108
Câu hỏi đặt ra là mật độ dân số giữa 4 miền của một tỉnh có khác nhau hay không? Gọi giá trị
trung bình của cả bốn nhóm là α1, α2, α3 và α4 và bây giờ chúng ta phải đi kiểm định cặp giả
thiết:
KĐGT: Ho: α1 = α2 = α3 = α4
H1: có một khác biệt giữa 4 αj (j=1,2,3,4)
11.1.1
Mô
là
xij.
Mô
hình
phân
tích
phương sai phát biểu rằng:
x
ij
=
µ
+
αij
+
εij
[1]
Hay cụ thể hơn:
xi1 =
µ
+ α1 +
ε
i1
phương
sai
đơn
giản
với
R
Tất cả các tính toán trên tương đối rườm rà, và tốn khá nhiều thời gian.
Tuy nhiên với R,
các
tính
toán
đó
có
thể
làm
trong
vòng
với bộ số liệu “tr134.csv” chúng ta cần nhập dữ liệu vào R bằng
lệnh read.csv()
Ta thực hiện các lệnh trong R như sau:
Trong hàm trên chúng ta cho R biết biến là một hàm số của Gọi kết
quả phân tích là
(b) Kết quả phân tích phương sai. Bây giờ chúng ta dùng lệnh anova để biết kết quả
phân tích:
Trong kết quả có 3ba cột: ( Degrees of freedom) là bậc tự do; là tổng bình
phương( sum of squares), là trung bình bình phương ( mean square); là
giá trị được tính ; và !" là trị số P liên quan đến kiểm định F.
Dòng trong kết quả trên có nghĩa là bình phương giữa các nhóm (GSS) và
# là bình phương trong mỗi nhóm (WSS).
Trị số p=0.0005568 có nghĩa là tín hiệu cho thấy có sự khác biệt về mật độ dân số giừa
4 miền.
(c) Ước số. Để biết thêm chi tiết kết quả phân tích, chúng ta dùng lệnh như
sau:
Theo kết quả trên đây, intercept chính là µ-mũ=258.33 và sai số chuẩn là 17.20
Để ước tính thông số αj_mũ, R đặt α1_mũ =0, và α2-mũ= α2_mũ - α1_mũ = -85.33, với
sai số chuẩn là 24.32 và kiểm định t= -85.33/24.32=-3.509 với trị số p=0.00221. Nói
cách khác, so với nhóm 1(miền Bắc), mật độ dân số trung bình miền Nam thấp hơn, có
ý nghĩa thống kê.
Tương tự so với miền Bắc, mật độ đân số trung bình miền Tây ( p=0.00131) và Cận
Tây(p=8.00e-05) thấp hơn, có ya nghĩa thống kê.
11.2. So sánh nhiều nhóm ( multiple comparisons) và điều chỉnh trị số p.
Cho k
nhóm,chúngtacóítnhấtlà k(k-1)/2sosánh.
Vídụtrêncó4nhóm,cho
danh
tiếng).
Phươngphápnàothíchhợpnhất?
Khôngcócâutrảlờidứtkhoátchocâuhỏinày,nhưng
haiđiểmsauđâycóthểgiúpchúng ta quyếtđịnhtốthơn:
(a) Nếu k<10,chúngtacóthểápdụngbấtcứphươngphápnàođểđiều
chỉnhtrịsốp.
RiêngcánhântôithìthấyphươngphápTukeythường
rấthữuíchtrongsosánh.
(b) Nếu
k>10,phươngphápBonferronicóthểtrởnênrất“bảothủ”.
Bảo
thủởđâycónghĩalàphươngphápnàyrấtítkhinàotuyênbốmộtso
sánh
có
ý
nghĩa
thống
kê,
Chúngtacóthểdùnglệnhpairwise.t.testđểcóđượctấtcảcáctrịsốpso
sánhgiữabốn nhómnhưsau:
Kết quả trên cho thấy trị số p giữa nhóm 1( Bắc) và nhóm 2(Tây) là 0.01327( tức có ý nghĩa
thống kê); giữa nhóm 1 và 3 là 0.00784 (có ý nghĩa thống kê); nhóm 1 và 4 là 0.00048( có ý
nghĩa thống kê); còn giữa các nhóm 2 và3, 2 và 4, 3 và 4 đều là 1( tức không có ý nghĩa thống
kê)
Một phương pháp điều chỉnh trị số p khác có tên là Holm:
Kết quả này kũng không khác so với phương pháp Bonferroni.
Tất cả các phương pháp so sánh trên sử dụng một sai số chuẩn chung cho cả 4 nhóm. Nếu
chúng ta muốn sử dụng cho từng nhóm thì lệnh sau đây#$ sẽ đáp ứng yêu cầu đó:
Một lần nữa kết quả này cũng không làm thay đổi kết luận.
11.2.1. So sánh nhiều nhóm bằng phương pháp Tukey
Trong
các
phương
pháp
trên,
chúng
ta
chỉ
biết
Ta có biểu đồ trung bình biệu và khoảng tin cậy 95% giữa nhóm 1 và 2, 1 và 3, 1và 4, 2 và 3,
2 và 4, và cuối cùng là 3 và 4
Biểu đồ 11.1
11.3. Phân tích bằng phương pháp phi tham số
Phương
pháp
so
sánh
nhiều
nhóm phi
thamsố
(non-parametric
statistics)
tương
đươngvớiphươngphápphântíchphươngsailàKruskal-Wallis.
Cũngnhưphươngpháp
Wilcoxonsosánhhainhómtheophươngphápphithamsố,phươngphápKruskal-Wallis
cũngbiếnđổisốliệuthànhthứbậc(ranks)vàphântíchđộkhácbiệtthứbậcnàygiữacác
nhóm.
quả
như
các
phương
phápthốngkêthamsố(parametricstatistics).
11.4. Phân tích phương sai hai chiều( two-way analysis of variance-ANOVA)
Phântíchphươngsaiđơngiảnhaymộtchiềuchỉcómộtyếutố(factor).
Nhưng
phântíchphươngsaihaichiều(two-wayANOVA),nhưtêngọi,cóhaiyếutố.
Phương
pháp
phân
tích
phương
sai
hai
chiều
(a) Bước đầu tiên là nhập số liêu từ bảng trên vào R. Chúng ta cần phải tổ chức dữ liệu sao
cho có 4 biến như sau:
(
)*
+,
/0
)*
1
2
2
2
2 3
3 2
3
2 4
2 3
2 2 2
2 2
2 2
2 2
2 3
2 3
2
24 3
2
2
3
3
3 3
3 2
3 2
3 2 4
3
3 2
3
2
2 3
2
2
34 3
3
32 2
3 3
3
3
2 3
2 33
2 3
3
4 2
ta có bằng chứng để kết luận rằng ảnh hưởng tương tác giữa loại máy và công nhân không có ý
nghĩa thống kê. Vậy chấp nhận mô hính ban đầu, tức không có tương tác.
(e) So sánh giữa các nhóm. Chúng ta sẽ ước tính độ khác biệt giữa 10 loại máy và 3 công nhân
bằng hàm %&' với K
Biểu đồ sau đay sẽ minh hoạ cho các kết quả trên
Biểu đồ 11.2
(f) Biểu đồ. Để xem qua độ ảnh hưởng của hai yêu tố máy và công nhân, chúng ta càn phải có
một đò thị, mà trong phân tích phương sai gọi là đồ thị tương tác. Hàm interaction.plot cung cấp
phương tiện để vẽ biểu đồ này:
Biểu đồ 11.3 Công suất trung bình cho từng loại máy cho 3 công nhân.
12
Phân
tích
hồi
qui
logistic
Trongcácchươngtrướcvềphântíchhồiquituyếntínhvàphântíchphươngsai,
chúng
ta
tìm
mô
hình
liên
tục.
Chúng
ta
cũngmuốn
tìm
hiểu
mối
liên
hệ
giữa
các
biến
độc
lập
odds (cũng có thể gọi là tỷ số OR – cho biết khả năng của một biến cố xảy ra bằng bao nhiêu lần
sô với khả năng biến cố không xảy ra.
Hàm logit của odds được định nghĩa như sau:
Mối liên hệ giữa p và logit(p) là một mối liên hệ liên tục và theo dạng như sau:
Biểu đồ 12.1
Biểu đồ trên được vẽ bằng các lệnh:
Cho một biêns độc lập x( x có thể là biến liên tục hay không liên tục), mô hình hồi qui logistic
phát biểu rằng:
Tương tự như mô hình hôi qui tuyến tính, α và β là hai thông số tuyến tính cần phải ước tính từ
dữ liệu nghiên cứu. Nhưng ý nghĩa của thông số này, đặc biệt là thông số β, rất khác với ý nghĩa
mà ta đã quen với mô hình hồi qui tuyến tính. Để hiểu ý nghĩa của hai thông số này, quay lại ví
dụ 1 ta có.
Để tiện cho việc minh hoạ gọi incom là x, vấn đề cần giải quyết được viết lại theo ngôn ngữ mô
hình như sau:
Nói cách khác
Mô hình hồi qui logistic vừa trình bày ở trên phát biểu rằng mối quan hệ giữa xác suất vỡ nợ (p)
và thu nhập income là một mối liên hệ theo hình chữ S. mô hình trên còn cho thấy xác suất vỡ nợ
tuỳ thuộc vào giá trị của x. Từ đó ta có thể viết lại thành:
Khi x = xₒ, khả năng vỡ nợ của khách hàng là:
Khi x = xₒ +1, khả năng vỡ nợ là :
Và tỉ số của 2 xác suất vỡ nợ trên là:
Để ước tính thông số trong mô hình [3] thì chúng ta có thể sử dụng phương pháp hợp lí cực
đại( maximum likelihood).
12.2 Phân tích hồi quy logistic bằng R
Ví dụ 1( tiếp). Trước hết chúng ta phải nhập tệp leha.csv vào Rvà chuyển đổi nó thành một Data
frame với cái tên vd. Các lệnh cần thiết để nhập số liệu:
Hai biến mà chúng ta quan tâm trong ví dụ này là: default.int(không trả được lãi đúng hạn) và
income( thu nhập). R có thể kiểm tra xem có bao nhiêu khách hàng không trả được lãi đúng hạn: