LÝ THUYẾT
XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC
Phan Văn Tân
Bộ mô Khí tượng
CHƯƠNG 7. KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
• Xét hai chuỗi số liệu: Áp suất khí
quyển (khí áp) và nhiệt độ không khí
• Sự khác nhau giữa các thành phần
trong từng chuỗi:
– Giá trị nhận được giữa các lần đo
là khác nhau
– Mang tính ngẫu nhiên
• Sự khác nhau giữa các thành phần hai
chuỗi:
– Khí áp khác với Nhiệt độ
– Là bản chất
Ps (mb)
T(oC)
1003.5
15.0
1000.7
19.9
17.7
996.8
17.3
1003.3
15.8
CHƯƠNG 7. KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
• Khi nghiên cứu một hiện tượng nào đó thường nảy sinh vấn đề nghi
hoặc:
– giữa cái "thật" và cái "giả",
– giữa "đúng" và "sai",
– giữa cái "bản chất“ và "ngẫu nhiên"
• Chẳng hạn, sau khi xem xét chuỗi số liệu lượng mưa ta phát hiện ra
rằng "hình như kể từ khi thay đổi vị trí trạm, lượng mưa có dấu hiệu
tăng lên so với trước?"
– Điều nghi ngờ đó có đúng hay không?
– Dấu hiệu lượng mưa tăng lên sau khi thay đổi vị trí trạm là bản
chất hay chỉ là ngẫu nhiên?
• Để giải quyết mối nghi ngờ đó ta nêu ra giả thiết "lượng mưa tăng lên
kể từ khi thay đổi vị trí trạm" và tiến hành kiểm nghiệm nó
• Ngược lại với giả thiết này là đối thiết "lượng mưa không tăng lên"
CHƯƠNG 7. KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
Các loại sai lầm:
• Khi kiểm nghiệm giả thiết thống kê, chỉ dựa vào một lần thực nghiệm
là tập mẫu (X1, X2,..., Xn), do đó những kết luận đưa ra có thể phạm
phải sai lầm
• Có hai loại sai lầm:
– Sai lầm loại I: Là sai lầm bác bỏ giả thiết Ho khi giả thiết này đúng
– Sai lầm loại II: Là sai lầm chấp nhận giả thiết Ho khi giả thiết này
sai
• α = P( Ho/Ho) (Bác bỏ Ho khi Ho đúng)
• β = P(Ho/ H o) (Chấp nhận Ho khi Ho sai)
• Quan hệ giữa α và β là ngược nhau: α giảm thì β tăng và ngược lại.
• Dung lượng mẫu n càng lớn, giá trị của α và β càng nhỏ
CHƯƠNG 7. KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
Các loại sai lầm:
• Với dung lượng mẫu n cố định, ta cố gắng lựa chọn một chỉ tiêu thích
hợp sao cho có thể loại trừ được cả hai loại sai lầm càng nhiều càng tốt.
• Tuy nhiên ta không thể cực tiểu hoá đồng thời cả α và β, vì chúng liên
hệ với nhau bởi các hệ thức
P( H 0 / H o ) + P( H o / H o ) = 1
P( H 0 / H 0 ) + P( H o / H 0 ) = 1
CHƯƠNG 7. KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
• Không gian mẫu D bây giờ là toàn bộ hoặc một phần của trục số, trên đó
xác định hai miền Do và D1 bởi giá trị giới hạn d
• x* thuộc Do hay D1 là tùy thuộc vào giá trị của d
Do
Do
x*
d
d
D1
d
D1 = {-∞; -d} ∪ {d;+∞}
CHƯƠNG 7. KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
Miền thừa nhận và miền loại bỏ:
• Với xác suất phạm sai lầm
loại 1 bằng α ta có:
P( D1 / H 0 ) = P( X ∈ D1 / H 0 ) =
∫ f ( s)ds = α
D1
∫ f (x / H
∫ f (x / H
0
)dx = α
d
+d
P( X ∈ D0 / H 0 ) =
)dx +
0
)dx = 1 − α
−d
0.2
0.1
0
-6
-4
-2
Ý nghĩa: X ≠ μ0 hay μ ≠ μ0
CHƯƠN G 7. KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
1. Qui tắc phân bố chuẩn:
• Lập biến mới: u = X − μ0
σ/ n
d
uα =
σ/ n
⇒ P(| X − μ0 |≥ d ) = P(| u |≥ uα ) = α
N hư đã biết, vì X ∈ N ( μ ,
σ
)
n
nên khi H0 đúng biến u có phân bố chuNn chuNn hóa, u∈N(0,1)
Do đó, nếu biết trước α ta có thể tính được uα từ phương trình:
uα
1
− x2
1
2
P(| u |< uα ) =
1
1 n
μ x ≈ X = ∑ X i , μ y ≈ Y = ∑ Yi
n1 i =1
n2 i =1
Và đưa giả thiết H0 về dạng tương đương:
H0 : X = Y
Khi đó, nếu H0 đúng ta có xác suất phạm sai lầm loại 1 là
1
P(| X − Y |≥ d ) = α
2
CHƯƠN G 7. KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
1. Qui tắc phân bố chuẩn:
• Vì khi H0 đúng thì:
X −Y
Î Lập biến mới u =
σ
2
x
+
σ
P(| u |< uα ) =
e dx =1 − α
∫
2π −uα
Và đưa ra kết luận: |u| ≥ uα : Bác bỏ H0, tức μx ≠ μy
|u| < uα : Chấp nhận H0, tức μx = μy
)
CHƯƠN G 7. KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
2. Qui tắc Student:
• Bài toán 1: Cho biến ngẫu nhiên có phân bố chuNn N (μ,σ) với σ
chưa biết, và (X1,…,Xn) là một mẫu của X. Hãy kiểm nghiệm sự
bằng nhau của μ với số μ0 cho trước.
• Giải:
Đặt giả thiết kiểm nghiệm H0: μ=μ0
1 n
Vì μ chưa biết nên thay μ bằng ước lượng μ ≈ X = ∑ X i
n i =1
Và đưa giả thiết H0 về dạng tương đương:
H 0 : X = μ0
Khi đó, nếu H0 đúng ta có xác suất phạm sai lầm loại 1 là
P(| X − μ0 |≥ d ) = α
CHƯƠN G 7. KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
P (| t |< tα ) =
tα
∫ f ( x, n − 1)dx =1 − α
−tα
f(x,n–1) là hàm mật độ phân bố
Student với n–1 bậc tự do
Và đưa ra kết luận: |t| ≥ tα : Bác bỏ H0, tức μ ≠ μ0
|t| < tα : Chấp nhận H0, tức μ = μ0
CHƯƠN G 7. KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
2. Qui tắc Student:
• Bài toán 2: Cho hai biến ngẫu nhiên có phân bố chuNn
X∈N (μx,σx) và Y∈N (μy,σy) với σx và σy chưa biết, (X1,…,Xn1)
và (Y1,…,Yn2) là các mẫu tương ứng của X và Y. Hãy kiểm
nghiệm sự bằng nhau của μx và μy.
• Giải: Đặt giả thiết kiểm nghiệm H0: μx=μy
Vì μx và μy chưa biết nên thay chúng bằng các
ước lượng
n
1
1 n
μ x ≈ X = ∑ X i , μ y ≈ Y = ∑ Yi
n1 i =1
t=
, tα =
A
A
n1
1
*2
2
sx =
(
X
−
X
)
∑ i
n1 − 1 i =1
*2
sy
1 n2
2
=
(
Y
−
Y
)
∑ i
n2 − 1 i =1
Vì σx và σy chưa biết nên thay chúng bằng các ước lượng
n1
n2
2
1
1
2
2
2
*
(
)
,
σ x2 ≈ sx =
X
−
X
σ
≈
s
=
(
Y
−
Y
)
∑ i
∑ i
y
y
*2
x
*2
y
Khi đó, nếu H0 đúng thì biến f có phân bố Fisher (phân bố F) với
n1-1 và n2-1 bậc tự do: f ∈ F ( n1 − 1, n2 − 1)
Và xác suất phạm sai lầm loại 1 là:
P ( f ≥ fα ) = α
Khi cho trước α có thể xác định được fα từ phương trình:
P ( f < fα ) =
fα
∫
0
f(x,n –1,n –1) là hàm mật độ phân
f ( x, n1 − 1, n2 − 1)dx =1 − α bố F 1với n2 –1,n –1 bậc tự do
1
2
Và đưa ra kết luận: f ≥ fα : Bác bỏ H0, tức σ x2 ≠ σ y2
f < fα : Chấp nhận H0, tức σ x = σ y
2
• B3. Từ phân bố lý thuyết F(x,θ) đã biết, tính xác suất rơi vào các
khoảng: p j = P( X ∈ S j ), j = 1,..., k
Khi đó các npj (j=1,…,k) được gọi là tần số lý thuyết rơi vào Sj
Hiệu (mj – npj) phản ánh sự sai lệch giữa thực nghiệm và lý thuyết
2
k
(
−
)
m
np
• B4. Lập biến mới:
j
η=∑ j
np j
j =1
CHƯƠN G 7. KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
4.Qui tắc χ2:
N gười ta đã chứng minh được biến η có phân bố χ2 với (k–r–1)
bậc tự do (p là số tham số của phân bố):
η ∈ χ 2 ( k − r − 1)
Khi H0 đúng, ta có xác suất phạm sai lầm loại 1 là: P (η ≥ ηα ) = α
• B5. Chọn giá trị α và tính ηα từ hệ thức:
P (η < ηα ) =