sử dụng hàm h vào thống kê nhiều chiều và ứng dụng - Pdf 32

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP. HỒ CHÍ MINH

Dương Thanh Phong

SỬ DỤNG HÀM H VÀO THỐNG
KÊ NHIỀU CHIỀU VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ TOÁN HỌC

Tp.Hồ Chí Minh – 2011

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP. HỒ CHÍ MINH

Dương Thanh Phong

SỬ DỤNG HÀM H VÀO THỐNG KÊ
NHIỀU CHIỀU VÀ ỨNG DỤNG

Chuyên ngành : Toán Giải Tích
Mã số : 60 46 01

LUẬN VĂN THẠC SĨ TOÁN HỌC
Người hướng dẫn khoa học:
GS.TS. Đặng Đức Trọng
Tp.Hồ Chí Minh – 2011

Mục Lục

4.4.TIÊU CHUẩN KIểM ĐịNH CÁC PHÂN PHốI LÀ CÙNG KÌ VọNG VÀ HIệP PHƯƠNG SAI.
............................................................................................................................. 74

KẾT LUẬN ........................................................................................77
TÀI LIỆU THAM KHẢO ................................................................78

MỞ ĐẦU
Năm 1961, nhà toán học Fox đã đưa ra định nghĩa về hàm H- là trường hợp tổng
quát của rất nhiều loại hàm.
Từ thời gian này cho đến nay, có rất nhiều nhà toán học đã phát triển lý thuyết về
hàm H, các phép biến đổi tích phân của hàm H (chẳng hạn, Kilbas và Saigo) và ứng dụng
của nó ( chẳng hạn, Mathai và Saxena).
Một hướng ứng dụng của lý thuyết hàm H là lĩnh vực thống kê. Đi đầu trong
hướng ứng dụng này phải nhắc đến Mathai và Saxena, trong quyển sách chuyên khảo
Generalized Hypergeometric Function with Application in Statistics and Physical
Sciences xuất bản 1973, hai ông đã sử dụng công cụ hàm H để tìm hàm mật độ của nhiều
bài toán kiểm định trong thống kê nhiều chiều. Đến năm 2010, trong quyển sách chuyên
khảo The H- Function, Theory and Applications, MaThai, Saxena và Haubold đã khái
quát nhiều cấu trúc tổng quát và biểu diễn hàm mật độ dưới dạng hàm H như tích và tỉ số
của nhiều phân phối Gamma độc lập, tích và tỉ số của các phân phối độc lập thuộc loại
Beta loại I và Beta loại II. Ngoài ra, trong năm 2008 và 2009, GS. Phạm Gia Thụ đã có
hàng loạt các bài báo về ứng dụng của hàm H trong thống kê như: Exact distribution of
the generalized Wilks’s statistic and application hay (viết cùng GS. Turkan) Testing the
equality of several covariance matrices,và Testing sphericity using small samples,….
Quan tâm đến hướng ứng dụng của hàm H vào thống kê, với đề tài Sử dụng hàm
H vào thống kê nhiều chiều và ứng dụng. Chúng tôi muốn trình bày một cách chi tiết về
một phần lý thuyết của hàm H và một số ứng dụng của hàm H vào trong thống kê, trong
đó bao gồm thống kê Wilks và bài toán tìm hàm mật độ của một số kiểm định giả thuyết
trong thống kê nhiều chiều.

của các Thầy trong khoa Toán – Tin, đại học
Sư Phạm TP.HCM. Cuối cùng, tôi xin vô cùng
cám ơn gia đình và những người thân đã tạo
mọi điều kiện tốt cho quá trình học tập của tôi
trong 2 năm qua.

iii

Chương 1: KIẾN THỨC CHUẨN BỊ

Chương 1 trình bày một số kiến thức có liên quan đến luận văn, trong đó một
phần về kiến thức giải tích bao gồm hàm Gamma, phép biến đổi Mellin. Phần còn lại
là các kiến thức về thống kê nhiều chiều mà trọng tâm là phân phối chuẩn của vector
và những kết quả về ước lượng tham số trong thống kê nhiều chiều. Những định
nghĩa, tính chất, định lý,… của chương này sẽ được sử dụng trong các chương sau.

1.1.Hàm Gamma 𝚪 phức.

Định nghĩa 1.1.

∞

Γ(s) = � e−t t s−1 dt , Re(s) > 0.
0

Sự tồn tại của tích phân bên vế phải (1.1) được chứng minh trong [2].
Tính chất 1.2.
i) 𝛤 (1) = 1,

� , 𝑚 = 1,2, …,

(−1)𝑘
, 𝑘 = 0, 1, 2, 3, …,
𝑘!

(1.1)

vi) Công thức tiệm cận tại ∞ của hàm Gamma (công thức Stirling)
1

1

𝑙𝑛𝛤 (𝑠) = �𝑠 − � 𝑙𝑛𝑠 − 𝑠 + 𝑙𝑛2𝜋 + 𝑂(𝑠 −1 ) ; |𝑎𝑟𝑔𝑠| < 𝜋, |𝑠| → ∞.
2

2

(1.2)

Với kí hiệu Landau O được định nghĩa như sau
Định nghĩa 1.3. Ta nói 𝑓 (𝑠) = 𝑂�𝑔(𝑠)�, 𝑠 → 𝑠0 nếu tồn tại hằng số M > 0 sao cho
|f(s)| ≤ M|g(s)| với |s − s0 | → 0.

1.2.Phép biến đổi Mellin.

Định nghĩa 1.4. Phép biến đổi Mellin của một hàm khả tích địa phương f(x) trên
(0, ∞) được định nghĩa là

(1.4)

được gọi là công thức phép biến đổi Mellin ngược của phép biến đổi Mellin (1.3).
Ví dụ 1.6.

∞

Γ(s) = � e−x x s−1 dx, Re(s) > 0.
0

Do đó M[e−x ; s] = Γ(s).

Định lý 1.7. Cho 𝑘 là một số thực, 𝑥 𝑘 𝑓 (𝑥), 𝑥 𝑘 𝑔(𝑥) ∈ 𝐿1 (0, ∞), đặt
∞

𝑥 1
ℎ(𝑥) = � 𝑓 (𝑦)𝑔 � � 𝑑𝑦,
𝑦 𝑦
0

khi đó 𝑥 𝑘 ℎ(𝑥) ∈ 𝐿1 (0, ∞) và 𝑀[ℎ; 𝑠] = 𝑀[𝑓; 𝑠]𝑀[𝑔; 𝑠], với 𝑅𝑒(𝑠) = 𝑘 + 1.

1.3. Thống kê nhiều chiều.

1.3.1. Phân phối nhiều chiều.

Định nghĩa 1.8. Vector ngẫu nhiên và kì vọng của vector ngẫu nhiên.
Vector ngẫu nhiên ( random vector) p chiều là ma trận cấp p × 1 có các phần

�cov�X j , Yk �� . Từ định nghĩa suy ra 𝑐𝑜𝑣 (𝑋, 𝑌) = [𝑐𝑜𝑣 (𝑌, 𝑋 )]𝑇 .
j,k

Định nghĩa 1.11. Hàm phân phối tích lũy ( cumulative distribution function) của

vector ngẫu nhiên X = (X1 , X 2 , … , X p )T là hàm p biến thực FX định bởi
p

FX �x1 , x2 , … , xp � = P ��[X j ≤ xj ]� , �x1 , x2 , … , xp � ∈ ℝp .
j=1

Với P(A) là độ đo xác suất của tập A.

Hàm phân phối tích lũy của X viết tắt là cdf của X.

Nếu FX là hàm liên tục tuyệt đối trên ℝp khi đó tồn tại hàm fX �u1 , u2 , … , up � ≥

0 sao cho

x2

xp

−∞ −∞

−∞

x1

FX �x1 , x2 , … , xp � = � � … � fX �u1 , u2 , … , up �du1 du2 , … dup .

fX(1) (x1 , … , xr ) = � … � fX (x1 , … , xr , ur+1 , … , uk )dur+1 … dup

gọi là hàm mật độ biên hay pdf biên X (1) .

X được gọi là có các thành phần phân phối độc lập từng đôi (mutually

independent) nếu

FX �x1 , … , xp � = FX1 (x1 ) … FXp �xp �,

với FXj �xj � là cdf của X j , j = 1, … , p.

Tập {X1 , X 2 , … , X r } được gọi là phân phối độc lập với tập �X r+1 , … , X p � nếu
FX �x1 , … , xp � = FX (x1 , … , xr , ∞, … , ∞)FX �∞, … , ∞, xr+1 , … , xp �.

Định nghĩa độc lập từng đôi và độc lập có thể định nghĩa tương tự thông qua
hàm mật độ ( nếu tồn tại hàm mật độ).
Định nghĩa 1.13. Ma trận ngẫu nhiên và kì vọng của ma trận ngẫu nhiên.
Ma trận ngẫu nhiên cấp k × m là ma trận cấp k × m có các phần tử là các biến
ngẫu nhiên.

x11
Cho ma trận ngẫu nhiên X = � ⋮
xk1
kí hiệu E(X) được định nghĩa như sau

E(x11 )
E (X ) = � ⋮
E(xk1 )

1
[x − µ]T Σ−1 [x − µ]�, ∀x ∈ ℝp .
�−
exp
p
1
2
(2π)2 |Σ|2
1

Cho 𝜇, 𝛴 như định nghĩa 1.14.

i) Cho 𝑋~𝑁𝑝 (𝜇, 𝛴) khi đó 𝐸 (𝑋 ) = 𝜇, 𝑐𝑜𝑣 (𝑋 ) = Σ,

ii) Cho 𝑋~𝑁𝑝 (𝜇, 𝛴), 𝐵 là ma trận cấp 𝑚 × 𝑝 có hạng m, 𝑏 là ma trận cấp 𝑚 ×
1, khi đó
𝑌 = 𝐵𝑋 + 𝑏 ~ 𝑁𝑚 (𝐵𝜇 + 𝑏, 𝐵𝛴𝐵𝑇 ),

iii) Cho 𝑋~𝑁𝑝 (𝜇, 𝛴), khi đó mọi phân phối biên s chiều của X là phân phối
chuẩn s chiều với 𝑠 < 𝑝,
iv) Cho 𝑋~𝑁𝑝 (𝜇, 𝛴), với 𝑋, 𝜇, 𝛴 được chia thành các khối
(1)
𝛴
𝜇 (1)
𝑋
�
�
�
𝑋 = (2) , 𝜇 = (2) �, 𝛴 = � 11
𝛴21

1
1
𝑋� = � 𝑋𝑗 ~𝑁𝑝 �𝜇 , 𝛴 �,
𝑁
𝑁
𝑗=1

Vậy

vii) Phân phối điều kiện

√𝑁(𝑋� − 𝜇 )~𝑁𝑝 (0 , 𝛴 ),

Cho 𝑋~𝑁𝑝 (𝜇, 𝛴 ) với

(1)
𝛴
𝜇 (1)
𝑋 = �𝑋 (2) � , 𝜇 = � (2) � , 𝛴 = � 11
𝛴21
𝑋
𝜇

𝛴12
�,
𝛴22

với 𝑋 (1) , 𝜇 (1) có cấp 𝑠 × 1, 𝛴11 có cấp 𝑠 × 𝑠. Khi đó phân phối của 𝑋 (1) khi 𝑋 (2) =
𝑥 (2) cũng là phân phối chuẩn với kì vọng 𝐸�𝑋 (1) � = 𝜇 (1) + 𝛴12 𝛴22 −1 �𝑥 (2) − 𝜇 (2) � và
ma trận hiệp phương sai 𝐶𝑜𝑣�𝑋 (1) � = 𝛴11 − 𝛴12 𝛴22 −1 𝛴21 .

2
2 2 Γp ( )|Σ|2
2

trong đó X là ma trận xác định dương cấp p × p.

p

p(p−1)
n
n 1
Γp � � = π 4 � Γ � − (j − 1)�.
2
2 2
j=1

Trường hợp n < 𝑝 thì A không có hàm mật độ.
Tính chất 1.17.
i)

Cho k ma trận cấp 𝑝 × 𝑝 có phân phối độc lập 𝐴1 , 𝐴2 , … , 𝐴𝑘 với

𝐴𝑗 ~𝑊𝑝 (𝑛𝑗 , 𝛴), 𝑗 = 1, … , 𝑘. Khi đó
𝑘

𝑘

𝑗=1

𝑝

𝑛+1−𝑘 𝑞
2

|𝐴|
~ � 𝑉𝑘 ,
|𝐴 + 𝐵|
𝑘=1

, � và 𝑉1 , 𝑉2 , … , 𝑉𝑝 là độc lập.

Nếu 𝑞 ≤ 𝑝 thì ta có

2

𝑞

|𝐴|
~ � 𝑈𝑘 ,
|𝐴 + 𝐵|
𝑘=1

trong đó 𝑈𝑘 ~𝐵𝑒𝑡𝑎 �

𝑛+𝑞−𝑝+1−𝑘 𝑝
2

1.3.4. Ước lượng tham số.

Một ước lượng T(x1 , x2 , … , xn ) của τ(θ) được gọi là không chệch (unbiased

estimation) hay vững nếu E(T(x1 , x2 , … , xn ))= τ(θ).

1.3.4.1. Phương pháp ước lượng hợp lí cực đại ( maximal likelihood)
Phân phối thực nghiệm là một ước lượng phân phối của X. Nhưng phân phối

thực nghiệm luôn là phân phối rời rạc và có thể không thỏa mãn một số tính chất mà X

thỏa mãn, tức là không nằm trong họ các phân phối mà X rơi vào, ví dụ họ các phân

phối chuẩn…Một trong những phương pháp phổ biến nhất để ước lượng phân phối

xác suất của X bằng một phân phối xác suất trong một họ nào đó là phương pháp hợp
lí cực đại. Ý tưởng của phương pháp này là: Những gì quan sát được trong thực

nghiệm thì phải dễ xảy ra hơn không thấy, tức là xác suất xảy ra phải lớn hơn những
gì không thấy.
Phương pháp này được Ronald Fisher (1890 – 1962) đề nghị.
Nội dung cơ bản của phương pháp

Giả sử (x1 , x2 , … , xn ) là mẫu quan sát độc lập của X có phân phối phụ thuộc

vào các tham số θ1 , θ2 , … , θk . (x1 , x2 , … , xn ) có hàm mật độ đồng thời

f(x1 , x2 , … , xn , θ1 , θ2 , … , θk ).

Đặt L(x1 , x2 , … , xn , θ1 , θ2 , … , θk ) = f(x1 , x2 , … , xn , θ1 , θ2 , … , θk ), ta viết gọn là

exp �− (x − µ)T Σ−1 (x − µ)�.
2

1
1 exp
p
2
j=1 (2π) |Σ|2

1
T
[− �xj − µ� Σ−1 �xj − µ�]
2

N

1

1
T
��xj − µ� Σ−1 �xj − µ��.
�−
=
exp
1
1
2
(2π)2pN |Σ|2N
j=1

x� được gọi là trung bình mẫu và A gọi là hiệp phương sai mẫu.
N

Trước khi tính cực đại của ln(L), ta xét các bổ đề sau

Bổ đề 1.19.

Cho 𝑥1 , 𝑥2 , … , 𝑥𝑁 là N vector có 𝑝 thành phần, 𝑥̅ định nghĩa như trên, khi đó

với mọi vector 𝑏 có 𝑝 thành phần ta có
𝑁

𝑁

𝑗=1

𝑗=1

��𝑥𝑗 − 𝑏�(𝑥𝑗 − 𝑏)𝑇 = ��𝑥𝑗 − 𝑥̅ �(𝑥𝑗 − 𝑥̅ )𝑇 + 𝑁(𝑥̅ − 𝑏)(𝑥̅ − 𝑏)𝑇 .

Bổ đề 1.20.

Cho 𝐷 là ma trận xác định dương cấp 𝑝 và hàm số

𝑓 (𝐺 ) = −𝑁𝑙𝑛(|𝐺 |) − 𝑡𝑟(𝐺 −1 𝐷)

xác định trên tập các ma trận xác định dương cấp 𝑝, khi đó hàm số 𝑓 đạt cực đại tại
1

1
1
ln(L) = − pNln(2π) − N ln(|Σ|) − tr(Σ −1 A) − N(x� − µ)Σ −1 (x� − µ)T .
2
2
2
2

Do Σ là ma trận xác định dương nên ma trận nghịch đảo Σ−1 cũng xác định dương, do
đó

1
− N(x� − µ)Σ −1 (x� − µ)T ≤ 0,
2

dấu ‘=’ xảy ra khi và chỉ khi x� = µ.

1

1

Để đánh giá số hạng thứ 2 và thứ 3 là − N ln(|Σ|) − tr[AΣ −1 ], ta sử dụng bổ đề
2
2
1.20.
1
1
[−N ln(|Σ|) − tr(Σ−1 A)] ≤ [pNln(N) − Nln(|A|) − pN],
2
2

N

1
1
Σ = A = ��xj − x��(xj − x�)T .
N
N
∗

j=1

1

Vậy ước lượng hợp lí cực đại của kì vọng µ là trung bình mẫu x� = ∑N
j=1 xj .
N

Ước lượng hợp lí cực đại của ma trận hiệp phương sai Σ là hiệp phương sai mẫu
1

N

1

A = ∑N
� �(xj − x�)T .
j=1�xj − x
N

𝑗=1

𝛼=1

𝐵 = � 𝑥𝑗 𝑧𝑗 𝑇 �� 𝑧𝑗 𝑧𝑗 𝑇 �

Khi đó với mọi 𝐹 là ma trận cấp 𝑝 × 𝑞 ta có
𝑁

𝑇

𝑁

−1

.

��𝑥𝑗 − 𝐹𝑧𝑗 ��𝑥𝑗 − 𝐹𝑧𝑗 � = ��𝑥𝑗 − 𝐵𝑧𝑗 ��𝑥𝑗 − 𝐵𝑧𝑗 �
𝑗=1

𝑗=1

𝑇

𝑁

+(𝐵 − 𝐹 ) � 𝑧𝑗 𝑧𝑗 𝑇 (𝐵 − 𝐹 )𝑇 .
𝑗=1

= tr �Σ −1 ��xj − Bzj ��xj − Bzj � � + tr[Σ−1 (B − 𝒟)A(B − 𝒟)T ].
j=1

N

1
1
1
T
ln(L) = − pNln(2π) − N ln(|Σ|) − tr �Σ −1 ��xj − Bzj ��xj − Bzj � �
2
2
2
j=1

1
− tr[Σ−1 (B − 𝒟)A(B − 𝒟)T ].
2

Do Σ −1 , A xác định dương nên áp dụng bổ đề 1.22 ta có
dấu “=” xảy ra khi
T
∑N
j=1 xj zj .

tr[Σ−1 (B − 𝒟)A(B − 𝒟)T ] ≥ 0,

N
T
T

dấu “=” xảy ra khi

N

N

j=1

j=1

1
1
T
T
Σ = ��xj − 𝒟zj ��xj − 𝒟zj � = ��xj − Bzj ��xj − Bzj � .
N
N

max L(Σ, 𝒟) = L(Σ∗ , 𝒟 ∗ ) =
(Σ,𝒟)

Với
N

N

j=1

j=1

Nếu giả thuyết 𝐻1 suy ra rằng đại lượng ngẫu nhiên 𝑋 lấy giá trị 𝑥 với xác
suất 𝑓1 (𝑥), trong khi giả thuyết 𝐻2 suy ra 𝑋 lấy giá trị 𝑥 với xác suất 𝑓2 (𝑥). Khi đó
quan sát 𝑋 = 𝑥 cho ta thông tin để kết luận về giả thuyết 𝐻1 đúng là nhiều hơn giả
𝑓 (𝑥)
thuyết 𝐻2 đúng nếu 𝑓1 (𝑥) > 𝑓2 (𝑥). Và tỉ số 1 được dùng để đo mức độ mạnh của
kết luận trên.

Định nghĩa 1.24.

𝑓2 (𝑥)

Giả sử X là đại lượng có hàm mật độ fX (x, θ) với tham số θ thuộc không gian
các tham số Θ, trong đó Θ = Θ0 ⋃Θ0 c và Θ0 là tập con khác rỗng của Θ.Và
(x1 , x2 , … , xn ) là mẫu quan sát của X. Khi đó tỉ số
λ=

max L(x, θ)
θ∈Θ0

max L(x, θ)
θ∈Θ

được gọi là tỉ số hợp lí của bài toán kiểm định giả thuyết H0 : θ ∈ Θ0 với đối giả thuyết
H1 : θ ∈ Θ0 c .
Từ tính chất hàm mật độ và do Θ0 ⊂ Θ ta có 0 ≤ λ ≤ 1.

Sử dụng bổ đề 1.23 ta thấy nếu giả thuyết H0 đúng thì λ → 1, nếu λ → 0 có
nghĩa là X không có hàm mật độ fX (x, θ) với tham số θ ∈ Θ0 , và như vậy giả thuyết

bản cho chương 3 và chương 4.
Hàm H được định nghĩa bằng tích phân đường với biểu thức lấy tích phân là
tích và tỉ số của các hàm Gamma. Nó được xem là hàm tổng quát của rất nhiều hàm
đặc biệt, chẳng hạn như hàm Meijer – G hay hàm siêu bội suy rộng (Generalized
Hypergeometric Function), hàm Psi 𝜓(𝑥), hàm Zeta 𝜁(𝑥), đa thức Legendre 𝑃𝑛 (𝑥),
đa thức Chebyshev 𝑇𝑛 (𝑥), đa thức Hermite 𝐻𝑛 (𝑥), …….

2.1. Định nghĩa.
Định nghĩa 2.1. Cho các số nguyên m, n, p, q thỏa 0 ≤ m ≤ q; 0 ≤ n ≤ p, các số
ak , bj ∈ ℂ; αk , βj ∈ ℝ+ = (0, ∞), k = 1, … , p, j = 1, … , q.
m
Hp

(ak , αk )1,p
��
m
n
�
�x
�
≡
H
p
q
�bj , βj �
��
1,q

�ap , αp �
n

q

n
∏m
1
j=1 Γ�bj + βj s� ∏k=1 Γ(1 − a k − αk s)
� p
≡
x −s ds
q
2πi ∏k=n+1 Γ(ak + αk s) ∏j=m+1 Γ�1 − bj − βj s�
L

≡

1
� h(s) x −s ds.
2πi
L

Trong đó

(2.1)

h(s) =

n
∏m
j=1 Γ�bj + βj s� ∏k=1 Γ(1 − a k − αk s)

ii)

φ2 < ∞,

L = Liγ∞ là đường bắt đầu ở γ − i∞ và kết thúc ở γ + i∞

iii)

(−∞, ∞).

với γ ∈

Ở đây ta qui ước, nếu biểu thức lấy tích là rỗng thì ta cho giá trị của biểu thức là 1.
Định lý 2.2. Sự tồn tại của hàm H.
Cho hàm H được định nghĩa trong định nghĩa 2.1.Ta kí hiệu
𝑝

𝑞

𝑎∗ = ∑𝑛𝑘=1 𝛼𝑘 − ∑𝑘=𝑛+1 𝛼𝑘 + ∑𝑚
𝑗=1 𝛽𝑗 − ∑𝑗=𝑚+1 𝛽𝑗 ,
𝑞

𝑝

∆= ∑𝑗=1 𝛽𝑗 − ∑𝑘=1 𝛼𝑘 ,
𝑞

𝑝

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

sử dụng hàm h vào thống kê nhiều chiều và ứng dụng - Pdf 32

Tài liệu, ebook tham khảo khác

Học thêm