ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI
HOÀNG MINH ĐÔNG
PHƯƠNG PHÁP THỐNG KÊ
TRONG KINH DOANH VÀ TÀI CHÍNH
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15
LUẬN VĂN THẠC SỸ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
GS. TSKH ĐẶNG HÙNG THẮNG
Hà Nội – 2013
1
Lời mở đầu
Chúng ta đang sống trong xã hội chết ngạt vì dữ liệu, nhưng lại đói khát về
thông tin. Chính do nhu cầu tìm kiếm thông tin từ một khối lượng lớn dữ liệu đã dẫn
đến sự cần thiết phải có các công cụ phù hợp để làm việc này, mà khai thác dữ liệu
(Data mining) là một công cụ chính yếu. Khai thác dữ liệu đã được phát triển như là
một ngành tương đối mới, nó liên quan tới hai lĩnh vực chủ yếu là thống kê, khoa học
máy tính.Với sự yêu thích toán ứng dụng cùng với chút hiểu biết về xác suất và thống
kê, đã thôi thúc tôi tìm hiểu về lĩnh vực khai thác dữ liệu – đó cũng là lý do tôi chọn
đề tài “Phương pháp thống kê trong kinh doanh và tài chính”. Đến nay vẫn chưa
có định nghĩa thống nhất cho khái niệm khai thác dữ liệu. Nhưng tôi cho rằng định
nghĩa sau đây của tác giả Paolo Giudici (người Ý) trong cuốn Applied Data Mining.
Statistical methods for Business and Industry ([5]) là hoàn chỉnh hơn và tôi cũng đồng
ý với định nghĩa này; cuốn sách này cũng là tài liệu tham khảo chính cho luận văn của
tôi. Paolo Giudici phát biểu rằng: Khai thác dữ liệu là quá trình lựa chọn, thăm dò và
mô hình hóa khối lượng lớn dữ liệu để tìm ra những quy luật hoặc những mối quan hệ
từ những ẩn số đầu tiên với mục đích là đạt được các kết quả rõ ràng và hữu ích cho
các chủ sở hữu cơ sở dữ liệu.
Cụ thể, khai thác dữ liệu bao gồm một chuỗi các hoạt động từ xác định mục tiêu
thuyết nhân quả. Có các phương pháp như phân tích phương sai, phân cụm (cluster),
bản đồ Kohonen (Kohonen map) – xem Bishop, C. (1995), Neural Networks for
Pattern Recognition, Clarendon Press, Oxford., các phương pháp kết hợp (có 2
phương pháp cơ bản là bagging và boosting), các mô hình loga tuyến tính (log-linear
models) – tiết xem [1] và [3] và các mô hình đồ thị (graphical models) – xem
Whittaker (1990), Edwards (1995) hoặc Lauritzen (1996). Trong toàn bộ luận văn của
mình, tôi chỉ nói đến mô hình loga tuyến tính. Lý thuyết về mô hình loga tuyến tính
được trình bày ở chương 2.
3
(b). Phương pháp dự báo: Có các phương pháp như hồi quy tuyến tính chuẩn,
hồi quy logistic (logistic regression) - chi tiết xem [1] và [3], cây quyết định (decision
tree) – có nhiều tài liệu, chẳng hạn như tài liệu [2] và mạng thần kinh (neural network)
– Bishop (1995) với công cụ perceptron nhiều lớp. Lý thuyết về hồi quy tuyến tính
chuẩn được xem như là kiến thức cơ bản nên sẽ không được trình bày trong luận văn.
Lý thuyết mạng thần kinh là một phương pháp thiên về tính toán nên tôi cũng không
dùng phương pháp này cho phân tích bài toán của mình. Còn hồi quy logistic (một mô
hình thống kê) và cây quyết định (phương pháp rõ ràng, dễ hiểu cho bài toán phân lớp
và hồi quy) là được trình bày lý thuyết và được áp dụng cho các bài toán. Hai phương
pháp này được trình bày ở chương 2.
(c). Phương pháp địa phương: Bao gồm các quy tắc kết hợp (association rules)
và các quy tắc trình tự (sequence rules). Tôi sẽ chỉ quan tâm tới các quy tắc kết hợp.
Lý thuyết của nó được trình bày ở chương 2.
(5). Phân tích dữ liệu dựa trên các phương pháp đã chọn:
Phân tích dữ liệu cần có sự trợ giúp tính toán của máy tính bằng cách sử dụng
các phần mềm thống kê chẳng hạn như phần mềm SAS Enterprise Miner, SPSS,
STATA, R và hầu hết các thuật toán sẽ không được trình bày trong luận văn.
(6). Đánh giá và so sánh các phương pháp được sử dụng. Lựa chọn mô hình cuối
cùng cho phân tích:
Để tạo ra một quyết định cuối cùng, điều cần thiết là chọn mô hình phân tích dữ
liệu tốt nhất từ các phương pháp thống kê hiện có. Do đó việc lựa chọn mô hình phải
liệu tham khảo:
Chương 1: Phân tích dữ liệu thăm dò.
Trước khi tìm một mô hình thống kê cho tập dữ liệu, ta phải tiến hành phân tích
thăm dò cho từng biến và cho từng cặp biến thông qua các độ đo để sau đó lựa chọn
mô hình hợp lý.
Chương 2: Các mô hình thống kê.
Có nhiều mô hình dùng cho khai thác dữ liệu, trong đó có cả những mô hình
thiên về thống kê và những mô hình thiên về tính toán. Như tôi đã nói ở trên, chương
5
này tôi chi nói về mô hình tuyến tính suy rộng, mô hình hồi quy logistic, cây quyết
định (thống kê dự báo), mô hình loga tuyến tính (thống kê mô tả) và quy tắc kết hợp
(mô hình địa phương)
Chương 3: Một số ứng dụng trong kinh doanh và tài chính.
Chương này có ba bài toán thực tế là Phân tích thị trường qua giỏ hàng, Quản lý
quan hệ khách hàng và Tính điểm tín dụng (tham khảo thêm ở [6]). Ở đây, tôi chỉ dùng
các mô hình trên làm phương pháp phân tích ba bài toán này. Quả thật là việc xử lý dữ
liệu phải cần đến các phần mềm thống kê, đặc biệt là phần mềm SAS Enterprise
Miner, nhưng thật tiếc là tôi không có điều kiện để làm việc này nên tôi chỉ dùng dữ
liệu và kết quả đã phân tích được của Paolo Giudici.
Luận văn được hoàn thành dưới sự hướng dẫn khoa học của GS. TSKH Đặng
Hùng Thắng – giảng viên trường Đại học Khoa học tự nhiên – Đại học Quốc gia Hà
Nội. Em xin bày tỏ lòng biết ơn chân thành đến thầy vì sự chỉ bảo của thầy trong suốt
thời gian qua giúp em hoàn thành luận văn.
Nhân dịp này em cũng xin bày tỏ lòng biết ơn sâu sắc đến các thầy phản biện,
những người đã đọc và đóng góp ý kiến để luận văn của em được hoàn thiện hơn.
Cuối cùng, tôi cũng xin cám ơn các cán bộ trường THPT Nam Duyên Hà –
Hưng Hà – Thái Bình, sở Giáo dục & Đào tạo tỉnh Thái Bình đã tạo điều kiện về thời
gian và kinh phí cho tôi đi học và cám ơn các thầy cô giáo trường Đại học Khoa học tự
nhiên đã tận tình giảng dạy, cung cấp những kiến thức toán học để tôi hoàn thiện hơn
về chuyên môn.
3.1.2 Mô tả dữ liệu…………………………………………… 48
3.1.3 Phân tích dữ liệu thăm dò……………………… ……… 51
3.1.4 Xây dựng mô hình………………………………….…… 55
3.1.4.1 Các mô hình loga tuyến tính……………… …… 55
3.1.4.2 Các quy tắc kết hợp…………………….….…… 58
3.1.5 So sánh mô hình…………………………………… …… 63
3.2 Ứng dụng 2: Quản lý quan hệ khách hàng…………….…… 65
3.2.1 Mục tiêu phân tích……………………………… …… 65
3.2.2 Mô tả dữ liệu……………………………………………. 65
3.2.3 Phân tích dữ liệu thăm dò……………………………… 66
3.2.4 Xây dựng mô hình……………………………… 70
3.2.4.1 Các mô hình hồi quy logistic…………………… 70
3.2.4.2 Các mô hình cây phân lớp……………………… 71
3.2.5 So sánh mô hình……………………………………… 74
3.3 Ứng dụng 3: Tính điểm tín dụng……………………………… 79
3.3.1 Mục tiêu phân tích………………………………………. 79
3.3.2 Mô tả dữ liệu……………………………………………. 79
3.3.3 Phân tích dữ liệu thăm dò…………………… ……… 82
3.3.4 Xây dựng mô hình………………………………………. 85
3.3.4.1 Các mô hình hồi quy logistic…………………… 85
3.3.4.2 Các mô hình cây phân lớp……………………… 89
3.3.5 So sánh mô hình………………………………………… 98
Kết luận………………………………………………… 101
Tài liệu tham khảo……………………………………… 102
8
Danh mục các hình
Hình 1.1 Các biểu đồ thống kê mô tả các phân phối .……………………. 4
Hình 1.2 Hộp đồ thị ……………………………………………………… 4
Hình 1.3 Đồ thị phân tán ……………………………… ……………… 6
Hình 1.4 Ma trận đồ thị phân tán ………………………………………… 6
ứng …………………………………………… ….……… 53
Bảng 3.6 Các ước lượng hợp lý cực đại của các tham số loga tuyến tính 55
Bảng 3.7 Các quy tắc kết hợp có giá cao nhất ………………………… …. 60
Bảng 3.8 Các quy tắc kết hợp có độ tin cậy cao nhất ………………… … 61
Bảng 3.9 Các quy tắc kết hợp lên tới cấp 3 được sắp xếp theo giá ……… 62
Bảng 3.10 Các quy tắc kết hợp cấp 4 được sắp xếp theo độ tin cậy ……… 63
Bảng 3.11 Danh sách các biến về khách hàng ………………………… …. 66
Bảng 3.12 Phân phối của biến phản ứng ………………………………… … 67
Bảng 3.13 Phân phối điều kiện của biến phản ứng trên các biến giải thích
xã hội nhân khẩu học ………………………………………….…. 67
Bảng 3.14 Bảng sự kiện phân lớp biến phản ứng và biến trả góp …………… 68
Bảng 3.15 Ma trận dữ liệu được xét …………………………………………. 70
Bảng 3.16 Mô hình hồi quy logistic được chọn ………………………….… 70
Bảng 3.17 Các quy tắc cho cây phân lớp ………………………………….… 72
Bảng 3.18 Ma trận hỗn độn cho mô hình hồi quy logistic ……………… …. 74
Bảng 3.19 Ma trận hỗn độn cho cây phân lớp CART …………………….…. 75
Bảng 3.20 So sánh tóm tắt của các sai số lỗi phân lớp ………………………. 76
Bảng 3.21 So sánh các chỉ số Gini về hiệu suất …………………………… 77
Bảng 3.22 Cấu trúc của ma trận dữ liệu …………………………………… 81
Bảng 3.23 Phân lớp biến deadline …………………………………………… 81
Bảng 3.24 Phân lớp biến account ……………………………………………. 82
Bảng 3.25 Phân lớp các biến sex và marital status ……………………… … 82
Bảng 3.26 Các tỷ số chênh một chiều với biến phản ứng ………………… 83
Bảng 3.27 Giải thích các tỷ số chênh ……………………………………… 84
Bảng 3.28 Kết quả của quy trình lựa chọn tiến lên ………………………… 85
Bảng 3.29 Ước lượng hợp lý cực đại của các tham số ………………………. 86
11
Bảng 3.30 Giải thích mô hình ước lượng ……………………………………. 88
Bảng 3.31 So sánh giữa các tỷ số chênh một chiều và các tỷ số chênh
nhiều chiều ……………………………………………………… 89
để tóm tắt những khía cạnh quan trọng của các quan sát. Các chỉ số thống kê một chiều có thể
được phân loại thành các chỉ số về vị trí, sự phân tán, tính bất đối xứng,
1.1.1 Độ đo vị trí
Tôi sẽ không viết lại định nghĩa các độ đo này.
Giá trị trung bình
Tính toán được cho các biến định lượng.
Mode
Tính toán được trên tất cả các loại biến. Với các biến phân hạng thì mode là mức có
tần số lớn nhất.
Trung vị và các điểm phân vị
Không dùng cho dữ liệu định danh. Một giá trị khái quát của trung vị được gọi là phân
vị, nó chia phân phối tần số thành 2 phần có tổng tần số xác định trước. Quan tâm đặc biệt là
các tứ phân vị thứ 1, 2, 3 ký hiệu lần lượt là
1 2 3
, , q q q
chúng chia phân phối tần số thành 4
phần có tổng tần số bằng nhau. Cụ thể, tổng tần số của các quan sát nhỏ hơn
1
q
là 0,25, nhỏ
hơn
2
q
(trung vị) là 0,5, nhỏ hơn
3
q
là 0,75.
1.1.2 Độ đo sự phân tán
Một chỉ số đơn giản của sự phân tán là hiệu số giữa giá trị quan sát lớn nhất và giá trị
quan sát nhỏ nhất của một biến, được gọi là biên độ dao động. Một chỉ số đơn giản khác là
∑
và để có được ước lượng không chệch cho phương sai của biến
X
thì ta hay sử dụng công thức
( )
2
2
1
1
( )
1
N
i
i
s X x x
N
=
= −
−
∑
.
Biến định tính
14
Tương tự như phương sai của biến định lượng, đối với các biến định tính cũng có các
độ đo về sự phân tán, tất nhiên là không thể sử dụng khái niệm phương sai mà có cách đo
khác về sự phân tán. Xét một biểu diễn tổng quát của phân phối tần số của một biến định tính
với
k
mức.
Bảng 1.1 Phân phối tần số cho một biến định tính
i j∀ ≠
• Không thuần nhất cực đại:
1
, 1,
i
p i k
k
= ∀ =
Một chỉ số về sự phân tán sẽ phải đạt giá trị cực tiểu trong tình huống thứ 1 và đạt giá trị cực
đại trong tình huống thứ 2. Chú ý, trong toàn bộ luận văn, tôi dùng ký hiệu
log k =
lôga
nêpe của
k
.
Bây giờ ta đưa ra 2 chỉ số thỏa mãn các điều kiện trên:
Chỉ số Gini:
2
1
1
k
i
i
G p
=
= −
∑
⇒
chỉ số Gini chuẩn hóa:
là lệch trái (bất đối xứng âm). Có thể dùng các biểu đồ cột hoặc biểu đồ thống kê để điều tra
hình thức của phân phối dữ liệu. Hình 1.1 thể hiện các biểu đồ thống kê cho một phân phối
lệch phải, một phân phối đối xứng và một phân phối lệch trái.
15
Hình 1.1 Các biểu đồ thống kê mô tả các phân phối
(a) lệch phải (trung bình > trung vị)
(b) đối xứng (trung bình = trung vị)
(c) lệch trái (trung bình < trung vị):
Một công cụ khác là hộp đồ thị. Hộp đồ thị sử dụng trung vị
Me
, điểm tứ phân vị thứ
1
1
q
, thứ 3
3
q
và phạm vị khoảng tứ phân vị
IQR
. Hình 1.2 cho thấy một ví dụ. Ở đây
1 2
, T T
được định nghĩa như sau:
1
T
= max (giá trị quan sát nhỏ nhất,
1
1,5.−q IQR
)
2
3
s
µ
γ
=
, trong đó
( ) ( )
3 2
1 1
3
,
N N
i i
i i
x x x x
s
N N
µ
= =
− −
= =
∑ ∑
Có 3 trường hợp cụ thể:
• Nếu
0
γ
=
thì phân phối là đối xứng
• Nếu
0
=
= =
≠
.
Vì chỉ cần biết thông tin của
X
về
I 1
−
mức là biết được thông tin về mức còn lại nên cũng
có một song ánh giữa
X
và vectơ
( )
1 2 I 1
X ,X , ,X
−
.
Như vậy khi làm việc với
X
, ta có thể làm việc với
( )
1 2 I 1 I
X ,X , ,X ,X
−
hoặc với
( )
Nói chung, việc chuyển các mức của các biến định tính thứ tự sang các hạng tương
ứng cho phép hầu hết các phân tích ứng dụng cho dữ liệu định lượng được mở rộng tới
trường hợp định tính thứ tự bao gồm cả việc phân tích các thành phần chính. Tuy nhiên nếu
ma trận dữ liệu chứa dữ liệu định danh thì khái niệm hiệp phương sai và hệ số tương quan
không thể sử dụng được nữa. Phần còn lại của mục này xem xét các phép đo tóm tắt về mức
độ của các mối quan hệ giữa các biến định tính bất kỳ. Những độ đo này được gọi là các chỉ
số kết hợp. Những chỉ số này đôi khi có thể được áp dụng cho các biến định lượng rời rạc.
Trong việc kiểm tra các biến định tính, một phần cơ bản được tham gia bởi các tần số
của các mức của biến. Dữ liệu định tính thường được biểu diễn trực tiếp dưới dạng một bảng
sự kiện. Bảng 1.2 là một bảng sự kiện 2 chiều lý thuyết để giới thiệu khái niệm được sử dụng
trong mục này.
Bảng 1.2 Bảng sự kiện 2 chiều lý thuyết
1 j J
Y Y YL L
Tổng
1
i
I
X
X
X
M
M
11 1 j 1J
i1 ij iJ
I 1 Ij IJ
n n n
n n n
n n n
L L
i j
X Y
với
1, , 1,i I j J= =
của các biến
, X Y
.
ij
n
được gọi là
các tần số ô.
*
1
J
i ij
j
n n
+
=
=
∑
là tần số biên duyên của dòng thứ
i
trong bảng, nó biểu diễn tổng số quan sát
ở mức thứ
i
của biến
X
,
+ +
= = = =
= = =
∑ ∑ ∑∑
Từ
p
biến, ta xây dựng được
( 1)
2
p p −
bảng sự kiện 2 chiều, tương ứng với tất cả các cặp
biến định tính.
1.3.1. Độc lập và liên kết
Để xây dựng các chỉ số mô tả mối quan hệ giữa các biến định tính, chúng ta cần khái
niệm độc lập thống kê. Hai biến
X
và
Y
được gọi là độc lập thống kê nếu chúng thỏa mãn
các điều kiện sau đây:
1 2
1 2
, 1,
ij
i i iJ i
j J
n
n n n n
i I
n n n n n
+
⇔ = ∀ = ∀ =
⇔ = ∀ = ∀ =
Dưới dạng các tần số tương đối, thì điều này tương đương với:
( )
,
( , ) ( ). ( ), ,
i j X i Y j
X Y
p x y p x p y i j= ∀
Tổng quát, với bảng nhiều chiều
1 2 p
I I I× × ×
cho
p
biến
1 2 p
X ,X , ,X
thì
Các biến độc lập
1 2
1 2. , 1,
p p
i i i i
i i
k k
n n
Đối với các biến định lượng, nếu 2 biến
, X Y
độc lập thống kê thì
cov( , ) 0 ( r(X,Y)=0)X Y = ⇔
. Điều ngược lại chưa chắc đúng, tức là nếu 2 biến
, X Y
thỏa
mãn
cov( , ) 0 ( ( , ) 0)X Y r X Y= ⇔ =
thì không suy ra được 2 biến này độc lập. Có một ngoại lệ
là khi
( , )X Y
là phân phối chuẩn 2 chiều thì từ sự không tương quan suy ra sự độc lập.
Các phép đo liên kết có nhiều loại, ở đây ta kiểm tra 3 loại khác nhau: các độ đo
khoảng cách, các độ đo sự phụ thuộc và các độ đo dựa trên mô hình.
1.3.2 Các độ đo khoảng cách
Sự độc lập giữa 2 biến
, X Y
xảy ra khi
, 1, , 1,
i j
ij
n n
n i I j J
n
+ +
= ∀ = ∀ =
Một phương pháp đầu tiên để tóm tắt sự kết hợp có thể được dựa trên việc tính toán một độ
đo toàn diện về tính bất đồng giữa tần số quan sát
ij
= =
−
=
∑∑
21
Chú ý rằng
2
0
χ
=
nếu các biến
, X Y
độc lập. Thống kê
2
χ
có thể được viết dưới dạng tương
đương (để nhấn mạnh sự phụ thuộc của thống kê
2
χ
vào số quan sát
n
):
2
2
1 1
1
I J
ij
i j
i j
+ +
Φ = = −
∑∑
Với các bảng sự kiện
2 2×
biểu diễn các biến nhị thức thì
2
Φ
đã ở dạng chuẩn hóa vì nó nhận
các giá trị thuộc
[ ]
0;1
.
Có thể chỉ ra rằng:
2
2
cov ( , )
( ) ( )
X Y
Var X Var Y
Φ =
chính là bình phương hệ số tương quan tuyến tính. Với các bảng sự kiện lớn hơn
I J
×
thì
2
Φ
không ở dạng chuẩn hóa. Để có được chỉ số chuẩn hóa hữu ích cho so sánh, ta sử dụng một
cải tiến khác của
2
với sự phụ thuộc lớn nhất giữa 2 biến.
Do đó có 3 tình huống:
+
2
1V =
và
I J
≥
: Có sự phụ thuộc lớn nhất của
Y
vào
X
khi mỗi dòng của bảng 1.7 có
duy nhất 1 tần số khác 0. Điều này xảy ra nếu với mỗi mức của
X
tương ứng với 1 và chỉ 1
mức của
Y
.
+
2
1V =
và
J I≥
: Có sự phụ thuộc lớn nhất của
X
vào
Y
nếu ở mỗi cột của bảng có duy
nhất 1 tần số khác 0. Điều này có nghĩa là với mỗi mức của
χ
có một phân phối tiệm cận phân phối khi – bình phương, nên nó
cũng có thể được sử dụng để đánh giá một ngưỡng suy luận nhằm quy nạp xem liệu các biến
được kiểm tra có phụ thuộc nhau đáng kể hay không. Bảng 1.3 cho thấy một ví dụ tính toán
các độ đo dựa trên
2
χ
.
Bảng 1.3 So sánh các độ đo kết hợp
1.3.3 Các độ đo sự phụ thuộc
Các độ đo đã thấy cho đến giờ là tất cả các hàm của thống kê
2
χ
, do đó chúng gần như
không giải thích được trong hầu hết các ứng dụng thực tế. Khía cạnh này đã được nhấn mạnh
bởi Goodman và Kruskal (1979), những người đã đề xuất một cách tiếp cận thay thế để đo sự
kết hợp trong một bảng sự kiện. Các thiết lập tiếp theo của Goodman và Kruskal được dựa
23
trên việc định nghĩa các chỉ số cho các ngữ cảnh cụ thể đang được điều tra. Nói cách khác,
các chỉ số này xác định bản chất sự phụ thuộc giữa các biến hiện có.
Giả sử rằng trong một bảng sự kiện 2 chiều,
Y
là biến phản ứng (phụ thuộc),
X
là
biến giải thích (độc lập). Ta có thể đánh giá xem thông tin về mức của
X
có thể làm giảm
tính không xác định về các mức của
Y
i
i i J i j i i
i
f
n
Y i f f f f f
f n
δ
+
+
+
= = =
.
Một chỉ số kết hợp được dựa trên “sự giảm theo tỷ lệ lỗi” hay chỉ số giảm tỷ lệ lỗi (EPR:
error proportianal reduction index) có thể được tính như sau:
( ) [ ( | )]
( )
Y M Y X
EPR
Y
δ δ
δ
−
=
Ở đây
[ ( | )]M Y X
δ
là không thuần nhất trung bình được tính đối với phân phối của
X
, cụ thể
δ
), nó có thể được giải
thích bằng mối liên hệ với
X
. Cấu trúc của nó tương tự với các bình phương hệ số tương
quan tuyến tính. Bằng việc chọn
δ
thích hợp, có thể có được các độ đo kết hợp khác nhau.
Thông thường là sự lựa chọn giữa chỉ số Gini và chỉ số Entropy. Việc sử dụng chỉ số Gini
trong biểu thức
EPR
, ta có được hệ số tập trung
|Y X
τ
:
24
2
2
1 1 1
|
2
1
1
I J J
ij
j
i j j
i
Y X
J
ij
ij
i j
i j
Y X
J
j j
j
f
f
f f
U
f f
= =
+ +
+ +
=
÷
÷
= −
∑∑
∑
Trong trường hợp các tần số bằng 0, ta quy ước
log0 0=
. Cả
|Y X
τ
và
|Y X
τ
và
|Y X
U
đều biểu diễn các lượng giảm sự không thuần nhất mà có thể được giải thích
thông qua sự phụ thuộc của
Y
vào
X
. Để ứng dụng chúng đòi hỏi chúng ta phải xác định
một mối quan hệ nhân quả từ một biến (giải thích) với biến khác (phụ thuộc), trong khi các
chỉ số dựa trên
2
χ
thì đối xứng. Hơn nữa
2
χ
không dễ dàng mở rộng được cho các bảng sự
kiện với số chiều lớn hơn 2 để có được một ngưỡng suy luận.
1.3.4 Các độ đo dựa trên mô hình
Ta có thể kiểm tra các phép đo kết hợp mà không phụ thuộc vào các phân phối biên
duyên của các biến. Không có phép đo nào trước đó đáp ứng được yêu cầu này. Bây giờ ta
xem xét một lớp các chỉ số dễ dàng giải thích được mà không phụ thuộc vào các phân phối
biên duyên. Những phép đo này được dựa vào các mô hình xác suất, do đó cho phép một xử
lý suy luận. Ta sẽ giả sử một mô hình xác suất, trong đó các tần số tương đối ô được thay
bằng các xác suất ô. Các xác suất ô có thể được giải thích như các tần số tương đối khi cỡ
mẫu dần tới vô cùng, do đó chúng có cùng các tính chất như các tần số tương đối. Các số đếm
ô trong bảng thường có phân phối đa thức để điều tra sự phụ thuộc giữa các biến hoặc đôi khi
trong bảng 2 chiều các số đếm ô có phân phối tích đa thức để điều tra sự khác nhau về tỷ lệ