ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
*******
BÙI THỊ HUỆ
PHƢƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ
CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA
SINH VIÊN TRƢỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – 2013
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
*******
BÙI THỊ HUỆ
PHƢƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ
CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA
SINH VIÊN TRƢỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI
Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ KHOA HỌC
3
MỤC LỤC
LỜI NÓI ĐẦU ................................................................................................. 1
NộI DUNG ........................................................................................................ 3
CHƢƠNG 1 : PHÂN TÍCH SỐNG SÓT ...................................................... 3
1.1Giới thiệu chung ...................................................................................... 3
1.2Kiểm duyệt và các loại kiểm duyệt ........................................................ 4
1.3Hàm sống sót và hàm nguy cơ ............................................................... 5
1.3.1Hàm sống sót ..................................................................................... 5
1.3.2Hàm nguy cơ...................................................................................... 6
1.3.3Mô hình tham số ............................................................................... 8
1.3.4Mô hình phi tham số ....................................................................... 11
1.3.5So sánh mô hình tham số và phi tham số ..................................... 12
1.4Kiểm định của các mô hình .................................................................. 12
1.4.1Ƣớc lƣợng Kaplan-Meier của hàm sống sót ................................. 12
1.4.2Kiểm định Log-rank ....................................................................... 16
1.4.3Giới thiệu sơ bộ về mô hình Cox ................................................... 18
CHƢƠNG 2 : MÔ HÌNH NGUY CƠ THEO Tỷ Lệ .................................. 21
2.1Giới thiệu về mô hình nguy cơ theo tỷ lệ ............................................ 21
2.1.1Giới thiệu ......................................................................................... 21
2.1.2Tác giả mô hình Cox ....................................................................... 21
2.1.3Mô hình Cox .................................................................................... 22
2.1.4Hàm sống sót của Cox PHM .......................................................... 23
2.1.5Ƣớc lƣợng các tham số của Cox PHM .......................................... 24
2.2Hàm hợp lý từng phần .......................................................................... 24
2.2.1Hàm hợp lý từng phần cho lần thất bại là duy nhất ................... 24
2.2.2Hàm hợp lý từng phần cho lần thất bại lặp đi lặp lại ................. 25
nhờ vào việc tin học hóa đã giúp cho công việc này trở nên dễ dàng, chính xác, có
tính chuyên nghiệp và mang tính bảo mật cao đối với mỗi người sử dụng khác nhau.
Tuy nhiên nhà trường mới chỉ quản lý sinh viên ở mặt nổi, ví dụ như: họ và tên, nơi
sinh, mã sinh viên, …những điều này mang tính hồ sơ. Cái sâu hơn mà chúng ta
quan tâm đó là dựa trên những thông tin ban đầu này, liệu rằng ta có thể sử dụng
các phương pháp phân tích thống kê phù hợp kết hợp với các phần mềm toán học để
phân tích số liệu đó và đưa ra các kết quả như: hàng năm lượng sinh viên ở đâu vào
trường nhiều nhất?, sau một khóa học thì số sinh viên tốt nghiệp ra trường được bao
nhiêu phần trăm so với lượng sinh viên ban đầu vào trường? Nguyên nhân ảnh
hưởng tới số lượng sinh viên ra trường? Yếu tố nào quyết định nhiều tới lượng sinh
viên ra trường. Đó cũng chính là vấn đề mà trường Đại học Thủy Lợi đặt mục tiêu
và muốn giải quyết.
Để làm sáng tỏ điều đó, trong phạm vi của bản luận văn này, tôi đã thu thập
số liệu sinh viên trường Đại học Thủy Lợi Hà Nội do phòng Quản lý và Công tác
sinh viên cung cấp và sử dụng “phương pháp phân tích sự kiện dùng đánh giá các
biến động trong quá trình học tập của sinh viên trường Đại học Thủy Lợi Hà Nội”.
Luận văn trình bày bốn nội dung cơ bản:
1. Trình bày về phân tích sống sót, hàm sống sót, hàm nguy cơ và mối liên
hệ giữa chúng.
2. Xây dựng mô hình Cox
3. Sử dụng phần mềm R vào các mô hình tham số, phi tham số của phân tích
sống sót.
4. Phân tích số liệu về sinh viên trường Đại học Thủy Lợi Hà Nội.
1
Để thể hiện nội dung đó, luận văn được chia thành ba chương:
Chương 1 (Phân tích sống sót): Trong chương này, tác giả sẽ đưa ra những
vấn đề trong phân tích sống sót, cách ước lượng cho mô hình tham số, phi tham số
điều trị bệnh thương hàn, tỉ lệ khỏi bệnh của hai loại kháng sinh có thể như nhau
nhưng thời gian cắt sốt của hai nhóm có thể khác nhau, vì vậy chúng ta phải sử
dụng mô hình PTSS thì mới thấy sự khác biệt này. Như vậy mô hình nghiên cứu
mô tả kết cục là biến nhị phân (sống/chết-hết sốt/còn sốt) tuy quan trọng nhưng
không chính xác.
Một ưu điểm của PTSS là xử lý được các trường hợp đối tượng nghiên cứu bỏ
cuộc giữa chừng (như mất dấu theo dõi, ngưng điều trị do tác dụng phụ của thuốc
hoặc tử vong do bệnh lý khác...). Trong mô hình phân tích này các đối tượng còn
sống kể cả đối tượng bỏ cuộc được gọi là censored hoặc sự kiện chưa xảy ra. Các
đối tượng tử vong hoặc hết sốt (ví dụ trong nghiên cứu bệnh thương hàn) được gọi
3
là events hoặc sự kiện đã kết thúc. Và sự phân bố thời gian sống sót được gọi là thời
gian thất bại hay thời gian sự kiện.
Phép ước tính thường được dùng để PTSS được gọi là ước lượng KaplanMeier (1958). Phép ước tính này giúp ta tính được xác suất sống sót tích lũy tại các
mốc thời gian khác nhau. Nếu muốn so sánh sự khác biệt giữa hai nhóm điều trị,
dùng kiểm định Log-rank, bằng cách so sánh hai hàm xác suất tích lũy của hai
nhóm. Và người ta sử dụng kiểm định Log-rank trong phân tích đơn biến, còn phân
tích đa biến thì ta tiến hành bởi mô hình Cox (1972) để hiệu chỉnh các yếu tố nhiễu
hoặc các hiệp biến.
Tóm lại, phân tích sống sót (Survival analysis) dựa vào sự khác biệt thời gian
sống sót giữa hai nhóm hoặc thời gian dẫn đến sự kiện xảy ra (chết, ung thư tái
phát, hết sốt...). Phân tích này xử lý được khi đối tượng bỏ cuộc hoặc mất dấu theo
dõi. Dùng kiểm định Log rank trong phân tích đơn biến và mô hình Cox trong phân
tích đa biến (hiệu chỉnh các yếu tố nhiễu hoặc các hiệp biến).
1.2 Kiểm duyệt và các loại kiểm duyệt
Để hiểu về phân tích sống sót, trước hết ta cần hiểu về “kiểm duyệt”. Kiểm
duyệt xảy ra khi có một quan sát không đầy đủ do một số nguyên nhân ngẫu nhiên.
Hầu hết trong phân tích thống kê, ta thường quan tâm tới hàm mật độ xác suất
và hàm phân phối tích lũy của biến ngẫu nhiên. Mặc dù chúng là quan trọng, nhưng
trong phân tích sự tồn tại ngoài hai hàm đó ra có hai hàm được nhấn mạnh hơn đó là
hàm sống sót và hàm nguy cơ.
1.3.1
Hàm sống sót
Định nghĩa
Nếu 𝑇 là thời điểm thất bại, thì hàm sống sót 𝑆(𝑡) = 𝑝(𝑇 > 𝑡) là xác suất mà
đối tượng còn sống sót đến thời điểm 𝑡. Nó được định nghĩa trên miền 𝑡 ∈ [0, ∞),
và 𝑆(𝑡) ∈ [0,1].
Tính chất
𝑆 0 = 1
lim𝑡→∞ 𝑆 𝑡 = 0
𝑆(𝑡𝑎 ) ≥ 𝑆(𝑡𝑏 ) ⇔ 𝑡𝑎 ≤ 𝑡𝑏
𝑆 𝑡 = 1 − 𝐹 𝑡 =
∞
𝑡
𝑓(𝜏)𝑑𝜏
Trong đó 𝑓(𝑡) là hàm mật độ xác suất, 𝐹(𝑡) là hàm phân phối tích lũy.
5
Ước lượng hàm sống sót
Chúng ta có thể ước lượng hàm sống sót qua dữ liệu quan sát. Và có hai
=
𝑒
𝜆𝑡𝑘
Định nghĩa
Hàm nguy cơ (𝑡) là xác suất mà đối tượng xảy ra sự kiện ngay tại thời điểm 𝑡
𝑡
𝑆 𝑡 = exp
−(𝜏)𝑑𝜏
0
Thật vậy
p 𝑡 ≤ 𝑇 < 𝑡 + ∆𝑡 /𝑇 ≥ 𝑡
∆𝑡→0
∆𝑡
1 p 𝑇 ∈ [𝑡, 𝑡 + ∆𝑡 /𝑇 ≥ 𝑡
= lim
∆𝑡→0 ∆𝑡
𝑝(𝑇 ≥ 𝑡)
𝑡 = lim
1 p 𝑇 ∈ [𝑡, 𝑡 + ∆𝑡 /𝑇 ≥ 𝑡
∆𝑡→0 ∆𝑡
𝑝(𝑇 ≥ 𝑡)
= lim
⇒ − 𝑡 𝑑𝑡 =
𝑡
𝑡
− 𝜏 𝑑𝜏 =
0
0
𝑑𝑡
𝑆 𝑡
⇒ − 𝑡 =
1 𝑑𝑆 𝑡
𝑆 𝑡 𝑑𝑡
1
1
𝑑𝑆(𝑡) ⇒ − 𝜏 𝑑𝜏 =
𝑑𝑆(𝜏)
𝑆 𝑡
𝑆 𝜏
1
𝑑𝑆 𝜏 = log 𝑆 𝑡 − log 𝑆 0 = log 𝑆(𝑡)
𝑆 𝜏
𝑡
∞
0
𝑡 𝑑𝑡 = 𝐻 < ∞ → 𝑆 ∞ = 𝑒 −𝐻 > 0, do (𝑡) không là
xác suất nên (𝑡) > 1
Hình ảnh của hàm nguy cơ
(𝑡)là hằng số
7
f(t)
S(t)
h(t)
t
t
t
f(t)
h(t)
(𝑡) là hàm tăng và giảm
t
t
t
1.3.3 Mô hình tham số
Các hàm thường gặp trong phân phối sống sót
Exponential
Gompertz
Weibull
𝑓(𝑡)
𝜆 exp(−𝜆𝑡)
𝜆𝜅 𝑡 exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅
𝐹(𝑡)
1 − exp(−𝜆𝑡)
1 − exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅
1 − exp(−𝜆𝑡 𝜅 )
Các mô hình quan trọng nhất và sử dụng rộng rãi trong phân tích sống sót
phân bao gồm phối mũ, phân phối Weibull, phân phối log-normal, log-logistic và
phân phối gamma.
Ta sẽ xem xét hai mô hình là phân phối mũ và Weibull. Phân phối mũ là
phân phối đơn giản và dễ dàng để xử lý với hàm mật độ
𝑓 𝑡, 𝜆 = 𝜆𝑒 −𝜆𝑡 (𝜆, 𝑡 > 0)
Còn phân phối Weibull là một sự tổng quát của phân phối mũ và cho phép
bao gồm nhiều loại hình dạng, với hàm mật độ:
𝑚 𝑡
𝑓 𝑡, 𝑚, 𝜂 =
𝜂 𝜂
𝑚 −1
𝑒
−
𝑡 𝑚
𝜂
𝑚, 𝑡, 𝜂 > 0 (1)
Tham số 𝜆 là tỷ lệ thất bại trong độ tin cậy, với γ là ngưỡng tham số thì hàm mật
độ Weibull có dạng:
𝑚 𝑡−𝛾
𝑓 𝑡, 𝑚, 𝜂, 𝛾 =
𝜂
𝜂
Nếu 𝑚 < 1: tỷ lệ thất bại giảm theo thời gian.
Và về hình dáng thì hàm mật độ Weibull thay đổi đáng kể với giá trị của𝑚.
0 < 𝑚 < 1: hàm mật độ giảm nghiêm ngặt, tiến ra vô cùng.
𝑚 = 1: hàm mặt độ tiến về 0.
9
𝑚 > 1: hàm mật độ tiến đến 1/λ.
Ước lượng hợp lý cực đại (MLE) rất nổi tiếng, nhưng nó không được thể
hiện một cách rõ ràng trong dạng đóng. Theo đó, một số tính toán lặp đi lặp lại
phương pháp được sử dụng. Menon(Menon (1963)) cung cấp một ước lượng đơn
giản của 1/ 𝑚 ,là một ước tính phù hợp của 1 / 𝑚,với một sự thiên vị có xu hướng
biến mất khikích thước mẫu tăng lên. Sau đó, Cohen (Cohen, 1965; Cohen và
Whitten, 1988) trình bày một biểu đồ thực tế hữu ích để có được một xấp xỉ tốt đầu
tiên cho các tham số hình dạng đang sử dụng mà các hệ số biến đổi Toshinari
Kamakura sự phân bố Weibull là một hàm của các tham số hình dạng 𝑚, tức là, nó
không phụ thuộc vào 𝜂.
Ví dụ 1
Cho 𝑡 = 𝑎𝑒 𝑏𝑡 (𝑎 > 0, 𝑏 > 0), có kiểm duyệt
𝑡
𝑒 𝑏𝜏 𝑑𝜏
𝑆 𝑡 = exp −𝑎
0
𝑎
(1 − 𝑒 𝑏𝑡 )
=−
𝑑
𝑆 𝑡 = 𝑡 𝑆(𝑡)
𝑑𝑡
Cho các quan sát không bị kiểm duyệt, phân phối hợp lý của đối tượng 𝑖 là
𝑓 𝑡𝑖 = (𝑡𝑖 )𝑆(𝑡𝑖 ), điều này có thể được hiểu như xác suất mà không sự kiện nào
xảy ra cho đến thời điểm 𝑡𝑖 (𝑆(𝑡𝑖 )), số thất bại tức thời ở thời điểm 𝑡𝑖 ((𝑡𝑖 )). Tổng
10
hàm hợp lý cho các tham số 𝜃 của mô hình cho 𝑇 là 𝑓 𝑡 𝜃 =
𝑛
𝑖=1 𝑓(𝑡𝑖 ).
Điều này
có thể được cực đại thông qua tính toán hoặc ước lượng để tìm MLE của 𝜃 hoặc gắn
vào một phân phối quen thuộc.
Ví dụ 2
Cho 𝑡 = 𝑎𝑒 𝑏𝑡 (𝑎 > 0, 𝑏 > 0) và không kiểm duyệt
𝑛
log 𝑓 𝑡 𝑎, 𝑏 =
log 𝑓 𝑡𝑖
số. Đối với trường hợp của một mẫu mà không có bất kỳ quan sát kiểm duyệt thì dự
toán chính xác tương ứng vào nguồn gốc từ sự phân bố thực nghiệm. Các bộ dữ liệu
có thể được sắp xếp ở dạng bảng:
Bảng 1: Dữ liệu thời gian thất bại
Thời gian thất bại
𝑡1 𝑡2 … 𝑡𝑖 …𝑡𝑘
Số đối tượng thất bại
𝑑1 𝑑2 … 𝑑𝑖 …𝑑𝑘
Số đối tượng có nguy cơ
𝑛1 𝑛2 … 𝑛𝑖 …𝑛𝑘
11
Ở đây 𝑡1 ≤ 𝑡2 ≤ ⋯ ≤ 𝑡𝑁 , ứng với mỗi 𝑡𝑖 , có 𝑛𝑖 là số “nguy cơ” hay số đối tượng
nghiên cứu ngay trước thời gian 𝑡𝑖 và 𝑑𝑖 là số ca tử vong ngay tại thời điểm 𝑡𝑖 . Theo
kí hiệu này ước lượng Kaplan-Meier là:
𝑆 𝑡 =
𝑡 𝑖 𝑡|𝑇 ≥ 𝑡)
Khi không có sự kiện xảy ra thì 𝑝 𝑇 > 𝑡 𝑇 ≥ 𝑡 = 1
Khi có một hay nhiều sự kiện xảy ra thì
𝑛(𝑡 − ) − 𝑑(𝑡)
chân không trong bộ lặp của các loại cáp điện thoại tiểu đại dương tại phòng thí
nghiệm Bell. Họ độc lập gửi nghiên cứu của họ về thời gian tồn tại trên tạp chí của
Hiệp hội thống kê Mỹ, có biên tập viên khuyến khích họ gửi một giấy chung, mà họ
đã làm vào năm 1958: Kaplan, EL và P. Meier (1958). Ước lượng phi tham số từ
quan sát không đầy đủ. J. Am. Star. Assoc., 53:457-481. Google Scholar có 20.000
trích dẫn cho bài viết này.
1.4.1.3Ƣớc lƣợng Kaplan-Meier
𝑆(𝑡) là xác suất mà một đối tượng từ một nhóm đối tượng còn sống sót đến thời
điểm 𝑡. Số 𝑁 là kích thước của mẫu của một nhóm đối tượng xét. Thời điểm xảy ra
sự kiện của 𝑁 thành viên trong nhóm là
𝑡1 ≤ 𝑡2 ≤ ⋯ ≤ 𝑡𝑁
ứng với mỗi 𝑡𝑖 , có 𝑛𝑖 là số “nguy hiểm” hay số đối tượng nghiên cứu ngay trước
thời gian 𝑡𝑖 và 𝑑𝑖 là số ca tử vong ngay tại thời điểm 𝑡𝑖 .
Ví dụ, một tập dữ liệu nhỏ có thể bắt đầu với 10 trường hợp. Giả sử có1 chết
vào ngày thứ 3, đối tượng 2 và 3 chết vào ngày 11 và đối tượng 4 bị mất theo dõi
(kiểm duyệt) vào ngày 9. Dữ liệu lên đến 11 ngày sẽ được như sau.
𝑖
𝑡1
𝑑𝑖
𝑛𝑖
1
3
1
Xác suất
Xác suất
gian(tuần)
bắt đầu thời
ngưng sử
ngưng sử
còn sử
tích lũy
điểm (𝑛𝑡 )
dụng (𝑑𝑡 )
dụng (𝑡)
dụng (𝑝𝑡 )
𝑆(𝑡)
0–9
18
0.8815
30 – 35
13
1
0.0769
0.9231
0.8137
36 – 58
12
1
0.0833
0.9167
0.7459
59 – 74
8
0.4662
97 – 106
5
1
0.2000
0.8000
0.3729
107 -
3
1
0.3333
0.6667
0.2486
Cột 1 là khoảng thời gian tính bằng tuần,
Cột 2 là số phụ nữ trong nghiên cứu bắt đầu một khoảng thời gian. Như trong
ví dụ, khoảng thời gian 0 – 9, tại thời điểm bắt đầu 0 có 18 phụ nữ, hay khoảng thời
gian 19 – 29, ngay tại thời điểm bắt đầu 19, ta có 15 phụ nữ…
Dựa vào R, ta có biểu đồ đường cong sống sót sau:
0
20
40
60
80
100
thời gian (tuần)
Trong biểu đồ này, trục hoành là thời gian (đơn vị là tuần), trục tung là xác
suất tích lũy còn sử dụng y cụ. Đường chính giữa là xác suất tích lũy 𝑆(𝑡), hai
đường nét đứt là khoảng tin cậy 95% của 𝑆(𝑡). Qua kết quả phân tích này ta thấy
xác suất sử dụng y cụ đến tuần 107 khoảng 25%.
1.4.1.4 Hạn chế của Kaplan-Meier
15
Phân tích Kaplan-Meier chỉ áp dụng cho một nhóm đối tượng và mục đích
chính là ước lượng 𝑆(𝑡) cho từng khoảng thời gian. Nhưng trong thực tế, nhiều
nghiên cứu có mục đích so sánh 𝑆(𝑡) giữa hai hay nhiều nhóm khác nhau.
Nếu ta sử dụng phương pháp trên thì ta có thể phân tích đơn giản là ước lượng
𝑆(𝑡) cho từng nhóm trên từng khoảng thời gian rồi so sánh hai nhóm bằng kiểm
1.4.2.2 Kiểm định Log-rank
Ta chia thời gian ra làm k khoảng 𝑡1 , 𝑡2 , … , 𝑡𝑘 , mà khoảng thời gian 𝑡𝑗 (𝑗 =
1, … , 𝑘) phản ánh thời điểm j khi một hay nhiều đối tượng của hai nhóm cộng lại.
Gọi 𝑛1𝑗 , 𝑛2𝑗 tương ứng là số đối tượng nguy cơ (chưa có một sự kiện hoặc
được kiểm duyệt) vào lúc bắt đầu của khoảng thời gian 𝑡𝑗 và 𝑛𝑗 = 𝑛1𝑗 + 𝑛2𝑗 là tổng
số đối tượng của hai nhóm lúc bắt đầu của khoảng thời gian 𝑡𝑗 .
Gọi 𝑜𝑖𝑗 (𝑖 = 1, 2) là số quan sát các sự kiện của nhóm i xảy ra trong khoảng
thời gian 𝑡𝑗 ; 𝑜𝑗 = 𝑜1𝑗 + 𝑜2𝑗 là sự kiện xảy ra trên cả hai nhóm sau thời gian 𝑡𝑗 .
Giả thiết hai nhóm có sự tồn tại như nhau và cùng nguy cơ. Với 𝑗 =
1, 2, … , 𝑘, ta có thể ước tính:
𝑒1𝑗 =
𝑜𝑗 𝑛1𝑗
𝑜𝑗 𝑛2𝑗
; 𝑒2𝑗 =
𝑛𝑗
𝑛𝑗
Trong đó 𝑒1𝑗 , 𝑒1𝑗 là xác suất trung bình.
Ngoài ra chúng ta có thể ước tính tổng số sự kiện xảy ra của nhóm một và hai
𝑘
𝑂1 =
𝑘
𝑜1𝑗 , 𝑂2 =
𝑗 =1
hay nhiều nhóm. Nhưng trong thực tế, 𝑆(𝑡) hay hàm nguy cơ có thể không chỉ khác
nhau giữa các nhóm mà còn chịu sự chi phối của các yếu tố khác. Vấn đề đặt ra là
17
làm sao ước tính mức độ ảnh hưởng của các yếu tố nguy cơ đến (𝑡) và kết hợp các
biến cố liên tục vào phân tích sự tồn tại.
Kiểm tra log-rank không thể được sử dụng để khám phá (và điều chỉnh cho)
những tác động của các biến số, như tuổi tác và đối tượng, khu vực đến sự tồn tại từ
đó chúng ta dự đoán được và có những tác động kịp thời. Phương pháp hồi quy
được giới thiệu bởi Cox được sử dụng để điều tra một số biến tại một thời điểm. Nó
còn được gọi là phân tích hồi quy nguy cơ theo tỷ lệ (proportional hazards
regression analysis).
Phần này được trích dẫn trong [1].
1.4.3
Giới thiệu sơ bộ về mô hình Cox
Mô hình Cox là một kỹ thuật thống kê để khám phá mối quan hệ giữa sự sống
còn của đối tượng với một số biến giải thích. Mô hình Cox cung cấp ước lượng hiệu
quả điều trị tỷ lệ sống sau khi điều chỉnh biến giải thích. Ngoài ra nó còn cho phép
ta ước lượng nguy cơ, rủi ro của cái chết của một cá nhân và đưa ra triệu chứng của
họ. Phân tích hồi quy Cox sẽ mang lại một phương trình cho các nguy cơ như một
hàm của một số biến giải thích.
Giải thích mô hình Cox liên quan tới việc kiểm tra các hệ số của mỗi biến giải
thích. Nếu các hệ số của biến giải thích dương cho ta biết nguy hiểm là cao hơn dẫn
đến triệu chứng là xấu đi. Ngược lại nếu các biến giải thích có hệ số âm cho ta biết
bệnh nhân đang tốt lên. Mô hình Cox được dựa trên một mô hình hóa cách tiếp cận
để phân tích dữ liệu tồn tại. Mục đích của mô hình là tìm hiểu tác động của một số
(𝑏1 𝑋1∗ + 𝑏2 𝑋2∗ + ⋯ + 𝑏𝑘 𝑋𝑘∗ )
𝐻𝑅 =
=
(𝑡, 𝑋)
0 𝑡 . exp
(𝑏1 𝑋1 + 𝑏2 𝑋2 + ⋯ + 𝑏𝑘 𝑋𝑘 )
𝑘
𝑏𝑗 (𝑋𝑗∗ − 𝑋𝑗 ))
= exp
(
𝑗 =1
Giả sử yếu tố nguy cơ là phân đôi và được mã hóa 1 nếu có và 0 nếu vắng
mặt. Sau đó, hệ số (𝑏𝑖 ) có thể được giải thích như là nguy cơ tương đối tức thời của
một sự kiện, bất cứ lúc nào, cho một đối tượng với hiện tại yếu tố nguy cơ so với
một đối tượng với các yếu tố nguy cơ vắng mặt, cho cả đối tượng đều giống nhau
trên tất cả các biến số khác.
Giả sử yếu tố nguy cơ là liên tục, sau đó số lượng điểm kinh nghiệm (𝑏𝑖 ) là
nguy cơ tương đối tức thời của một sự kiện, bất cứ lúc nào, cho một cá nhân với sự
gia tăng của một trong các giá trị của biến so với đối tượng khác, cho cả đối tượng
giống nhau trên tất cả các biến số khác.
Hàm nguy cơ theo tỷ lệ có thể được coi là một tỷ lệ của các hàm nguy cơ, vì
vậy mô hình nguy cơ hồi quy theo tỷ lệ nguy cơ có thể được coi như hàm nguy cơ
tương đối. Mặc dù không có mô hình xác suất cụ thể được lựa chọn để đại diện cho
thời gian tồn tại, tỷ lệ thuận với nguy cơ suy thoái không có một giả định quan
trọng: hàm nguy cơ cho bất kỳ đối tượng là một tỷ lệ cố định có tính chất nguy cơ
cho bất kỳ đối tượng khác. Tỉ lệ nguy cơ chỉ phụ thuộc trên các biến dự đoán và