什么是生存分析?
生存分析(在工程中也称为可靠性分析)的目标是建立协变量与事件发生时间之间的联系。该算法起源于临床医学研究,往往主要目标是预测死亡时间,即生存。生存分析是一种回归问题(人们想要预测一个连续的值),它与传统回归的不同之处在于,部分训练数据只能被部分观察到(它们被删减了)。
例如:
考虑一项临床研究,该研究调查了冠心病,时间跨度为1年。如图所示。
患者A在3个月后失去随访,无心血管事件记录,患者B在入组4个半月后发生事件,患者D在入组2个月后退出研究,患者E在研究结束前未发生任何事件。因此,只能记录患者B和C的心血管事件的确切时间,他们的记录是未删失的。对于剩余的患者,不知道他们是否在研究结束后是否发生了事件,因此他们的信息是删失的。
形式上,每个患者记录由一组协变量组成x∈Rdx \in \mathbb{R}^dx∈Rd,以及时间t>0t>0t>0事件发生的时间或时间c>0c>0c>0删失。由于删失、经历和事件是相互排斥的,所以通常定义一个事件指示器δ∈{
0;1}\delta \in \{0;1\}δ∈{
0;1}以及可观察到的生存时间y>0y>0y>0。右删失样本可观测时间yyy的定义为
y=min(t,c)={
t if δ=1c if δ=0y=min(t,c)=\begin{cases} t& \text{ if } \delta =1 \\ c& \text{ if } \delta =0 \end{cases}