今天被粉丝发的文章给难住了,又偷偷去学习了一下竞争风险模型,想起之前写的关于竞争风险模型的做法,真的都是皮毛哟,大家见笑了。想着就顺便把所有的生存分析的知识和R语言的做法和论文报告方法都给大家梳理一遍。
什么时候用生存分析
当你关心结局和结局发生时间的时候,就要考虑生存分析了,这种既有结局又有时间的数据叫做生存数据,英文叫做Time-to-event data. 只不过因为这个方法医学上用来分析存活情况用的多,所以得名生存分析,反正你就记住一个例子,我要研究汽车发生故障,我也应该用生存分析,因为我既关心是不是有故障,我还关心用了多久(跑了多远)才出故障,就是既有time,又有event,Time-to-event data就用生存分析。
基本概念
首先是删失,对象失访了,脱落了,出现结局之前随访结束了,都叫做删失:
删失又分为左删失,区间删失和右删失,图示如下:
比如我想研究得了A病的人的生存情况,存在的所有可能情形为:
第一种,研究的开始的时候有人已经有A病,这个时候人家已经活了一段时间了,具体多久我不知道,叫做左删失;
第二种,入组随访的时候没病,中途得了A病死了,什么时候得的,没记录下来,叫区间删失;
第三种,得了A病,一直活到了研究结束还没死,叫做右删失。
你看,所有的删失情况造成的后果都是我们没法准确估计发生结局的时间,这也是其名字删失的由来,对于这类数据就需记录为删失数据。
生存分析的种类有哪些
具体的种类是为了回答具体的问题,我们做生存分析常常要回答的问题如下:
一个是描述生存情况,一个是比较,再一个就是探究影响因素。
比如我随访了很多病人,我就想知道随着时间变化这群人的生存概率是如何变化的(描述)?我就可以用简单粗暴的Kaplan-Meier method,又叫乘积极限法,基本思想就是此刻的生存概率等于上一时刻的生存概率乘以此刻的存活率。
比如我手上有如下数据:
time是随访时间,status是结局,我就可以写出如下代码拟合出总体人群的生存曲线:
fit1 <- survfit(Surv(time,