前言
感谢吕教授的代码和指导!
还是之前那篇文章:

1. SEER 数据库数据提取。
解剖学位置:Site and Morphology: Primary site-labeled = c09.0,c09.1,c09.8,c09.9;
形态学编码:8070/3, 8071/3, 8072/3, 8083/3;
Year of diagnosis: 与AJCC(第六版)的配套:2004-2016;
总共拿到2万多条数据。
2.数据清洗
都在R里面完成,这样不用每次都整excel,直接在R里面调整即可。出现新的字段,一定要全面了解新字段的分类信息。

最终留下了1多万条数据,怎么样都去不掉了。将字段转化成factor。
3.画基线表
三七分分成训练组及验证组,然后画基线表。

4.多因素及多因素Cox回归

5.nomogram

c-index: 0.734,模型没问题。
感觉AJCC占比不高啊。
6.ROC

7.校准曲线

8.DCA曲线

5年,与AJCC做对比。
9.NRI值

5年。
10. IDI值
## 5年
"IDI" "p.value"
0.140618419400642 0
11.批量画OS生存曲线

分期越靠后,存活率越低。

肿瘤越大,存活率越低。
总结
里面有很多1,3,5年的数据,我都包装成了函数,省了很多篇幅,而且不易出错。统一设定好一套代码,跑完所有训练及和测试集,自动出数据。

至此,预测模型算是完整的走完了。还剩下一些细节,比如对SEER字段的理解,对终点事件的解读。还有就是涉及到具体课题的结果解读了。
至此,预测模型算是完整的走完了。还剩下一些细节,比如对SEER字段的理解,对终点事件的解读。还有就是涉及到具体课题的结果解读了。
文章首发于微信公众号:颗粒神经元。欢迎关注。
1689





