由于生存分析中涉及的变量数量比较庞大,经常有遇到处理高维数据的情况,这时在运用Cox模型前就有必要对变量进行选择,去除冗余,这一篇接着上一篇生存分析学习笔记,主要讲我对运用自适应Lasso方法对Cox模型进行变量选择的理解。
我们已经知道Cox模型的风险率结构表达式为
*(这里对上一篇进行一下补充,当βi>0,xi为危险因素,其值越大,死亡的风险率就越高,当βi<0,xi为保护因素,其值越大,死亡的风险率就越低。这也好理解,系数正负的问题,想一下就明白的事儿。)
上一篇对变量选择简单提过一些统计学上的方法,这些线性回归的变量选择技术诸如最佳子集选择法、逐步选择法、基于积分检验的渐进过程、瓦尔德检验、其他近似卡方检验过程、Bootstrap Procedure和贝叶斯变量选择法。这些方法都是不连续的,所以稳定性较差并且不适合高维数据。
Lasso回归
对于变量的选择,也可以换个角度来看,这也是一个去除无用变量的过程,如果能够让该变量前面的β变为0,那么我们就实现了对该变量的去除,这种思想来自于连续系数压缩的变量选择方法。有人考虑过岭回归,但其惩罚函数 λ||β||不能将系数压缩至0,因此岭回归不能做变量选择。Lasso将岭回归中基于L2范数的罚函数换为基于L1范数的罚函数,通过压缩系数绝对值的和以及调整参数λ的选择,可以同时实现变量选择和估计的连续稳定过程。
但Lasso也有一个缺陷,那就是它对所有变量都施加相同的惩罚,使得其估计

本文探讨了在Cox比例风险模型中,如何利用自适应Lasso方法进行变量选择。针对Cox模型在高维数据中的应用,指出Lasso方法的不足并介绍自适应Lasso如何克服这些缺点,实现模型的稀疏性和无偏性。通过添加权重对系数进行二次惩罚,自适应Lasso能在保留重要变量的同时剔除无关变量,满足Oracle性质。文章还讨论了如何在Cox模型中应用自适应Lasso,并提出了求解方法,包括泰勒展开和循环坐标下降法。
最低0.47元/天 解锁文章
1623

被折叠的 条评论
为什么被折叠?



