Cox模型中的变量选择（1）---自适应Lasso方法

最新推荐文章于 2025-03-28 09:49:01 发布

原创

最新推荐文章于 2025-03-28 09:49:01 发布 · 2.1w 阅读

112 ·

CC 4.0 BY-SA版权

文章标签：

#Cox模型 #自适应Lasso #变量选择

本文探讨了在Cox比例风险模型中，如何利用自适应Lasso方法进行变量选择。针对Cox模型在高维数据中的应用，指出Lasso方法的不足并介绍自适应Lasso如何克服这些缺点，实现模型的稀疏性和无偏性。通过添加权重对系数进行二次惩罚，自适应Lasso能在保留重要变量的同时剔除无关变量，满足Oracle性质。文章还讨论了如何在Cox模型中应用自适应Lasso，并提出了求解方法，包括泰勒展开和循环坐标下降法。

由于生存分析中涉及的变量数量比较庞大，经常有遇到处理高维数据的情况，这时在运用Cox模型前就有必要对变量进行选择，去除冗余，这一篇接着上一篇生存分析学习笔记，主要讲我对运用自适应Lasso方法对Cox模型进行变量选择的理解。

我们已经知道Cox模型的风险率结构表达式为

*（这里对上一篇进行一下补充，当β_i>0，x_i为危险因素，其值越大，死亡的风险率就越高，当β_i<0，x_i为保护因素，其值越大，死亡的风险率就越低。这也好理解，系数正负的问题，想一下就明白的事儿。）

上一篇对变量选择简单提过一些统计学上的方法，这些线性回归的变量选择技术诸如最佳子集选择法、逐步选择法、基于积分检验的渐进过程、瓦尔德检验、其他近似卡方检验过程、Bootstrap Procedure和贝叶斯变量选择法。这些方法都是不连续的，所以稳定性较差并且不适合高维数据。

Lasso回归

对于变量的选择，也可以换个角度来看，这也是一个去除无用变量的过程，如果能够让该变量前面的β变为0，那么我们就实现了对该变量的去除，这种思想来自于连续系数压缩的变量选择方法。有人考虑过岭回归，但其惩罚函数 λ||β||不能将系数压缩至0，因此岭回归不能做变量选择。Lasso将岭回归中基于L2范数的罚函数换为基于L1范数的罚函数，通过压缩系数绝对值的和以及调整参数λ的选择，可以同时实现变量选择和估计的连续稳定过程。