在这个系列中,我们将用最通俗易懂的方式介绍适用于临床组学数据的建模方法,典型案例,以及如何评价模型的好坏,如何使用模型进行判断或预测,最后还让大家能够不用代码就可以尝试DIY建模。保证您不仅能看懂报告内容、理解统计方法、最终自己还能复现出图表,收获满满!请大家关注谱度众合,以便于持续接收我们的干货投喂!话不多说,进入今天要填的第一坑——Lasso回归。主要内容包括:


建模听起来很玄乎,其实它的本质,是通过已知数据(队列中的患者信息)模拟总结出一个方程用来归纳自变量X(临床因素)与因变量Y(临床结局)之间的关系,从而在遇到新的X取值(个体患者的临床数据)的时候,可以预测Y(个体患者的临床结局)。而临床蛋白质组学数据比较特殊,每一个蛋白质信息都是一个自变量X, 因此自变量的数目非常非常多,甚至远远超过了样本的数量,如果把所有的自变量都纳入模型中,这个模型会非常复杂冗余,还可能出现过拟合现象。我们需要对这些自变量进行筛选和压缩,Lasso回归就适用于这种情况。
Lasso是最小绝对值收敛与选择算子(Least Absolute Shrinkage and Selection Operator)的缩写。Lasso回归在一般线性回归基础上加入一个惩罚项λ(L1正则化,使得目标函数中不重要特征的系数变为0),在保证最佳拟合误差的同时,通过对模型参数进行数量和系数大小的调整,筛选出对目标变量有更大预测能力的特征,从而降低模型复杂度,并减少多重共线性的影响,防止模型过拟合,提高模型泛化能力。(如果这段话没看懂,可以看下一段)
简单来说,lasso回归帮助我们从成千上万的蛋白中,筛选出了对于疾病的诊断或预测最重要的一些蛋白,让模型又简单又好用。并且Lasso回归应用范围很广,很多类型的因变量(即模型中的预测结局Y)都适用,包括数值变量、生存资料、二分类/多分类变量等。所以在我们的临床组学数据处理中,会用Lasso回归进行变量筛选(新英格兰杂志推荐哦)!

以上的特征使得Lasso回归在许多筛选生物标志物和构建临床预测模型相关研究中大展身手。这里为大家举两个例子。
案例一:比如于2023年发表

最低0.47元/天 解锁文章
1604

被折叠的 条评论
为什么被折叠?



