
生存分析
文章平均质量分 72
生信小博士
本人声明2024年之前的内容非本人原创,仅作为记录本人的学习过程的一个平台,当时声明原创是由于平台自动默认,刚使用这个平台不太清楚,现在很多文章找不到原文链接,批量修改过于复杂,如有内容不适合发表在本博客上,对您造成影响,请及时联系我删除该内容或在文章下方声明是您的原创,不甚感激。2024年的内容为本人原创如有兴趣,可关注了解。
展开
-
(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 芯片没有注释信息 从头基因组比对gtf文件开始atcg 只有探针核苷酸序列的首先探针核苷酸序列需要比对到参考基因组然后比对后的文件
这是我第二次在标题上写重磅!价值一千元的代码,虽然下面的技能或者说代码对我来说是非常简单啦,但是在有需求的粉丝看来真正的价值不可估量。纯粹的R代码技巧,怕粉丝看不懂,我已经花了一个星期做铺垫:123456以前我会简单的回答,其实就是芯片探针的重新注释,重点是probe sequences 探针序列下载uniquely mapped to the human genome (hg19) by Bowtie without mismatch. 参考基因组下载及比对。原创 2022-11-15 22:46:37 · 293 阅读 · 0 评论 -
timeroc 最优最佳截断值特异度(specificity)与灵敏度(sensitivity)
5.获取最佳截断值另一种的方法我已经用过很多次了,survminer包里的surv_cutpoint函数,选出让高低两组间差异最显著的截断值。用它来计算的结果,没有考虑到时间因素,因此与上面得到的结果不相同。我想了一下,是因为timeROC的计算中,生存时间超过1年,最终结局为死亡的病人,在1年时生存状态为活着。当我把这部分病人的生存状态改为0(活着),这两个方法计算出来的结果就相同咯用这个截断值做分组,看看KM曲线作者:小洁忘了怎么分身。原创 2022-10-22 15:33:03 · 3808 阅读 · 0 评论 -
for_paper_survival bal GSE70867
【代码】for_paper_survival bal GSE70867。原创 2022-10-20 23:33:53 · 148 阅读 · 0 评论 -
R笔记:全子集回归 | 最优子集筛选变量挑选
有些教程把最优子集定义为从含相同自变量的个数的所有模型中挑选出最佳的模型组合,比如ABCD四个自变量,可以有2^4=16个模型,其中常数项模型1个,含1个自变量的模型4个(A、B、C、D),含2个自变量的模型6个(AB、AC、AD、BC、BD、CD),含3个自变量的模型4个(ABC、ABD、ACD、BCD),含4个自变量的模型1个(ABCD),分别从含有1、2、3、4个自变量的模型中挑选出最佳的一个模型就可以组成最优子集。在进行模型比较时,R^2、校正的R^2越大,Cp值越小模型越佳。原创 2022-10-18 13:06:00 · 8879 阅读 · 0 评论 -
【4】比例风险(PH)假定检验:比例风险假定是Cox回归的前提条件,可以通过计算检验,也可以通过图示法。
如想进一步检验每个协变量的比例风险假定,可在继续点击对话框[estat-后验估计统计量]中的[选项]按钮,在打开的对话框中选择复选框[单独检验每个协变量的比例风险假设]。如果运气不好,你的数据违背了比例风险的假定,可以考虑采用含时依协变量的Cox回归,而且含时依协变量的Cox回归也可以作为验证比例风险的假设的一种手段。①统计>>生存分析>>回归模型>>Kaplan–Meier生存曲线和Cox预测曲线比较;①统计>>生存分析>>回归模型>>比例风险假设的图形评估;②图形>>生存分析图>>比例风险假设检验;原创 2022-10-18 11:15:01 · 4201 阅读 · 0 评论 -
R语言实战 input+结果——ROC曲线的绘制 auc 时量下曲线面积
第一步当然得处理一下数据。原创 2022-09-19 16:33:11 · 3573 阅读 · 0 评论 -
实战 lasso特征筛选得到5个基因 cox单因素分析得到很多有意义的基因 如何lasso筛选特征基因 然后再进行cox多因素分析
Lasso + Cox 生存分析模式Lasso可以在模型参数估计的同时实现变量的选择,能够较好的解决回归分析中的多重共线性问题,并且能够很好的解释结果。Lasso回归算法使用L1范数进行收缩惩罚,对一些对于因变量贡献不大的变量系数进行罚分矫正,将一些不太重要的变量的系数压缩为0,保留重要变量的系数大于0,以减少Cox回归中协变量的个数。原创 2022-10-17 16:36:08 · 15136 阅读 · 0 评论 -
有了风险因子森林图为什么还需要列线图
Posted on今天这个推文甚至算不上一个教程,但是里面的代码其实是复制粘贴就可以运行哦。之所以写它,主要是是因为交流群有粉丝总是问各种各样的代码问题,风险因子森林图啊列线图的,归根到底就是R基础知识不牢固,所以报错连连。抛开R代码知识不谈,我这里提出来一个有意思问题,有了风险因子森林图为什么还需要列线图?原创 2022-10-16 19:35:03 · 794 阅读 · 0 评论 -
预测模型 | 8. 一致性指数 (Concordance Index, C-index) ci值 cox
可见,区分度并不是评估模型预测的概率与现实性的差异或一致性的指标,而是评估模型有多大把握确定它所预测的患者发生该事件的能力。,0.8为AUC或C-index对模型区分度的评估结果,即有80%的把握确定该事件发生。例如:某列线图(AUC或C-index=0.8)预测某患者5年复发风险为70%。因此,很多人对AUC和C指数的解释是评估模型预测与实际的一致性,这是不准确的。R的报错中,很大一部分原因是导入数据后数据变量性质、名称等处理错误所致。这里汇报了校准前的index和校准后的index。原创 2022-10-16 19:13:25 · 5883 阅读 · 2 评论 -
R语言| 16. 预测模型变量筛选: 代码篇 cox模型选择变量筛选
MSE是衡量平均误差的一种较方便的方法,MSE 可以评价数据的变化程度,MSE的值越小,说明预测模型描述数据具有更好的精确度。图中,一条彩线代表一个变量的回归系数β值的变化,x轴下方的数字为惩罚值(调优系数),x轴上方为在该值下的剩余的变量个数。如图所示:随着λ增加,各变量的回归系数β在减小,有些会变为0,说明该变量在此时对模型贡献微乎其微,可以剔除。说明因变量为服从高斯分布的连续型变量,但是有多个因变量,输入的因变量为一个矩阵,对应的模型为。即执行下面两行代码,x=要纳入的变量,y=生存分析的结局。原创 2022-10-16 19:07:41 · 11840 阅读 · 5 评论 -
R语言:多因素Cox回归森林图 (基于forestplot包) 森林图 cox可视化
计划是介绍一下单因素、多因素、亚组分析、其他类型森林图绘制;列线图部分介绍下基本的变量筛选方法、绘制过程、验证方法(ROC/DCA/校准图/分组比较等)、网页版列线图。其中,1.2是对表的修改,改完表,图就改了;3-5步是通过改字体、线宽等优化的。三-4、字体大小增粗、线条粗细、线型(包括置信区间)、行间距、列间距;三-3、加水平线、垂直辅助线、x周标签、大标题、森林图占比;三-5、颜色、HR方块形状等。三-2、显示所有亚组的患者数。三-1、显示所有变量;三-2、加入患者数目;三-1、显示所有变量。原创 2022-10-15 16:57:11 · 19428 阅读 · 6 评论 -
#多个基因批量cox 多因素回归cox univariate Adjust for age sex单个基因cox 回归分析 多因素 矫正年龄性别之后的cox回归分析 矫正年龄性别之后的cox生存分析
单个基因cox 回归分析 (多因素)原创 2022-10-14 23:09:36 · 1159 阅读 · 0 评论 -
Cox与KM生存分析及结果解读 不同的生存分析方法 单因素和多因素生存分析的比较km cox回归分析差异 生存分析结果详解 结果解读 参数详细解释 全因死亡率
KM 方法即Kaplan-Meier survival estimate是一种无参数方法(non-parametric)来从观察的生存时间来估计生存概率的方法。KM生存分析模型,是单变量分析(univariable analysis),在做单变量分析时,模型只描述了该单变量和生存之间的关系而忽略其他变量的影响。(为什么要考虑multi-variables?比如在比较两组病人拥有和不拥有某种基因型对生存率的影响,但是其中一组的患者年龄较大,所以生存率可能受到基因型 或/和 年龄的共同影响)。原创 2022-10-10 00:12:58 · 19552 阅读 · 0 评论 -
分类,等级,或者有序变量如何进行多因素Cox回归 变量的类型决定了最终结果的reference
这类变量可以进行等级划分,进行排序比较,比如喜欢的程度可以分为高中低,高中的年级可以是高一、高二、高三,学历可以分为小学、中学、高中、大学、研究生等。这也是定性变量的一个性质。解决办法是在准备cox分析输入文件时,不要把tumor stage 按照 1,2,3,4粗暴的进行赋值,这样会触发r包的识别机制,r包会很自然的把tumor stage按照连续变量进行计算。之前,根据某自学网的课程进行Cox分析的学习,自打那时起,我就把Cox分析的准备文件全部整理成连续变量。这样就可以愉快的发文章啦!原创 2022-10-14 18:02:46 · 3848 阅读 · 0 评论 -
咋筛选变量进入多因素回归 纳入变量 变量选择 类似机器学习的特征选择 cox回归分析cox多因素
在前期推送的内容中,我们介绍了构建多因素回归模型,探讨对结局指标有独立作用的影响因素,就好比侦探破案找出真凶的过程。我们作为研究人员,就像是一名侦探,通过统计学方法及专业知识,在众多的嫌疑人中一一排查,来一次『白夜追凶』,最终才能找出真正的凶手X。当然,要做一名好侦探,你一定要有一种可靠的直觉,能够准确划定嫌疑人的范围,这才是成功破案最为关键的一步,如果事先连嫌疑人都判断错了,那就只能让凶手逃之夭夭了。原创 2022-10-14 17:54:14 · 2955 阅读 · 1 评论 -
第二十八讲R语言-Cox比例风险模型1如何纳入因素责骂知道风险因素是相对于谁来说的reference control是谁 基准 对照 参照置信度signif(summary(m)$conf.int[,
此外,Cox回归模型扩展了生存分析方法,以同时评估几种风险因素对生存时间的影响,并且给每一个因素提供了统计量的大小以反映因素对事件发生的影响大小。如果保持其他协变量不变,则ph.ecog的值越高,存活率越低,即在其他协变量都一致的人群中,ph.ecog每增高一个单位,死亡风险增高59%。值bi大于零,即风险比大于1,表示随着协变量ith的增加,事件风险也增加,于是生存期减少。与KM生存曲线不同的是,Cox模型拟合曲线输出的是在矫正了其他协变量因素以后的预测的生存率,而不是实际观察到的生存率情况。原创 2022-10-14 17:43:06 · 1684 阅读 · 1 评论 -
基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大? km cox生存分析 多因素生存分析
现在有了《专辑》这个功能,其实更方便查看我们的历史教程啦。因为我五年前做生存分析研发这个代码的时候,就是根据基因表达量,把病人分成了高低表达两个组,不管是使用cox还是km,都是这样做的。但是最近有学生反映,使用cox还是km拿到的基因的生存效果是一致的, 就是风险因子和保护因子的分类问题。主要是靠HR值来判断咯。原创 2022-10-12 22:29:05 · 3077 阅读 · 0 评论 -
将随机森林应用到医学中 预后
我们会获得每个基因的权重(importance),用以表征基因对疾病分类的重要程度(如果分类特征是生存状态,那么就可以表征基因对预后的重要性)。随机森林是当下非常受欢迎的机器学习算法之一,鲁棒性好且易于使用。在数据挖掘中,我们常用它来构建分类模型,今天就来看看它在科研中的实际应用。,我们可以利用R包randomForest构建随机森林分类器,通过特征基因预测疾病分类。比如我们拿到了一些基因在某个疾病中的的表达谱,也有对应的样本分类,如。原创 2022-10-11 23:45:35 · 1241 阅读 · 0 评论 -
GEOquery只下载临床信息如何只查看geo的临床信息而不下载矩阵
找到想要进行分析的数据之后第一件事可能就是获取临床信息表了,例如,我要是用GSE42568进行分析,打开GEO官网你就会发现没有地方可以下载临床信息表。GEO只提供3种格式的数据: 。如何得到这种类型的临床信息表呢?往往大家都是各显神通,有用excel处理的、有写编程处理的,反正不是特别简单。这三种格式都是临床信息表与表达谱交杂在一起的。行名不是指标的名称,而是十分诡异的!链接:https://zhuanlan.zhihu.com/p/393688973。这显然不是我们需要的临床信息表。原创 2022-10-11 23:43:09 · 2455 阅读 · 1 评论 -
批量生存分析 提取生存正相关基因 生存负相关基因 survival_genes_split 生存分析得到的显著性基因 高低表达与生存期的关系 0=高表达生存预期差;1=高表达生存预期好s
【代码】批量生存分析 提取生存正相关基因 生存负相关基因 survival_genes_split 生存分析得到的显著性基因 高低表达与生存期的关系 0=高表达生存预期差;1=高表达生存预期好s。原创 2022-10-11 19:38:36 · 632 阅读 · 0 评论 -
IPF 196个肺泡灌洗液IPF中所有的基因 具有显著性生存分析的基因 前1000个 IPF中所有具有显著性的基因 三个机构的数据单独处理最后合并做生存分析 BAL灌洗液gse70866
批量生存分析 得到具有显著性的所有基因原创 2022-10-09 21:39:38 · 292 阅读 · 0 评论 -
yll duqiang 制作geo三个独立数据集IPF基因集合 用于分析某个基因是否与生存期相关THBS2 mmp7
制作IPF基因集合 用于分析某个基因是否与生存期相关。原创 2022-10-09 17:42:27 · 411 阅读 · 0 评论