高分生信套路,免疫预后模型结合临床样本验证

喵学姐又来啦,今天带大家来看一篇肿瘤生信常规的免疫相关预测模型套路(虽然文章比较早了)。这篇文章使用从5个数据库收集的乳腺癌患者的数据构建免疫评分模型,并评估了免疫评分模型与预后,化疗和临床特征之间的关系。

标题

基于免疫细胞浸润的免疫评分模型预测乳腺癌的预后和化疗效果

图片

研究背景

肿瘤进展是一个复杂的过程,需要癌细胞,微环境和免疫系统之间的相互作用,从而影响肿瘤的发生和发展。最近的研究表明,免疫系统细胞具有消除病原体,发挥有一定的影响对肿瘤的临床结果。肿瘤浸润淋巴细胞(TIL)占肿瘤浸润免疫细胞(TIIC)的相当一部分。它显示出抑制的TIL在黑素瘤肿瘤的生长和关联具有改善的临床结果。在人类表皮生长因子受体2阳性(HER2 +)和三阴性原发性乳腺癌(TNBC)中,较高的TIL与更好的无病生存期(DFS)和总体生存期(OS)相关。乳腺癌(BC)患者的高度免疫浸润与改善临床结果和治疗应答效果更好有关。然而,尚未有研究考虑肿瘤组织中肿瘤浸润免疫细胞

研究思路

图片

数据来源

作者从数据库TCGA 、GEO、ArrayExpress、ICGC、METABRIC获得乳腺癌(BC)患者的基因表达谱。预后模型的标准如下:数据集包含50多个人类原发性BC样本,显示OS时间和生存状态的系列以及转录组分析作为实验类型。最终包括29个系列(总共6844个样本)用于构建预后模型。

结果

PART.1构建预后免疫评分模型

作者使用分层抽样法,按照7:3的比例将29个数据集分为训练集和验证集。图1A展示了训练集中每个免疫细胞亚群与OS的关系的森林图。基于单因素Cox风险模型的分析结果显示,嗜酸性粒细胞、静息树突状细胞、静息和活化CD4+T细胞、静息肥大细胞、M0和M1巨噬细胞、记忆B细胞等与乳腺癌患者的总生存期(OS)显著相关。随后进行了LASSO Cox回归分析(图1B),最终在log值为-3.231时确定了静息CD4+T细胞、调节性T细胞、gamma-delta T细胞、活化NK细胞、单核细胞和M0巨噬细胞(图1C)。(TIIC)全局。因此必须基于完整的TIIC寻找潜在的生物标志物,以改善BC的预后预测和治疗效果

图片

△图1 构建预后免疫模型

根据多因素Cox回归分析构建预后免疫评分模型,风险评分=调节性T细胞*2.526-静息CD4T细胞*1.761- gamma-delta T细胞*2.334+活化NC细胞*3.408+单核细胞*2.645+M0巨噬细胞*1.591。根据阈值0.371将训练集的样本分为高风险组和低风险组。根据Kaplan-Meier曲线评估低风险组和高风险组的总生存期(图2A)。低风险组和高风险组的20年生存率分别为37.8%和20%(HR:2.72)(表1)。

PART.2预后免疫评分模型的验证

为了评估预后模型的性能,作者利用验证集、测试集(183例乳腺癌患者)以及合并后的数据集进行分析。根据阈值0.374将验证集和测试集的患者分为两组,并进行Kaplan-Meier分析。在验证集(图2B)、测试集(图2C)以及合并数据集(图2D)中,高风险组的总生存期(OS)显著低于低风险组。此外,合并数据集中,低风险组和高风险组的20年生存率分别为47.8%和30.1%,其相对危险比为2.10(见表1)。

    

图片

△表1 单因素Cox回归分析

PART.3使用预后免疫评分模型预测化疗效果

为了评估免疫评分与化疗效果之间的关系,研究者应用风险评分公式于TCGA数据集、测试集和METABRIC数据集。根据阈值0.374将这三个数据集分为低风险组和高风险组。在这三个数据集中,低风险组显示出较长的生存期(见图2E-2F)。在TCGA数据集中,接受AC和AC-T化疗的低风险组患者表现出明显的生存优势。此外,无论采用何种化疗方案,低风险组均表现出更好的化疗效果(见图2G)。

图片

△图2 低风险组和高风险组的KM生存曲线

PART.4 列线图改善预后免疫评分模型

通过单因素Cox回归分析选择OS的独立临床预后因子,结果表明年龄,肿瘤分级和肿瘤淋巴结转移(TNM)分期具有显著相关性(表1)。多因素Cox回归分析表明,风险评分,年龄,肿瘤分级和TNM分期是OS的独立预后因子(表2)。作者整合免疫评分和独立临床预后因子构建列线图(图3A)。

图片

△表2 多因素Cox回归分析

为了评估列线图的预测性能,作者使用训练集,验证集和测试集比较了列线图和TNM分期的C-index(表3)。列线图可以改善预后模型。根据列线图的校准曲线,预测的5年,10年和20年的生存率和实际生存率相差不大(图3B)。决策曲线也表明列线图的预测效果更好(图3C)。

图片

△表3 TNM分期和列线图的C-index

图片

图片

△图3 构建列线图

PART.5 预后免疫评分模型预测乳腺癌患者的临床特征

在训练集和验证集中进一步研究预后免疫评分与临床特征之间的关系。训练集中,TNM分期,M分类和BC的分子亚型与免疫评分显著相关(图4A)。验证集中,高免疫评分与TNM分期,M分类和BC的分子亚型呈正相关(图4B)。

图片

△图4 免疫预后模型的免疫评分进行临床特征的分层分析

PART.6预后免疫评分模型预测与T细胞信号转导,免疫检查点,炎症和EMT相关的基因的差异表达

使用预后免疫评分公式计算836个TCGA样本的免疫评分。根据阈值0.374将样本分为低风险组和高风险组。GSEA分析表明低风险组显著富集在T细胞受体信号通路,抗原受体-介导信号通路,和免疫应答活化等通路(图5A)。低风险组免疫检查点CTLA-4,PD-1和PD-L1的表达量显著升高(图5B)。共鉴定到218个差异表达基因(38个上调基因和180个下调基因)。其中MMP9,SPP1,MMP12等基因在高风险组显著上调表达(图5C)。GO富集分析表明,高风险组中的基因主要参与细胞外基质,细胞外结构组织,胶原分解代谢过程,细胞外机制分解等功能(图5D)。

图片

△图5 低风险组和高风险组患者的差异分析和富集分析

END

作者利用TCGA和GEO等5个数据库中的乳腺癌患者表达谱数据,建立了免疫评分模型,该模型能够准确预测患者的总生存期。并通过验证集进行验证。此外,作者还分析了该预后免疫评分模型对患者化疗效果和临床特征的预测能力。本提出的免疫评分模型为乳腺癌患者预后评估提供了重要的实证支持。

<think>好的,我现在需要帮助用户了解如何使用训练集和测试集构建列线图。首先,我需要确认自己对列线图的理解是否正确。列线图,也称为诺莫图,是一种用于可视化统计模型的工具,能够将多因素回归模型的结果以图形方式展示,方便预测个体结果。用户提到使用训练集和测试集成列线图,可能是在模型验证过程中需要分别在训练和测试集上构建,以评估模型的泛化能力。 接下来,我需要回忆相关的步骤。构建列线图通常涉及建立回归模型(如逻辑回归或Cox回归),然后使用特定的包(比如R中的rms或regplot)来绘制。用户的问题涉及训练集和测试集,这意味着可能需要先在训练集上建立模型成列线图,然后在测试集上验证模型的预测效果,或者比较两者的列线图差异。 然后,我需要查阅用户提供的引用内容。引用[1]提到了使用Python划分训练集和测试集,这可能在数据准备阶段相关。引用[2]讨论了用R语言绘制小提琴图比较训练集和测试集的残差分布,这可能与模型评估有关。引用[3]则涉及视频数据集的划分,但可能相关性较低。用户的问题是关于列线图的,所以重点在引用[1]和[2],尤其是数据划分和结果可视化部分。 接下来,我需要考虑如何将训练集和测试集应用到列线图的构建中。通常,列线图是基于训练集建立的模型,但为了验证模型的稳定性,可能需要在测试集上应用同样的模型参数成另一个列线图,或者比较两者的预测结果。例如,使用训练集建立的模型成列线图后,用测试集的数据输入该列线图,观察预测值与实际值的吻合程度,从而评估模型的泛化能力。 然后,我需要考虑具体的实现方法。在R语言中,使用rms包中的nomogram函数可以成列线图。步骤可能包括:数据准备、划分训练测试集、在训练集上建立模型成训练集的列线图,然后在测试集上用同样的模型成预测值,再通过可视化手段(如校准曲线)比较两者的表现。引用[2]提到的小提琴图可能用于展示残差分布,而引用[1]中的train_test_split在Python中的数据划分可能需要在R中类似处理,比如使用caret包中的createDataPartition函数。 用户可能需要具体的代码示例。例如,在R中,首先加载必要的包,准备数据并划分训练集和测试集,然后在训练集上建立逻辑回归模型成列线图。接着,使用测试集的数据进行预测,并绘制校准曲线来验证模型在测试集上的表现。这样,用户可以看到模型在训练集和测试集上的预测一致性,确保模型不过拟合。 还需要注意可能的误区,比如列线图通常是基于训练集成的,而测试集用于验证,因此测试集本身可能不直接成列线图,而是用训练集的模型来预测测试集的数据。因此,在解释时需要明确说明这一点,避免用户误解为在测试集上重新成列线图。 最后,需要检查是否有遗漏的步骤或潜在问题。例如,数据预处理的步骤是否需要统一应用到训练集和测试集,模型的假设是否满足,以及列线图成后的解读方法。此外,引用中的示例可能涉及不同的编程语言(Python和R),需要明确说明在成列线图时可能需要使用R语言的相关包,而数据划分可以在Python或R中完成。</think>### 如何使用训练集和测试集构建列线图? 列线图(Nomogram)是一种通过图形化方式展示多变量回归模型预测结果的工具,常用于医学和统计学领域。结合训练集和测试集使用时,需遵循以下步骤: --- #### **步骤 1:数据划分与模型训练** 1. **划分数据集**:将数据分为训练集(构建模型)和测试集(验证模型)。 - Python示例(引用[1]): ```python from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ``` - R示例: ```R library(caret) set.seed(42) train_index <- createDataPartition(y, p=0.8, list=FALSE) train_data <- data[train_index, ] test_data <- data[-train_index, ] ``` 2. **训练模型**:在训练集上构建回归模型(如逻辑回归、Cox比例风险模型)。 ```R library(rms) model <- lrm(y ~ x1 + x2 + x3, data=train_data) ``` --- #### **步骤 2:成训练集的列线图** 使用R语言中的`rms`包直接成列线图: ```R ddist <- datadist(train_data) options(datadist="ddist") nom <- nomogram(model, fun=plogis, funlabel="Predicted Probability") plot(nom) ``` - `fun`参数指定预测函数(如逻辑回归用`plogis`)。 - 列线图会展示每个变量的得分及总得分对应的预测值[^1]。 --- #### **步骤 3:验证测试集性能** 1. **预测测试集结果**: ```R test_pred <- predict(model, newdata=test_data, type="lp") ``` 2. **可视化验证**: - **校准曲线**:比较预测概率与实际概率的一致性。 ```R val.prob(test_pred, test_data$y) ``` - **残差分布**:使用小提琴图比较训练集和测试集的残差(引用[2]): ```R library(ggplot2) ggplot(residuals_data, aes(x=Dataset, y=Residual)) + geom_violin() + geom_boxplot(width=0.1) ``` --- #### **示例:列线图在测试集的应用** 若需直接在测试集成列线图(不推荐,因模型参数来自训练集),需将测试集绑定到`datadist`: ```R ddist_test <- datadist(test_data) options(datadist="ddist_test") nom_test <- nomogram(model, fun=plogis, data=test_data) plot(nom_test) ``` - 此方法仅用于对比训练集与测试集的变量影响差异,需谨慎解读[^3]。 --- #### **关键注意事项** 1. **模型泛化性**:列线图基于训练集构建,测试集仅用于验证预测一致性。 2. **数据分布一致性**:训练集和测试集的变量分布需相似,否则列线图可能失效。 3. **工具依赖**:推荐使用R语言的`rms`包,Python暂无成熟的列线图库。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值