非因解读 | 利用RPPA数据准确预测肺癌生存亚型

研究通过多组学数据和深度学习方法,利用RPPA蛋白组学数据预测非小细胞肺癌患者的生存亚型,发现仅依赖RPPA数据即可准确预测,揭示了RPPA在肺癌预后评估中的潜力。

利用RPPA数据准确预测肺癌生存亚型

肺癌作为全球发病率和死亡率最高的癌种之一备受关注,而如何提高肺癌预后准确率则显得尤为重要。近年来,多组学整合分析已经逐渐显露出在临床探索和应用中的巨大价值,然而,与之相关的方法学尚未完全建立。随着数据维度的增长,去除冗余信息、发掘有效信息的新方法和生物信息学手段需要进一步完善。Ken Asada等科学家联合多家单位,在《Biomolecules》杂志上发表题为“Predicting Deep Learning Based Multi-Omics Parallel Integration Survival Subtypes in Lung Cancer Using Reverse Phase Protein Array Data”的文章(图1),文章通过基于TCGA多组学数据的第一维度分析,同时结合人工智能算法,发现了仅依赖于RPPA蛋白组学数据定义的预后生存亚型,体现了蛋白组分析在预后生存研究中的巨大价值。

图片

图1

研究亮点

研究者开发了一种新方法,利用多组学数据准确预测肺癌患者的生存特征。采用无监督的机器学习技术,将TCGA数据库中6类非小细胞肺癌(NSCLC)相关的组学数据划分为不同的生存亚型。该生存亚型被称为整合生存亚型,并将患者划分为长生存期和短生存期两组(p=0.003),而且该研究发现,这些生存亚型与组织病理学无关(p=0.94)。研究者同时尝试仅用RPPA蛋白组学数据集来验证整合的生存亚型,该方法可以准确的预测整合生存亚型(AUC=0.99),预测的生存亚型可以明显的区分出高风险患者和低风险患者(p=0.012)。该研究揭示了多组学分析、尤其是RPPA蛋白组学数据在预测肺癌患者预后中的宝贵价值。

RPPA新型靶向蛋白组学作为一种高通量的多重蛋白靶点分析技术,可实现大规模样本的几百种中低丰度蛋白靶点和修饰靶点的平行分析;同时RPPA具有其它高通量蛋白组学所无可比拟的超高灵敏度,可在40微克总蛋白或15毫克组织中(米粒大小)分析>300种中、低丰度蛋白,包括大量药物靶点、细胞信号蛋白、翻译后修饰蛋白(磷酸化,乙酰基化,甲基化)等。非因生物传承MD安德森癌症中心的价值和理念,已经开发了一整套包含几百个蛋白和磷酸化靶点的RPPA蛋白组学分析panel——Cancer Signaling Pano-Profiler,非因RPPA新型蛋白组学技术在定量能力、重复性、大样本分析比对能力上的优势,是其它蛋白组学技术手段所不具备的。

研究思路

文章以发病1天-10年之间的肺癌患者为研究对象,从TCGA数据库获取了6类(miRNA,mRNA,methylation, CNV, Somatic mutation和RPPA)肺腺癌(LUAD)和肺鳞癌(LUSC)的临床和多组学数据;根据样本ID(6类组学数据都全的病例或缺失的病例)将数据划分为Common ID和Uncommon ID。首先利用开发的包含神经网路特征筛选的自动编码器(Autocoder)将各组学数据矩阵进行降维(每个组学都降至100维),然后用Cox-PH模型选择各组学的特征值来构建整合的组学矩阵,进一步k-means聚类、logistic回归、生存分析等方法来预测整合生存亚型。该研究同时开发了XGBoost和LightGBM两种模型来预测与整合生存亚型相关的蛋白质。其中组学Common数据训练及验证模型的比例为80:20;并用Uncommon数据,尤其是RPPA-uncommon来验证模型预测整合生存亚型的有效性及准确性(图2)。

图片

图2

研究结果

1. 无监督的方法获取具有临床意义的生存亚型

作者从TCGA数据库获取了6类LUAD和LUSC的临床和多组学数据。根据样本ID将数据划分为Common ID和Uncommon ID。Common ID包括6类多组学数据,其他的ID被定义为各组学的Uncommon ID。Common ID总计483个,Uncommon ID因组学类型而异(Table 1)。

图片

利用Autocoder将6类组学数据维度均降至100,形成6个简化的数据集。对简化的数据集进行单变量Cox-PH回归分析,筛选出与患者生存率显著相关的特征值。特征值的筛选标准为:p值<0.01或0.01<p值<0.05,并筛选出6类组学数据集中p值排前三的特征值。共筛选到29个基于6个组学信息的特征值(Table 2),然后进一步将这6类数据集整合为一个单一的矩阵(行为样本ID,列为特征值,即483x29),并称其为组学矩阵。

图片

接下来,作者利用组学矩阵来确定合适的聚类数目。依据Calinski-Harabasz标准和Silhouette指数来确定最佳聚类数目(图3a,b)。结果显示2为最佳的聚类数目。图3c为t-SNE可视化的基于29个组学特征的k-means聚类结果。由k-means聚类中推断出的标记称为Cluster ID。进一步的生存分析结果表明,不同Cluster ID组(整合生存亚型)的生存率存在显著差异(p=0.03,图3d)。属于整合生存亚型1(较长生存期)和整合生存亚型0(较短生存期)的患者数目分别为270和213例。而且,整合生存亚型与肿瘤组织病理学亚型(LUAD或LUSC)之间没有显著的相关性(p=0.94),说明该模型在预测患者生存亚型时,可作为独立因素来评估预后。

图片

图3

2. 利用压缩的数据集预测整合生存亚型

研究者继续通过无监督机器学习,将不同的组学数据分类,根据已知的生存数据来评估不同组学数据得到的分类器准确性(比如mRNA和miRNA的组学矩阵分别为483x12和483x3)。研究者发现,RPPA部分的数据矩阵似乎可以完美预测整合生存亚型(图4)。另外,CNV和mRNA因为特征值大于3个(Table 2),因此无法用3D图展示。接下来,根据每个组学矩阵建立了6个logistic回归模型,然后用AUC来对模型进行评估(Table 3)。数据显示,仅RPPA组学矩阵训练的机器模型可以准确的预测整合生存亚型(AUC=0.99)。

图片

图4 具有3个特征值的分割组学矩阵的分布

图片

3. 利用Uncommon RPPA数据集验证

研究者接着利用RPPA-uncommon数据验证所得到的整合生存亚型的有效性和可预测准确性,使用经过训练的Autocoder对RPPA-uncommon数据进行评估,选用与Table2中相同的特征值作为输入,用上述RPPA部分组学矩阵训练过的logistic回归模型预测生存亚型。其中83名患者被标记为整合生存亚型1,64名被标记为整合生存亚型0,两种生存亚型之间的生存率存在显著差异(p=0.012,图5),且该预测的整合生存亚型与组织病理学亚型无关(p=0.64),这表明该的模型预测的患者生存亚型独立于组织学亚型。

图片

图5

4. 整合生存亚型与RPPA生存亚型的比较

研究者接着RPPA-common数据创建的目录进一步建立了另一个机器学习模型来预测RPPA生存亚型。通过比较整合生存亚型和RPPA生存亚型来验证整合生存亚型的有效性。首先,作者使用RPPA-common数据进行单变量Cox-PH回归来选择与患者生存率显著相关的蛋白,并将显著相关的前三个蛋白(ERRFI1、CCND1和BCL2)作为特征值。然后,进行无监督聚类并探索与生存相关的亚型。依据Calinski-Harabasz标准和Silhouette指数确定最佳聚类数为2(图S1a,b)。S1c为t-SNE可视化的k-means聚类结果。由k-means聚类中推断出的标记称为RPPA生存亚型。生存分析发现RPPA生存亚型之间的生存率差异显著(p=0.003, S2a)。从RPPA-common数据中选取3个蛋白(特征值)进行logistic回归分析,可以准确的预测RPPA生存亚型(AUC=0.99)。然而,使用RPPA-uncommon数据进行logistic回归分析推测的RPPA生存亚型之间的生存率差异不显著(p=0.9,图S2b)。

图片

图S1

图片

图S2

5. 与整合生存亚型相关的蛋白质

基于上述数据,RPPA数据具有独立预测生存亚型的潜力。因此,研究者继续利用RPPA -common数据,结合XGBoost、LightGBM两个分类器模型来预测整合生存亚型。在此,XGBoost和LightGBM两个模型的所得到的AUC分别为0.95±0.02和0.92±0.01(图6),然后用SHAP来解释这两个模型。图7说明,两个模型所预测的重要蛋白几乎一致,而且前5种蛋白(NKX2-1、CAV1、CDH3、FN1和YBX1)是完全相同的。这5种蛋白的表达与癌症患者预后的关系与前人的研究结果相一致。CAV-1和YBX-1通常为NSCLC预后的负预测因子。FN1似乎与cisplatin耐药相关,CDH3的过度表达与乳腺癌、前列腺癌、卵巢癌、结肠癌和胃癌的不良预后相关。

图片

图6

图片

图7

 NKX2-1已被证明在肺发育、肺癌分化和形态发生中起关键作用,特别是在LUAD中。同时,该研究分析表明LUAD和LUSC在RPPA和mRNA水平上的表达无显著差异(补充图S3)。研究显示NKX2-1过度达与生存率呈正相关,这与该研究结果一致(图7)。

该研究的分析可以解释一些尚未完全解决的相互矛盾的结果。NKX2-1的表达通常被认为与良好的预后相关,然而也有研究提出了相反的观点。Yoon等发现NKX2-1阳性的CTCs对NSCLC患者具有特异性,且CTCs与生存率呈负相关。该研究与其他研究主要有两点区别:1)Yoon等人关注CTCs,而其他研究,包括本文章的研究使用的是肿瘤切片样本;2)他们使用RT-PCR进行mRNA定量,其他的研究则使用免疫染色法进行蛋白定量。作者进一步研究了RNA表达与蛋白表达水平之间的关系,如图8a所示,NKX2-1的RPPA表达水平在整合生存亚型之间呈弱正相关,因为NKX2-1 RPPA高表达更可能被归类为整合生存亚型1(rpb=0.323)。然而,NKX2-1的mRNA表达水平在整合生存亚型之间呈无关,NKX2-1 mRNA高表达一般标记为整合生存亚型1,低mRNA表达标记为整合生存亚型0(图8b,rpb=0.064)。这种趋势与图7一致。而且,整合生存亚型0、1之间NKX2-1 RPPA和mRNA的表达存在显著差异(p<0.001[RPPA] p=0.025[mRNA])。值得注意的是,NKX2-1 RPPA和mRNA的表达水平之间并无相关性(r=0.102)。显然,mRNA水平不足以预测蛋白表达水平,这与前人研究一致。因此,该文章的分析可能对不同研究之间结果差异进行相应的解释。

图片

图8

文章总结

该研究利用6类组学数据预测了NSCLC中独立于肿瘤组织类型的整合生存亚型。作者仅用了RPPA数据来预测整合生存亚型,并用各组学独立的数据作为测试数据集来验证模型。鉴于组学分析的巨大潜力,作者用两种不同的机器学习模型鉴定了至少5种与肺癌患者生存相关的蛋白(NKX2-1,CAV1,YBX1,FN1和CDH3)。该研究还探讨了使用深度学习和机器学习相结合的方法分析多组学数据预测预后的优势,此方法可能比传统的单组学方法更可靠,尤其是在NSCLC患者中,可以使用gradient Boosting方法预测与整合生存亚型相关的基因。

C语言-光伏MPPT算法:电导增量法扰动观察法+自动全局搜索Plecs最大功率跟踪算法仿真内容概要:本文档主要介绍了一种基于C语言实现的光伏最大功率点跟踪(MPPT)算法,结合电导增量法与扰动观察法,并引入自动全局搜索策略,利用Plecs仿真工具对算法进行建模与仿真验证。文档重点阐述了两种经典MPPT算法的原理、优缺点及其在不同光照和温度条件下的动态响应特性,同时提出一种改进的复合控制策略以提升系统在复杂环境下的跟踪精度与稳定性。通过仿真结果对比分析,验证了所提方法在快速性和准确性方面的优势,适用于光伏发电系统的高效能量转换控制。; 适合人群:具备一定C语言编程基础和电力电子知识背景,从事光伏系统开发、嵌入式控制或新能源技术研发的工程师及高校研究人员;工作年限1-3年的初级至中级研发人员尤为适合。; 使用场景及目标:①掌握电导增量法与扰动观察法在实际光伏系统中的实现机制与切换逻辑;②学习如何在Plecs中搭建MPPT控制系统仿真模型;③实现自动全局搜索以避免传统算法陷入局部峰值问题,提升复杂工况下的最大功率追踪效率;④为光伏逆变器或太阳能充电控制器的算法开发提供技术参考与实现范例。; 阅读建议:建议读者结合文中提供的C语言算法逻辑与Plecs仿真模型同步学习,重点关注算法判断条件、步长调节策略及仿真参数设置。在理解基本原理的基础上,可通过修改光照强度、温度变化曲线等外部扰动因素,进一步测试算法鲁棒性,并尝试将其移植到实际嵌入式平台进行实验验证。
【无人机协同】动态环境下多无人机系统的协同路径规划与防撞研究(Matlab代码实现)​ 内容概要:本文围绕动态环境下多无人机系统的协同路径规划与防撞问题展开研究,提出基于Matlab的仿真代码实现方案。研究重点在于在复杂、动态环境中实现多无人机之间的高效协同飞行与避障,涵盖路径规划算法的设计与优化,确保无人机集群在执行任务过程中能够实时规避静态障碍物与动态冲突,保障飞行安全性与任务效率。文中结合智能优化算法,构建合理的成本目标函数(如路径长度、飞行高度、威胁规避、转弯角度等),并通过Matlab平台进行算法验证与仿真分析,展示多机协同的可行性与有效性。; 适合人群:具备一定Matlab编程基础,从事无人机控制、路径规划、智能优化算法研究的科研人员及研究生。; 使用场景及目标:①应用于灾害救援、军事侦察、区域巡检等多无人机协同任务场景;②目标是掌握多无人机系统在动态环境下的路径规划与防撞机制,提升协同作业能力与自主决策水平;③通过Matlab仿真深入理解协同算法的实现逻辑与参数调优方法。; 阅读建议:建议结合文中提供的Matlab代码进行实践操作,重点关注目标函数设计、避障策略实现与多机协同逻辑,配合仿真结果分析算法性能,进一步可尝试引入新型智能算法进行优化改进。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值