随机森林与人工神经网络联合诊断心衰模型的构建与分析

本文介绍了结合随机森林和人工神经网络构建心力衰竭诊断模型的过程。通过GEO数据库筛选差异表达基因,随机森林识别关键基因,神经网络建立模型并验证其在多个数据集上的有效性。研究发现新模型在心衰诊断中有较高的分类效率,尤其在GSE116250数据集上表现突出。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天,和大家分享一篇文章的解读与复现——随机森林与人工神经网络联合诊断心衰模型的构建与分析,顺便分享近期遇到的一个神奇的社区。

目录

Part1文献解读

1摘要

2前言

3方法&结果

4讨论

        5总结

亮点:

不足:

Part2文章复现

step1 start GEO

step2 group id

step3 pca

step4 DEG

step5 random forest

step6 neuralnet

step7 auc


开始之前,插入一个最近高频使用的文献管理器+文献库(小众宝藏社区!):学术范 (xueshufan.com)

Part1文献解读

1摘要

心力衰竭是一个全球性的健康问题,影响到全世界约 2600 万人。由于传统的心力衰竭诊断技术在实践中存在诸多局限性,有必要开发新的诊断模型来补充现有的诊断方法。

近年来,随着基因测序技术的进步和进步,人们发现了更多与心力衰竭相关的基因。利用基因表达综合(GEO)数据库中现有的基因表达数据,筛选出心力衰竭患者差异表达基因(DEGS),并通过随机森林分类器鉴定出 6 个关键基因(HMOX 2, SERPINA 3, LCN6, CSDC 2, FREM 1,和 ZMAT1)。

这些基因中,CSDC 2, FREM 1,和 ZMAT1 从未与心力衰竭有关联。利用人工神经网络成功地建立了心力衰竭的诊断模型,并在公共数据集上验证了该模型的有效性。

2前言

心力衰竭(HF)是所有类型心脏病常见的一种慢性疾病。心衰实质上是由心脏功能异常引起的病理生理状态,心脏不能满足正常心脏压力下正常代谢所需的抽吸速度。HF 可分为两类:一种是伴有射血分数降低的 HF,另一种是保留射血分数(HFpEF)的 HF,这两类 HF 的发生和发展机制明显不同。

HFpEF 常发生于压力超负荷肥大疾病。与 HFrEF 相比,HFpEF 更有可能降低心脏储备。在 HFpEF 的发病机制中,心肌细胞本身的凋亡程度较小,而其特征性变化是异常成纤维细胞的增殖和细胞基质蛋白的积累。这是 HFpEF 与 HFrEF 最显著的区别。

对于临床常用的 HF 诊断技术有几个限制。脑钠尿肽/N 端脯氨酸型钠尿肽在各种非心衰疾病如肺动脉高压、肝硬化腹水、急性或慢性肾功能衰竭、感染和炎症中也可能升高,但 HFpEF 患者正常。超声心动图是另一种常用的心功能评估技术,它更多地依赖于专家的个人操作能力和诊断经验,使检查的可重复性差。此外,单纯测量 EF 值,难以识别 HFpEF 患者。因此,有必要开发新的诊断模型来补充现有的诊断方法。

近年来,第二代测序技术的迅速发展为识别与多种疾病相关的标记基因提供了基础,为建立新的与基因相关的 HF 诊断模型奠定了坚实的基础。在本研究中,我们在 GEO 数据库中筛选了 HF 与正常心肌标本之间的差异表达基因(DEGS)。在这些 DEG 数据的基础上,我们采用随机森林算法对 HF 中的关键基因进行了识别。然后,我们将这些关键基因输入到人工神经网络中,以构建 HF 的遗传诊断模型.

3方法&结果

GEOQuery 软件包用于下载数据以获得芯片数据集的表达谱和临床表型数据:GSE57345, GSE42955,和 GSE84796 和 rna-seq 数据集:GSE141910 和 GSE116250。从 GEO 数据库中获取相应平台芯片探针的相应标注信息。在芯片探针 ID 和基因符号转换过程中,发现多个探针对应于 1 个基因符号,在这种情况下,平均探针表达作为基因表达水平。使用 org.Hs.eg.db 包 (3.7.0 版)对 rna-seq 表达式配置文件进行基因 ID 转换。

R 软件包 limma 对 GSE57345 数据集 136 个正常和 177 个心衰样本进行了差异分析。limma 软件包使用经典的贝叶斯数据分析来筛选 DEGS。DEGS 的显着性标准设置在 P 值小于 0.05, logFoldChang (LogFC) 大于 1.5。用 phatmap 软件包绘制 DEGS 的热图。

用 R 软件包绘制聚类剖面图对相关基因进行 GO 功能富集分析和 KEGG 富集分析,使用了 Benjamini–Hochberg 校正方法,阈值设置为 P 值<0.01,q 值<0.01。为了避免 GO 富集结果中的冗余,我们对 GO 富集项进行了去重复,消除了基因重叠>0.75(详见附录 2)。确定三种显著富集 GO 术语(P < 0.05) 和显著富集通路 (P < 0.05)。

在这些结果中,与 HF 相关的生物学过程包括细胞外基质的组织、心脏收缩、巨噬细胞活化和细胞-基质粘附。所涉及的细胞成分包括含有胶原的细胞外基质。分子功能包括整体结合和其他重要功能。图 3B 显示了部分 GO 富集的术语和显著表达的差异基因。我们还对 DEGS 进行了 kegg 通路富集分析,展示了所涉及的重要的富集生物途径的结果和相应的 DEG。

将 281 个 DEG 输入到随机森林分类器中。为了找到最优参数 mtry(即指定节点中二叉树的最优变量数),我们对 1-281 个变量中的所有可能数进行了递归随机森林分类,并计算了模型的平均错误率。图 4A 显示所有变量被选中时的平均错误率。最后,选取 6 作为变量数的参数。变量数目越少越好,带外误差(out-of-band error)越小越好。引用模型误差与决策树数之间的关系图(图 4B)选取 2000 棵树作为最终模型的参数,模型误差稳定。

在建立随机森林模型的过程中,从降低精度和减小均方误差的角度出发,对输出结果的变量重要性(基尼系数法)进行了测量。然后,我们确定了 6 个重要性大于 2 的 DEGS 作为后续分析的候选基因。图 4C 表明在这六个变量中,HMOX 2 和 CSDC 2 是最重要的,其次是 ZMAT1, SERPINA3, FREM1,和 LCN6。基于这六个重要变量,我们对 GSE57345 数据集进行了 k-均值无监督聚类。图 4D 结果表明,在 GSE57345 数据集 313 例样本中,这 6 个基因可用于患者和正常人的鉴别。其中,ZMAT1 和 FREM 1 基因在正常组织中呈低表达,在疾病组织中呈高表达。另一方面,SERPINA3, LCN6, HMOX2,和 CSDC2 属于另一组, 在正常标本中高表达,在疾病标本中低表达。

我们使用了另一个数据集 GSE141910 建立了基于 neuralnet 包的人工神经网络模型。第一步 是对数据进行预处理,以实现数据的规范化。其次,选择最小-最大值方法[0,1],在训练神经网络之前按下分离缩放数据。在开始计算之前,对最大和最小数据值进行标准化处理,并将隐藏层数设置为 5 层。在参数的选择上,不存在使用多少层和多个神经元的固定规则。神经元的数量应该介于输入层大小和输出层大小之间,通常是输入层大小的三分之二。为了更有效地评价神经网络模型的结果,我们选择了一种 5 折交叉验证方法。数据集随机分为训练集和验证集。训练集的目的是确定候选指标的权重。利用验证集验证了基于基因表达和基因权重构建的模型评分的分类效率。得到疾病神经网络模型分类评分。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值