基于图卷积的分子生物活性预测研究
在分子生物活性预测领域,科研人员致力于开发更有效的方法,以提高预测的准确性和效率。本文将介绍一种基于自注意力机制的特征融合方法,以及相关的图卷积模型,包括 EAGCN 和 MF EAGCN,并详细阐述其在生物活性数据集上的应用和实验结果。
1. 研究背景与方法概述
- 特征融合与数据集 :提出了一种基于自注意力机制的特征融合方法,该方法能使模型自适应地调整多个特征张量的权重分布。使用了多种筛选方法对 PubChem 数据库中的目标进行限制,并在不同类型的生物活性数据集上验证了方法的有效性。数据集包括来自 PubChem 的公共化学数据库、1851 目标家族的细胞色素 P450 系列的四个数据集、两个抑制剂活性数据集,以及用于识别结合 R (CAG) RNA 重复序列的分子集。
- 图卷积模型 :应用基于边缘注意力的 GCN 架构直接学习分子图,避免了人工特征工程带来的误差。该模型比传统机器学习方法具有更好的分类性能,准确率指标可提高 2 - 8%。同时,研究了特征融合方法,提出了多特征融合方案,通过注意力机制实现对多个特征的自适应融合,准确率指标可提高 1 - 2%。此外,还研究了样本不平衡问题,提出了损失优化方案,引入了焦点损失和梯度协调机制 (GHM) 来进一步优化模型性能。
2. 方法细节
2.1 图的建立
在化学图理论中,化合物的结构通常表示为氢缺失的分子图(省略氢原子)。每个化合物可以用一个无向图表示,其中原子作为节点,键作为边。分子属性信息包括原子属性和键属性,具体如下
超级会员免费看
订阅专栏 解锁全文
1225

被折叠的 条评论
为什么被折叠?



