目录
摘要
抗菌肽(AMPs) 是一类短肽,在多种生物过程中起着至关重要的作用,并具有针对目标生物的多种功能活性。由于化学抗生素的滥用和微生物病原体对抗生素的耐药性日益增强,AMPs 有潜力成为抗生素的替代品。因此,AMPs 的识别已成为广泛讨论的热点话题。基于机器学习算法的多种计算方法已经被开发出来用于识别 AMPs。然而,这些方法大多无法预测 AMPs 的功能活性,即使能够指定功能活性的预测器,通常也仅限于少数几种功能。
在本研究中,我们首先调查了 10 种可以识别 AMPs 及其功能活性的预测器,分析了它们所使用的特征和算法。然后,我们构建了全面的 AMP 数据集,并提出了一种基于深度学习的新框架 —— iAMPCN(基于卷积神经网络的 AMP 识别),用于识别 AMPs 及其相关的 22 种功能活性。实验结果表明,iAMPCN 在基于四种序列特征的 AMPs 及其功能活性预测中显著提升了性能。在独立测试数据集上的基准实验显示,iAMPCN 在 AMP 及其功能活性预测方面优于许多最先进的方法。
此外,我们分析了不同 AMP 活性的氨基酸偏好,并在具有不同序列冗余阈值的数据集上评估了模型性能。为促进 AMPs 及其功能类型的社区范围识别,我们将 iAMPCN 的源代码公开发布在 GitHub。我们期望 iAMPCN 能成为一个有价值的工具,用于识别具有特定功能活性的潜在 AMPs,并进行进一步的实验验证。
引言
由于微生物病原体对化学抗生素的耐药性日益增强,开发新的感染治疗手段已成为一项紧迫任务。在过去十年中,利用抗菌肽(AMPs) 作为潜在替代品治疗感染取得了多项进展。这是因为大多数天然 AMPs 是存在于生物体内的特殊多肽物质,是先天免疫系统的重要组成部分,能保护宿主免受外来病原体的侵害。AMPs 通常是小分子多肽,对目标生物(如细菌、酵母、真菌、病毒和癌细胞)具有多样化的功能活性。与传统化学抗生素相比,AMPs 具有更高的抗菌活性、更广的抗菌谱,以及较低的目标菌株耐药突变可能性。因此,AMPs 在制药行业中有广泛的应用前景,并成为生物医学研究的热点领域。
基于现有的 AMPs 研究数据,研究人员已付出大量努力构建了多个包含实验验证 AMPs 的数据库。截至目前,许多数据库已被开发,用于提供 AMPs 的全面实验验证注释。例如,抗菌肽数据库(APD3) 包括具有多种功能活性的 AMPs,例如抗菌、抗真菌、抗病毒和抗癌活性,并提供用户友好的网页用于肽分类、搜索和预测。dbAMP 则特别关注 AMPs 在高通量转录组和蛋白质组数据中的功能和理化特性,同时提供 AMPs 与蛋白质的相互作用和目标物种的相关注释。DRAMP 提供 AMPs 的最低抑菌浓度值和结构信息,而 LAMP 整合了现有 AMP 数据库并提供相关信息。除了综合数据库外,一些针对特定疾病的数据库还将 AMPs 与特定功能活性结合,例如用于抗结核肽的数据库 AntiTbPdb Field。随着 AMP 数据库的持续扩展和发展,由于湿实验耗时、昂贵且繁琐,利用计算方法准确识别 AMPs 及其功能类型在 AMP 研究中变得愈加重要。
在过去十年中,已开发出大量用于识别 AMPs 的计算预测器;此外,也有一些尝试对这些方法进行评审、基准化和评价。然而,大多数预测器仅关注于识别 AMPs,无法预测特定功能活性,这对生物医学研究人员尤为重要。已有一些预测器被提出用于预测具有某种特定功能活性的 AMPs,例如 DeepAVP 用于预测抗病毒肽,Deep-AFPpred 和 StaBle-ABPpred 用于预测抗菌肽。然而,这些预测器的预测能力有限,无法提供 AMPs 的全面功能活性注释。此外,能够预测 AMPs 多种功能活性的工具寥寥无几。
鉴于 AMP 功能活性的显著性,以及缺乏系统总结和评价这些预测 AMPs 及其功能活性方法的研究,我们对此类计算方法进行了全面回顾,包括涉及的功能活性、基准数据集、机器学习算法、特征选择方法、性能评价策略和指标。随后,我们开发了一个预测框架,命名为 iAMPCN(基于卷积神经网络的 AMPs 和其功能活性识别)。该框架由多个单类模型组成,评估了其识别 AMPs 不同功能活性的能力。性能评估结果表明,与现有预测工具相比,iAMPCN 在识别 AMPs 及其功能类型方面表现出卓越的性能。我们期望 iAMPCN 能成为一个重要工具,用于识别潜在的 AMPs 及其具体功能,并进行实验验证。
材料与方法
预测amp及其功能类型的现有方法
基于机器学习的方法
据我们所知,iAMP-2L 是首个 AMP 预测器,它利用模糊 K 近邻(FKNN)算法识别 AMPs 及其功能活性,包括抗菌、抗癌、抗病毒、抗真菌以及抗人类免疫缺陷病毒(anti-HIV)。该工具的第一层预测是利用 FKNN 算法判断某肽是否为 AMP,而第二层预测则使用多标签模糊 K 近邻(ML-FKNN)分类器识别 AMP 的功能类型,两层预测均采用伪氨基酸组成(PseAAC)作为序列表示。
随后,Lin 等人提出了 MLAMP,主要解决两层 AMP 预测中的不平衡标注问题。MLAMP 通过改进的多标签合成少数类过采样技术(ML-SMOTE)处理数据不平衡问题,并结合灰色模型(Grey Model)将 PseAAC 转化为新的序列表示。此外,Zhang 等人采用**自适应合成采样(ADASYN)**技术处理数据不平衡问题,并结合集成分类器链(ECC)来分类 AMP 功能活性,考虑了标签之间的关系。不同的是,Zhang 的方法在第一阶段使用梯度提升决策树(GBDT)作为分类器,而在第二阶段使用额外树(ET),而 MLAMP 在两阶段均使用随机森林(RF)。此外,Zhang 等人还通过 Lasso 进行特征选择以提升性能。
AMAP 采用支持向量机(SVM)和极端梯度提升(XGBoost)算法作为分类器,并结合氨基酸组成(AAC)和理化特性来识别 AMPs。与其他预测器相比,AMAP 能识别最多的功能类型。AMPfun 同样基于随机森林算法,但使用了更综合的训练数据集,整合了多个 AMP 数据库。AMPfun 使用了丰富的序列特征(如成分信息、理化描述和二进制特征)进行模型训练,可分类多种功能活性,包括抗寄生虫、抗病毒、抗癌、抗真菌、抗哺乳动物细胞、抗革兰氏阳性和革兰氏阴性细菌等。
iAMP-RAAC 是另一个基于两阶段预测的工具,使用了 SVM 和简化氨基酸聚类(RAAC)特征,并在与 AMPfun 相同的数据集上进行训练,可预测与 A