A novel antibacterial peptide recognition algorithm based on BERT
论文概述

1. 论文基本信息
发表期刊: BRIEFINGS IN BIOINFORMATICS(BIB)
期刊影响因子及文章数量:


论文链接:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab200/6284370
代码和数据链接: https://github.com/BioSequenceA
nalysis/Bert-Protein
2. 生物背景
2.1 肽的理解
- 肽的定义:肽是具有一级结构的氨基酸序列,两个氨基酸形成的肽称为二肽
- 肽和蛋白质的区别:肽是小分子(氨基酸数较少),而蛋白质是大分子(氨基酸数通常在100个以上)。肽只有一级结构,而蛋白质拥有二级、三级、四级结构。
2.2 抗菌肽的理解
- 抗菌肽(AMPs)的作用:由于抗生素的滥用,病原菌的耐药性问题日益严重,已成为人类健康的巨大威胁。寻找抗生素的新原料是保证人类生命安全和质量的有效途径。抗菌肽(AMPs)是小分子多肽,是生物先天免疫系统的关键组成部分,对细菌、病毒和真菌具有广谱抗菌活性。
- 抗病毒的原理:破坏目标细菌的细胞膜、干扰DNA的产生等
2.3 论文解决的问题
预测肽是不是抗菌肽,如下图所示
3. 实验数据
3.1 引用的数据集
1. 预训练数据集
UniProt:下载了556603个蛋白质片段,预训练阶段为无监督,所以下载的是不带有标签。
2. 微调数据集
微调数据共6个,包含训练集和测试集。不同的阈值、不同的判定条件得到正负样本数量是不一样的,这里不做讨论,详情参考论文以及论文附件一,微调数据的形式如下图所示:

微调数据集的正负样本数量如下图所示:

本文提出了一种基于BERT的新型抗菌肽识别算法,通过预训练和微调提高模型性能。研究发现预训练和平衡数据集对于模型的准确性至关重要。在多种数据集上,该模型的性能优于现有方法,且能有效识别AMPs,提供了一个通用的预训练模型,以提升新数据集的预测效率和准确性。
最低0.47元/天 解锁文章
1804

被折叠的 条评论
为什么被折叠?



