论文解读:A novel antibacterial peptide recognition algorithm based on BERT

本文提出了一种基于BERT的新型抗菌肽识别算法,通过预训练和微调提高模型性能。研究发现预训练和平衡数据集对于模型的准确性至关重要。在多种数据集上,该模型的性能优于现有方法,且能有效识别AMPs,提供了一个通用的预训练模型,以提升新数据集的预测效率和准确性。

论文概述

在这里插入图片描述

1. 论文基本信息

发表期刊: BRIEFINGS IN BIOINFORMATICS(BIB)
期刊影响因子及文章数量:
在这里插入图片描述
在这里插入图片描述
论文链接:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab200/6284370
代码和数据链接: https://github.com/BioSequenceA
nalysis/Bert-Protein

2. 生物背景

2.1 肽的理解

  • 肽的定义:肽是具有一级结构的氨基酸序列,两个氨基酸形成的肽称为二肽
  • 肽和蛋白质的区别:肽是小分子(氨基酸数较少),而蛋白质是大分子(氨基酸数通常在100个以上)。肽只有一级结构,而蛋白质拥有二级、三级、四级结构。

2.2 抗菌肽的理解

  • 抗菌肽(AMPs)的作用:由于抗生素的滥用,病原菌的耐药性问题日益严重,已成为人类健康的巨大威胁。寻找抗生素的新原料是保证人类生命安全和质量的有效途径。抗菌肽(AMPs)是小分子多肽,是生物先天免疫系统的关键组成部分,对细菌、病毒和真菌具有广谱抗菌活性。
  • 抗病毒的原理:破坏目标细菌的细胞膜、干扰DNA的产生等

2.3 论文解决的问题

预测肽是不是抗菌肽,如下图所示在这里插入图片描述

3. 实验数据

3.1 引用的数据集

1. 预训练数据集
UniProt:下载了556603个蛋白质片段,预训练阶段为无监督,所以下载的是不带有标签。
2. 微调数据集
微调数据共6个,包含训练集和测试集。不同的阈值、不同的判定条件得到正负样本数量是不一样的,这里不做讨论,详情参考论文以及论文附件一,微调数据的形式如下图所示:
在这里插入图片描述
微调数据集的正负样本数量如下图所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值