论文解读:Sadeepcry:使用自我注意和自动编码器网络的蛋白质结晶倾向预测的深度学习框架

SADeepcry: a deep learning framework for protein crystallization propensity prediction using self-attention and auto-encoder networks

期刊:BIB

分区:2区

影响因子:13.999

发表时间:2022.7.27

Github:GitHub - zhc940702/SADeepcry

目录

摘要

方法与数据集

1. Benchmark datasets

2.方法框架: SADeepcry

3. 结果

3.1 与多阶段预测器的性能比较

3.2 单级预测结果比较

3.3 膜蛋白预测结果比较

3.4 分析各种特征的贡献

4. 消融实验

5. 自注意力层数对实验的影响

6. 独立测试

7. 预测蛋白质样品

8. 结论


摘要

基于晶体学的X射线衍射(XRD)技术是分析蛋白质三维结构的主要实验方法。 XRD技术所依赖的蛋白质晶体的生产过程已经进行了多个实验步骤,这需要大量的人力和材料资源。此外,研究表明,并非所有蛋白质都可以在实验条件下形成晶体,而蛋白质最终结晶的成功率仅<10%。尽管已经开发了一些蛋白质结晶预测因子,但并没有很多能够预测多阶段蛋白质结晶倾向的工具,并且这些工具的准确性并不令人满意。在本文中,我们提出了一个新颖的深度学习框架,名为Sadeepcry,用于预测蛋白质结晶倾向。该框架可用于估计蛋白质结晶实验中的三个步骤(蛋白质材料的产生,纯化和结晶)以及最终蛋白质结晶的成功率。 Sadeepcry使用优化的自我注意力和自动编码器模块从蛋白质中提取序列,结构和理化特征。与其他最先进的蛋白质结晶预测模型相比,Sadeepcry可以获得更复杂的蛋白质序列信息的全局空间长距离依赖性。我们的计算结果表明,在基准数据集中的DCFCrystal方法上,Sadeepcry的MCC(Matthews相关系数)和AUC(曲线下的面积)分别增加了100.3%和13.4%。 

方法与数据集

1. Benchmark datasets

     我们所有的实验均在公开可用的数据集上进行。从参考[19]获得了五个名为MF_DS,PF_DS,CF_DS,CRYS_DS和BD_MCRYS的基准数据集。数据集中的蛋白质名称及其相应的标签是从TargetTrack [22]数据库中提取的。具体而言,MF_DS,PF_DS和CF_DS数据集用于检查蛋白质材料生产步骤,纯化步骤和晶体生产步骤中方法的有效性。 CRYS_DS数据集用于检查方法在整个蛋白质结晶过程的倾向预测中的有效性。 BD_MCRYS用于检查方法在膜蛋白结晶倾向预测中的有效性。表1分别显示了五个数据集中的正和负样品的数量。对于每个基准数据集,我们根据基准数据集的训练子集训练Sadeepcry,并基于基准数据集的测试子集测试框架的预测性能。

2.方法框架: SADeepcry

        本文以预测蛋白质结晶倾向的每一步和最终结晶倾向分数为目标,将蛋白质结晶倾向预测看作是多个二元分类问题。图1展示了所提出的蛋白质结晶倾向预测框架的构建。SADeepcry可以描述为四个步骤(图1),详细说明如下。

       第一步:我们收集并编码蛋白质的原始序列特征和人工特征。对于蛋白质的原始氨基酸序列,在将蛋白质的原始氨基酸序列输入模型之前,需要将蛋白质序列中的每个氨基酸转换为数字向量。首先,我们使用不同的整数来表示蛋白质序列中出现的氨基酸。然后,根据每个蛋白质序列中氨基酸的类型和数量,对蛋白质的原始氨基酸序列进行编码。因为等长的蛋白质向量只能被模型作为输入数据处理。因此,我们通过零填充将每个蛋白质向量的维度大小固定为Lmax,其中Lmax为训练数据集中蛋白质序列的最大长度。得到蛋白质序列向量后,我们用Pytorch包埋层用le维密集向量表示每个氨基酸。本文的嵌入层具有可训练的查找矩阵,存储固定的氨基酸字典和大小的嵌入。矩阵的每一行对应一个氨基酸&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值