SADeepcry: a deep learning framework for protein crystallization propensity prediction using self-attention and auto-encoder networks
期刊:BIB
分区:2区
影响因子:13.999
发表时间:2022.7.27
Github:GitHub - zhc940702/SADeepcry
目录
摘要
基于晶体学的X射线衍射(XRD)技术是分析蛋白质三维结构的主要实验方法。 XRD技术所依赖的蛋白质晶体的生产过程已经进行了多个实验步骤,这需要大量的人力和材料资源。此外,研究表明,并非所有蛋白质都可以在实验条件下形成晶体,而蛋白质最终结晶的成功率仅<10%。尽管已经开发了一些蛋白质结晶预测因子,但并没有很多能够预测多阶段蛋白质结晶倾向的工具,并且这些工具的准确性并不令人满意。在本文中,我们提出了一个新颖的深度学习框架,名为Sadeepcry,用于预测蛋白质结晶倾向。该框架可用于估计蛋白质结晶实验中的三个步骤(蛋白质材料的产生,纯化和结晶)以及最终蛋白质结晶的成功率。 Sadeepcry使用优化的自我注意力和自动编码器模块从蛋白质中提取序列,结构和理化特征。与其他最先进的蛋白质结晶预测模型相比,Sadeepcry可以获得更复杂的蛋白质序列信息的全局空间长距离依赖性。我们的计算结果表明,在基准数据集中的DCFCrystal方法上,Sadeepcry的MCC(Matthews相关系数)和AUC(曲线下的面积)分别增加了100.3%和13.4%。
方法与数据集
1. Benchmark datasets
我们所有的实验均在公开可用的数据集上进行。从参考[19]获得了五个名为MF_DS,PF_DS,CF_DS,CRYS_DS和BD_MCRYS的基准数据集。数据集中的蛋白质名称及其相应的标签是从TargetTrack [22]数据库中提取的。具体而言,MF_DS,PF_DS和CF_DS数据集用于检查蛋白质材料生产步骤,纯化步骤和晶体生产步骤中方法的有效性。 CRYS_DS数据集用于检查方法在整个蛋白质结晶过程的倾向预测中的有效性。 BD_MCRYS用于检查方法在膜蛋白结晶倾向预测中的有效性。表1分别显示了五个数据集中的正和负样品的数量。对于每个基准数据集,我们根据基准数据集的训练子集训练Sadeepcry,并基于基准数据集的测试子集测试框架的预测性能。
2.方法框架: SADeepcry
本文以预测蛋白质结晶倾向的每一步和最终结晶倾向分数为目标,将蛋白质结晶倾向预测看作是多个二元分类问题。图1展示了所提出的蛋白质结晶倾向预测框架的构建。SADeepcry可以描述为四个步骤(图1),详细说明如下。
第一步:我们收集并编码蛋白质的原始序列特征和人工特征。对于蛋白质的原始氨基酸序列,在将蛋白质的原始氨基酸序列输入模型之前,需要将蛋白质序列中的每个氨基酸转换为数字向量。首先,我们使用不同的整数来表示蛋白质序列中出现的氨基酸。然后,根据每个蛋白质序列中氨基酸的类型和数量,对蛋白质的原始氨基酸序列进行编码。因为等长的蛋白质向量只能被模型作为输入数据处理。因此,我们通过零填充将每个蛋白质向量的维度大小固定为Lmax,其中Lmax为训练数据集中蛋白质序列的最大长度。得到蛋白质序列向量后,我们用Pytorch包埋层用le维密集向量表示每个氨基酸。本文的嵌入层具有可训练的查找矩阵,存储固定的氨基酸字典和大小的嵌入。矩阵的每一行对应一个氨基酸&#x