题目:ESMFold Hallucinates Native-Like Protein Sequences
文献来源: https://doi.org/10.1101/2023.05.23.541774 (biorxiv)
代码:无
简介:本文描述了通过反转蛋白质结构预测算法ESMFold来设计蛋白质序列的尝试。最先进的蛋白质结构预测方法通过依赖于多个序列比对(AlphaFold, RosettaFold)或预先训练的蛋白质语言模型(PLMs;ESMFold,OmegaFoldold)的进化模式,实现了较高的准确性。原则上,通过反转这些网络,蛋白质序列可以被设计来实现一个或多个设计目标,如高预测置信度、预测的蛋白质结合,或其他可以用损失函数表示的几何约束。在实践中,使用倒AlphaFold模型设计的序列,称为AFDesign,包含不自然的序列轮廓显示表达不佳,而倒RosettaFold网络已被证明对对抗序列敏感。在这里,本文证明了这些限制没有扩展到包括plm的神经网络,如ESMFold。使用一种称为ESM-Designd的反向ESMFold模型,我们生成的序列比AFDesisgn生成的序列更像天然结构,更有可能表达,但比基于结构的设计方法ProteinMPNN表达的序列更小。然而,PLM提供的保护措施会导致内存消耗的急剧增加,防止超过150残基的蛋白质在一个80GB VRAM的GPU上建模。在本研究中,我们还观察到不同序列初始化方案所起的作用,与任何连续随机初始化方法相比,随机采样提高了收敛性和模型质量。最后,作者展示了如何利用这种方法来引入泛素等小蛋白的序列和结构多样化,同时尊重活性位点残基的序列保守性。我们的结果突出了结构预测网络之间的结构差异对零射击蛋白设计的影响。
主要内容:
-------------------------------------------
欢迎点赞收藏转发!
下次见!