今天向大家介绍的这篇文章题目为:“Protein−Peptide Docking with ESMFold Language Model”,近期发表在
JCTC
上。
本文主要研究 ESMFold 语言模型在蛋白质-肽对接中的应用。通过探索多种对接策略,评估其在预测蛋白质-肽相互作用方面的性能,并与 AlphaFold-Multimer、AlphaFold 3 等工具对比,发现 ESMFold 虽整体准确性不及 AlphaFold 系列工具,但在某些情况下表现出色,且计算效率高,在高通量肽设计的一致性方法中具有潜在价值。
作者信息
-
• 第一作者 Mateusz Zalewski:单位为华沙大学化学系生物与化学研究中心;研究方向与蛋白质-肽对接等生物化学计算领域相关.
-
• 通讯作者 Sebastian Kmiecik:单位是华沙大学化学系生物与化学研究中心;研究方向涵盖蛋白质结构预测、蛋白质-肽相互作用的计算研究等,致力于通过计算手段推动生物化学领域的发展。
拟解决的问题
探究 ESMFold 语言模型在蛋白质-肽对接中的有效性,评估其性能并与其他工具对比,确定其在蛋白质-肽对接研究及药物设计中的价值与潜力。
用到的方法与材料
-
• 数据集:使用 Wallner 等人创建的 Dataset 1(包含 112 个实验蛋白质-肽复合物结构,因内存限制排除 6UEB 结构)和 Manshour 等人引入的 Dataset 2(包含 60 个蛋白质-肽结构)。
-
• ESMFold 模型:利用在 ColabFold 笔记本中实现的 ESMFold 版本,通过在氨基酸链之间引入柔性聚甘氨酸接头进行蛋白质-肽对接,预测后去除接头。
-
• 评估指标:采用 DockQ 分数衡量蛋白质-肽对接质量(0 - 1 分,0.23 - 0.5 为可接受,0.5-0.8 为中等质量,0.8 及以上为高质量),使用预测的局部距离差异测试(pLDDT)值评估预测的置信度和可靠性(平均 pLDDT 值超过 70 为高置信度)。
主要结果
-
• ESMFold Default Protocol结果:使用 30 个氨基酸的聚甘氨酸接头和默认设置时,111 个案例中只有 15 个结构达到或超过可接受阈值(DockQ≥0.23) ,其中只有 5 个为高质量;许多肽与受体距离超过 8Å,表明对接错误;去除错误案例后,有效成功率为 36%;预测 252 个残基的蛋白质-肽复合物在 A100 GPU 上仅需 21s(不包括首次安装 ESMFold 的约 3 分钟设置时间)。
-
• Random Masking(随机掩码) Approach结果:采用随机掩码策略(掩码率 0.25,每个复合物生成 8 个结构),产生了 27 个可接受或更好的结构,其中 6 个为高质量;通过不同 pLDDT 值评分策略筛选,以受体接触残基比例加权 pLDDT 分数的方法效果最佳;去除错误对接案例后,有效成功率为 40%;生成 8 个结构在 A100 GPU 上约需 61s。
-
• 其他策略结果:探索自适应循环和各种接头配置,发现扩展循环次数效果不如随机掩码;30 个残基的 C 末端接头为最佳配置。
-
• 与 AlphaFold 对比:在 Dataset 1 上,ESMFold 整体精度低于 AlphaFold-Multimer(增强采样) ,但在 3 个案例中 ESMFold 产生了可接受或更好的模型,而 AlphaFold 预测质量不可接受;在 Dataset 2 上,ESMFold 表现与 Dataset 1 相当或更好,且在部分案例中优于 AlphaFold 3。
数据与代码链接:
ESMFold 模型可通过 ColabFold 访问,相关代码可在https://github.com/sokrypton/ColabFold获取;
本研究修改后的 ESMFold 脚本及生成的所有输出结构可在https://github.com/ZalewskiMa/ESMFold-docking获取。
代码链接要复制我这里的哦,原文的链接给的不对!!!
总结
-
• 不足之处:许多生成的模型对接不正确,ESMFold 的对接准确性有待进一步提高。
-
• 意义:ESMFold 在蛋白质-肽对接中能产生可接受的模型,偶尔优于 AlphaFold 系列工具,且速度快,在高通量肽设计的一致性方法中有潜在价值;其利用序列嵌入和识别关键结合基序的能力,为蛋白质-肽对接研究提供了新方向,后续发展有望成为现有方法的有力补充,推动基于肽的治疗药物开发。