DeepMind新成果被批像广告?AlphaProteo可高效设计靶蛋白结合物,亲和力提高300倍

AlphaFold 在蛋白质预测领域一骑绝尘,AlphaFold 3 更是突破限制,实现了所有生命分子的预测,其发布时便有声音称,AlphaFold 3 的结构化预测与生成将加速 AIDD (Artificial Intelligence-driven Drug Design,AI 驱动药物设计) 的发展。

如今,DeepMind 面向 AI 药物设计再开一枪——发布用于新型蛋白质设计的 AlphaProteo。

这个 Alpha 家族新成员同样展现出了划时代的能力提升,在实验测试的 7 种靶蛋白上,AlphaProteo 不仅实现了更高的实验成功率,其结合亲和力也比现有最佳方法高出 3 到 300 倍。 同时,研究人员还将其应用于癌症和糖尿病并发症相关的靶蛋白 VEGF-A 上,完成了 AI 工具在 VEGF-A 蛋白结合体设计上的零突破。

一轮中通量筛选即可生成「即用型」蛋白质结合剂

当地时间 9 月 5 日,DeepMind 研究人员提出了用于蛋白质设计的机器学习模型 AlphaProteo,该模型可以设计出高成功率、高亲和力、无需复杂人工干预的靶蛋白结合剂。AlphaProteo 只需要通过一轮中等通量筛选,无需进一步优化,即可为许多研究应用生成「即用型」蛋白质结合剂。

模型结构:结合生成模型与过滤器,可高效生成靶蛋白结合物

AlphaProteo 包含 2 个组件,如下图所示。

一个生成模型 (Generator) , 在蛋白质数据库 (PDB) 的结构和序列数据、以及 AlphaFold 预测结构的蒸馏集 (distillation set) 上进行训练,学习分子之间的结合方式;一个过滤器 (Filter), 用于对生成的设计进行评分,以预测结合物是否能在实验中与靶蛋白成功结合。

在这里插入图片描述

AlphaProteo 框架

具体而言,为了设计靶蛋白结合物,研究人员先输入靶蛋白的结构,并选择靶蛋白表位的「热点」残基,推测首选结合位置,生成模型会输出针对靶蛋白的候选结合物结构和序列,过滤器 (Filter) 在实验测试 (Experiment) 前将这些预测的结合剂 (Predicted binders) 筛选为一个较小的集合,在计算机模拟基准测试中,该生成模型的表现优于现有最佳方法。

实验结论:超越最佳现有方案,具备高成功率和强亲和力

研究人员用 AlphaProteo 设计了 8 种不同结构靶蛋白的结合剂,并对它们进行实验测试。其中,有 2 种与感染有关的病毒蛋白 BHRF1 和 SARS-CoV-2 刺突蛋白受体结合域 SC2RBD,以及 5 种与癌症、炎症和自身免疫性疾病有关的蛋白 IL-7Rɑ、PD-L1、TrkA、IL-17A 和 VEGF-A,1 种与自身免疫性疾病如类风湿性关节炎相关的蛋白质 TNF。

如下图所示,AlphaProteo 生成的 7 个靶蛋白结合剂能够在实验测试时与目标蛋白紧密结合, 但它无法针对第 8 个靶点 TNF 设计成功的结合物。

在这里插入图片描述

AlphaProteo 生成的靶蛋白结合剂预测结构图

  • 蓝色表示结合剂,黄色表示蛋白质靶点,深黄色是预期的结合区域

进一步地,如下图所示,研究人员将 AlphaProteo 与其他设计方法 (Other design methods) 比较,对比体外成功率。结果发现,在湿实验室中测试中,9%-88% 候选结合物能够与靶蛋白成功结合,这比其他方法高出 5-100 倍。

其中,对于病毒蛋白 BHRF1,AlphaProteo 生成的候选分子与靶蛋白的结合成功率达到 88%,结合强度是现有最佳设计方法的 10 倍;对于蛋白质 TrkA,新结合剂比先前针对该蛋白经过多轮实验优化的最佳设计结合剂更强。

在这里插入图片描述

与其他设计方法相比,AlphaProteo 对 7 种靶蛋白的体外成功率

此外,研究人员还探索了在未经实验优化的情况下,与其他设计方法相比,AlphaProteo 设计的结合物对靶蛋白的最佳亲和力。结果发现,相比于现有最佳方法设计的结合物,AlphaProteo 生成结合物的结合亲和力更高,大约高出 3-300 倍。

  • 亲和力越大,结合越紧密

在这里插入图片描述

最佳亲和力测试

研究人员进一步探索了 SC2RBD 和 VEGF-A 蛋白更强结合剂与 AlphaProteo 设计的结合剂之间的相似性,结果证实,这些更强结合剂的结合相互作用与 AlphaProteo 预测的结合物类似,这说明 AlphaProteo 具备可靠性。

此外,研究人员还证实这些结合剂具有实际的生物学功能,例如,一些 SC2RBD 结合剂被证明可以防止 SARS-CoV-2 及其变体感染细胞。更重要的是,AlphaProteo 具有广泛的适用性,无需经过高通量筛选或亲和力优化实验,可以大大减少设计蛋白质结合剂的初始实验时间。

与欧洲最大的生物医学研究实验室通力合作

在首批测试新蛋白质设计系统 AlphaProteo 的实验中,有 3 个团队来自弗朗西斯·克里克研究所 (The Francis Crick Institute)。

弗朗西斯·克里克研究所位于英国伦敦,是目前欧洲最大的生物医学研究实验室,也是英国的研究中心。由英国国家医学研究所 (National Institute for Medical Research,简称 NIMR) 联合英国癌症研究中心 (Cancer Research UK) 耗资约 7 亿英镑,共同发起成立。

在这里插入图片描述

截至目前,克里克研究所拥有 2 千多名研究人员和 100 多个研究小组。此外,该研究所是由世界领先的 6 个生物医学研究机构合作建立的独特伙伴关系,包括医学研究理事会、癌症研究英国、威康基金会、伦敦大学学院、伦敦帝国学院和伦敦国王学院。

弗朗西斯·克里克研究所官网地址:
https://www.crick.ac.uk/

Deepmind 最新成果褒贬不一

研究意义 vs. 是否开源

虽然 AlphaProteo 在实际研究中的高价值有目共睹,但众多网友更关心的是这个工具是否开源。一位网友表示「它是开源的吗?不是的话就太没意思了」。

在这里插入图片描述

而另外一些网友则表示,AlphaProteo 对于挽救生命的意义更大于它是否开源, 并对其发展潜力表示看好。

在这里插入图片描述

在这里插入图片描述

方法论细节太少,不像论文,更像广告

DeepMind 团队为该模型撰写了一份论文,但其中涉及到模型方法细节非常少,甚至可以说几乎没有细节。一位来自全球领先制药和健康护理公司的科学家连发三条动态表示「这份白皮书的方法细节太少了」、「这感觉更像是一个广告,而不是一个合适的出版物」,并对论文中相同的图例指标进行质疑。

在这里插入图片描述

另一位来自麻省理工的生物学博士不仅再次重申了 Science 开源的意义,也对 DeepMind 此举进行抨击,「Deepmind 做得太过分了,我很想知道它是如何工作的。」

在这里插入图片描述

DeepMind 开辟新战场,与 AlphaFold 相辅相成

DeepMind 面向生物医药行业的「升级打怪」已经开辟了新战场,能否成为加速 AI 药物设计落地的强心针呢?

众所周知,AlphaFold 3 已经能够以超高精度预测所有生命分子(蛋白质、DNA、RNA、配体等)的结构和相互作用,关于其未来迭代方向,有业内人士预测,可能会在动力学信息预测方面有所提高与改善。而此番发布的 AlphaProteo 在一定程度上是能够与 AlphaFold 相辅相成,互相促进。

一方面, 蛋白质设计需要从功能出发,设计全新或改良的蛋白质结构,以实现特定的生物或化学功能,所以非常依赖于对蛋白质结构与功能关系的理解。另一方面, 蛋白质预测则能够提供关键的结构信息,指导设计。同时,设计出的蛋白质也能够帮助改进预测模型,增强蛋白质折叠、动力学等方面的预测准确性。

DeepMind 在 AlphaProteo 的介绍中提到,这一创新可能会加速人们对生物过程的理解,并有助于新药的发现,生物传感器的发展等等。未来,公司将与科学界合作,利用 AlphaProteo 解决影响深远的生物学问题,并了解其局限性。同时,DeepMind 也一直在与 Isomorphic Labs 共同探索其药物设计应用。

Isomorphic Labs 脱胎于 DeepMind,聚焦于 AI 医药领域,使命是利用人工智能和机器学习方法来加速和改善药物发现过程,以便为人类一些最具破坏性的疾病找到治疗方法。

从某种程度上看,Isomorphic Labs 也是 DeepMind 面向 AI 医药领域的触角,能够在第一时间将其最新成果有针对性地在药物设计应用上进行落地探索。该团队也出现在了 AlphaFold 3 的研究中,期待其在 DeepMind 的加持下,能够为 AI 药物设计的落地带来好消息。

最后推荐一个学术分享活动!

Meet AI4S 第三期直播邀请到了上海交通大学自然科学研究院 & 上海国家应用数学中心博士后周子宜。9 月 25 日,周子宜博士将以线上直播的形式为大家分享蛋白质语言模型的小样本学习方法,探讨 AI 辅助下定向进化的新思路。点击即可预约观看直播!

https://hdxu.cn/6Bjom

### Python中用于蛋白质结构预测的库 蛋白质结构预测是计算生物学领域中的重要问题,通过预测蛋白质的三维结构,可以更好地理解其功能和相互作用。近年来,随着深度学习的发展,许多基于Python的库和工具被广泛应用于这一领域。 #### AlphaFold AlphaFold 是由 DeepMind 开发的一种深度学习模型,它在蛋白质结构预测任务中取得了突破性的进展。AlphaFold 提供了完整的模型架构和预训练参数,用户可以直接使用其 Python API 来预测蛋白质结构。以下是一个使用 AlphaFold 进行单个蛋白质序列预测的代码示例: ```python from alphafold.model import model from alphafold.data import pipeline # 提供蛋白质序列 sequence = 'YOUR_PROTEIN_SEQUENCE' # 设置参数 data_dir = './data' output_dir = './predicted_structures' model_params_path = 'model/params.pkl' # 运行模型 input_data = pipeline.default_input_maker(data_dir, sequence) result = model.predict(input_data, model_params_path) # 保存结果 prediction = result['structure'] prediction.write_pdb_file(f'{output_dir}/predicted_structure.pdb') ``` AlphaFold 的实现依赖于 TensorFlow 框架,并且需要大量的计算资源,因此通常在高性能计算平台上运行[^3]。 #### Biopython Biopython 是一个用于生物信息学的 Python 库,支持多种文件格式和数据库查询。虽然 Biopython 本身不直接提供蛋白质结构预测的功能,但它可以用于解析和处理 PDB 文件、序列比对、结构可视化等任务,是进行蛋白质结构研究的重要工具之一。 ```python from Bio.PDB import PDBParser # 解析 PDB 文件 parser = PDBParser() structure = parser.get_structure('1UBQ', '1ubq.pdb') # 打印结构信息 for model in structure: for chain in model: print(chain) ``` Biopython 提供了对 PDB 文件的解析能力,适合用于后续的结构分析和可视化工作[^1]。 #### PyTorch 和 TensorFlow PyTorch 和 TensorFlow 是两个主流的深度学习框架,许多蛋白质结构预测模型都是基于这两个框架实现的。例如,一些基于循环神经网络(RNN)的蛋白质二级结构预测模型就使用了 PyTorch 或 TensorFlow 来构建和训练模型。 以下是一个使用 PyTorch 构建简单 RNN 模型进行蛋白质二级结构预测的代码片段: ```python import torch import torch.nn as nn class RNNModel(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(RNNModel, self).__init__() self.rnn = nn.RNN(input_size, hidden_size, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): out, _ = self.rnn(x) out = self.fc(out) return out # 初始化模型 model = RNNModel(input_size=20, hidden_size=64, output_size=3) # 定义损失函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.001) ``` 该模型可以用于从氨基酸序列出发预测蛋白质的二级结构,通常需要结合训练集和测试集进行模型训练和评估[^2]。 #### OpenMM OpenMM 是一个用于分子动力学模拟的 Python 库,虽然它主要用于模拟蛋白质的动态行为,但也可以与结构预测模型结合使用,用于验证预测结构的稳定性。OpenMM 提供了高效的 GPU 加速计算能力,适合大规模的分子模拟任务。 ```python from simtk.openmm import app import simtk.openmm as mm from simtk.unit import * # 加载 PDB 文件 pdb = app.PDBFile('input.pdb') # 创建系统 forcefield = app.ForceField('amber99sb.xml', 'tip3p.xml') system = forcefield.createSystem(pdb.topology, nonbondedMethod=app.PME, nonbondedCutoff=1*nanometer, constraints=app.HBonds) # 设置模拟器 integrator = mm.LangevinIntegrator(300*kelvin, 1/picosecond, 0.002*picoseconds) simulation = app.Simulation(pdb.topology, system, integrator) simulation.context.setPositions(pdb.positions) # 运行能量最小化 simulation.minimizeEnergy() # 运行动力学模拟 simulation.step(1000) ``` OpenMM 可以与结构预测工具结合,用于进一步研究蛋白质结构的动态变化[^1]。 #### 其他工具 - **Rosetta**:Rosetta 是一个广泛使用的蛋白质结构预测和设计工具,虽然其核心是 C++ 编写的,但它提供了 Python 接口,方便用户进行脚本化操作。 - **Modeller**:Modeller 是一个用于同源建模的工具,支持 Python 脚本编写,适合用于基于已知结构的模板进行结构预测。 - **DSSP**:DSSP 是用于从 PDB 文件中提取蛋白质二级结构信息的工具,通常与 Biopython 结合使用。 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值