AlphaFold 3 和 GPT-4o 在蛋白质数据银行条目知识上的史诗级“跨界”

[原文:towardsdatascience.com/epic-crossover-between-alphafold-3-and-gpt-4os-knowledge-of-protein-data-bank-entries-ec7b6dd589e0]

如果你对生物信息学和生物学数据分析感兴趣,你会发现这篇文章立刻很有启发性。

对于更广泛的 AI 科学家来说,他们在这里会找到通过推动它产生幻觉来探测 LLM 的方法,然后找到克服这种限制的方法。

引言

蛋白质数据银行(PDB)作为生物大分子三维结构数据的综合存储库,为生物过程的分子基础提供了无价的见解。它的存在正是使得像 AlphaFold 这样的 AI 模型得以开发的原因!

这里是我关于蛋白质建模、CASP 和 AlphaFold 2 的所有同行评审和博客文章

“AlphaFold 3 中的化学直觉火花——以及巨大的局限性!”

在生物学中高效地浏览和搜索 PDB 中的条目对于现代工作至关重要;然而,尽管有一个相当完整的搜索引擎,但有几个问题很难提出。但结果证明,正如我在这里发现和报告的那样,我们现在可以使用自然语言请求来质询 PDB,因为正如你在本文标题的文章中看到的那样,GPT-4o 知道蛋白质数据银行!

进入其中

在出于好奇心而进行的某些测试中,我发现 OpenAI 显然已经将其某些大型语言模型(LLMs)的训练中包括了 PDB 内容(或包含 PDB 信息的内容,我稍后会讨论这一点),至少在 GPT-4o 的训练中是这样。在发现这一点后,我决定玩弄这个,然后将我从与 GPT-4o 的对话中产生的某些想法与使用 AlphaFold 3 的结构确定测试相结合。

根据我的研究结果,我认为随着人工智能的进步,特别是在自然语言处理模型方面,研究人员现在可以更容易地搜索并因此利用来自 PDB 的相关结构信息。使用自然语言请求查询 PDB 的能力非常强大,正如你将在我提供的许多示例中看到的那样,它允许对生物分子结构、复合物和组装进行深入探索,包括不仅仅是折叠蛋白,还有核酸、无序蛋白和小分子,所有这些都与实验验证的结构数据直接相关,这些数据以相关的 PDB 条目形式存在。

更具体地说,通过许多示例,我将展示 GPT-4o 如何用于识别与复杂搜索词相关联的 PDB 条目,这些搜索词如果直接在 PDB 网站上的常规搜索框中输入可能效果不佳。我的示例涵盖了生物学和制药领域的一些相当相关的相互作用,例如格列卫(伊马替尼,一种抗癌药物)与各种激酶靶点结合,无序区域(IDRs)与结合伙伴相互作用,以及翻译后修饰(PTMs)影响相互作用。在一些示例中,我还进一步探讨了使用 AlphaFold 3 在空间中模拟这些相互作用的可能性,从而在基于 LLM 的 PDB 检索和 3D 可视化之间架起桥梁。

在接下来的内容中,我将我的调查表述为向 GPT-4o 提出的问题,然后是它的原始答案,在某些情况下,我还准备了图片来展示我对所选示例进行的下游分析。

探索 1:你知道一些与激酶结合的格列卫(伊马替尼)的 PDB 代码吗?

我问 ChatGPT-4o“你知道一些与激酶结合的格列卫(伊马替尼)的 PDB 代码吗?”然后…

ChatGPT 说:

是的,格列卫(伊马替尼)是一种众所周知的酪氨酸激酶抑制剂,PDB 中有几个结构显示了它与靶激酶结合。以下是一些关键示例:

  1. Abl 激酶与伊马替尼结合

**PDB 代码:**1IEP

**描述:**这是最早显示伊马替尼结合到 Abl 激酶(慢性髓性白血病(CML)的目标)的结构之一。伊马替尼结合到 Abl 的非活性构象,稳定它并防止激酶激活。

这里是我的检查结果——我为 ChatGPT-4o 提供的所有示例都做了这个,但只展示了一些。你在这里可以看到 PDB 1IEP 是一个激酶结构域与 STI-571 复合的结构,这对应于 PDB 的配体规范中的伊马替尼:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/203f7c74d2fbe0920db3f1b31f4dc50e.png

ChatGPT 运行 GPT-4o 的示例输出(左侧),以及 PDB 显示的结构。图由作者从屏幕截图组成。

ChatGPT-4o 接着提供了更多示例:

  1. c-Kit 激酶与伊马替尼结合

**PDB 代码:**1T46

**描述:**伊马替尼还结合到 c-Kit 受体酪氨酸激酶,它在某些癌症中过度活跃,包括胃肠道间质瘤(GIST)。这个结构显示了伊马替尼结合到 c-Kit 的 ATP 结合位点,抑制其激酶活性。

  1. PDGFR 激酶与伊马替尼结合

**PDB 代码:**1XBB

**描述:**伊马替尼结合到血小板衍生生长因子受体(PDGFR)激酶,这是多种癌症中涉及的另一种激酶。这个结构显示了伊马替尼如何通过结合其非活性构象来抑制 PDGFR。

  1. Abl 激酶突变体(T315I)与伊马替尼结合

**PDB 代码:**3GVU

**描述:**此结构显示了具有 T315I 突变的 Abl 激酶,该突变与某些癌症患者对伊马替尼的耐药性相关。这种突变改变了结合位点,降低了伊马替尼的有效性,并突出了耐药机制。

这些结构说明了伊马替尼如何选择性地稳定激酶如 Abl、c-Kit 和 PDGFR 的非活性形式,从而帮助控制各种癌症中的异常细胞增殖。

探索 2:你知道一些无序区域与另一种蛋白结合的 PDB 代码吗?

这次我问它:“你知道一些无序区域与另一种蛋白结合的 PDB 代码吗?”然后它就这样说:

ChatGPT 说:

是的,在 PDB 中有几个已很好表征的结构,其中一个蛋白的无序区域(IDR)与另一个蛋白结合。这些 IDRs 在结合时通常采取定义良好的结构,这对于它们的调控或信号传导功能至关重要。以下是一些著名的例子:

  1. p53 转录激活域与 MDM2 结合

**PDB 代码:**1YCR

**描述:**p53 的 N 端转录激活域,其本身是无序的,与 MDM2 癌蛋白结合。这种相互作用调节 p53 的稳定性和功能。

  1. 腺病毒 E1A 与 Rb 结合

**PDB 代码:**1LXE

**描述:**腺病毒中的内在无序 E1A 蛋白与视网膜母细胞瘤(Rb)蛋白结合,抑制 Rb 在细胞周期控制中的功能。

  1. C-Myc 转录激活域与 CBP 的 TAZ1 结合

**PDB 代码:**1SB0

**描述:**c-Myc 无序的转录激活域在结合 CBP 的 TAZ1 域(一种转录共激活因子)时采取α螺旋结构。

  1. p27Kip1 与 Cyclin A/Cdk2 结合

**PDB 代码:**1JSU

**描述:**内在无序的 p27Kip1 通过围绕周期素和 Cdk 亚基缠绕来结合并抑制 Cyclin A/Cdk2 复合物。这种相互作用在细胞周期调节中起着关键作用。

  1. Ash1 无序区域与 Polycomb 的染色质结构域结合

**PDB 代码:**2L3J

**描述:**Ash1 的无序区域与 Polycomb(Pc)的染色质结构域相互作用,Pc 是一种转录沉默的调节因子。结合后采取有结构的形式。

  1. CREB 的 pKID 与 CBP 的 KIX 域结合

**PDB 代码:**1KDX

**描述:**CREB 磷酸化激酶诱导域(pKID),其本身是无序的,与 CBP 的 KIX 域结合。磷酸化诱导 pKID 形成α螺旋,稳定相互作用。

  1. Ets1 转录因子与 DNA 结合

**PDB 代码:**2NNY

**描述:**Ets1 的无序调控区域在结合 DNA 后部分有序,这是无序区域在与非蛋白伙伴相互作用时采取结构的一个例子。

  1. Hif-1α氧依赖性降解域与 VHL 结合

**PDB 代码:**1LQB

描述: Hif-1α的氧依赖性降解域,这是一种固有无序蛋白,与冯·希佩尔-林道(VHL)蛋白结合。这种相互作用使 Hif-1α在正常氧条件下被标记为降解。

  1. Tau 蛋白与微管结合

PDB 代码: 5SYF

描述: Tau 是一种固有无序蛋白,与微管相互作用。结合后,Tau 的特定区域会采取结构构象,有助于稳定微管组装。

  1. 组蛋白 H1 无序尾部结合到 DNA 或组蛋白伴侣

PDB 代码: 2LXD

描述: 组蛋白 H1 的无序 C 端尾部结合 DNA 和组蛋白伴侣,结合时采取部分结构。这种相互作用在染色质压缩中发挥作用。

这些结构展示了许多 IDRs 的“结合时折叠”特性,它们在与结合伙伴存在时采取特定的二级或三级结构,通常促进关键的细胞过程,如信号传导、调节和基因表达。

示例:PDB 1YCR,包括使用完整蛋白质的 AlphaFold 3 回预测

我然后亲自查看了一些这些例子。PDB 1YCR(ChatGPT-4o 在此处提供的第一个答案)是 p53 的结构,这是一种与癌症以多种方式相关的蛋白质,并且包含几个无序残基,这些残基结合到其他蛋白质上。在这个 PDB 文件中,它被捕捉到与 MDM2 相互作用。您可以在图的上左部分的实验结构中看到这一点,其中 MDM2 的一个短片段以螺旋的形式结合到 p53 上。您也可以在 AlphaFold 3 对完整复合物的预测中看到这一点,这表明一些额外的相互作用。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3bf525718903dce82a55cfe35a389c35.png

使用 AlphaFold 3 建模无序蛋白区域与靶蛋白之间的相互作用,结合时折叠。图由作者从屏幕截图组成。

探索 3:提出涉及翻译后修饰的蛋白质与其他蛋白质结合的 PDB 条目?

ChatGPT 说:

当然!以下是一些 PDB 条目,这些条目中的蛋白质涉及由翻译后修饰(PTMs)介导的相互作用。这些结构提供了关于 PTMs 如磷酸化、甲基化和乙酰化如何影响蛋白质-蛋白质相互作用的见解。

  1. 磷酸化识别

14-3-3 蛋白结合到磷酸化肽

PDB 代码: 1QJA

描述: 该结构显示 14-3-3 蛋白结合到磷酸化肽上,说明了 14-3-3 如何识别和结合磷酸丝氨酸残基。

BRCT 结构域结合到磷酸化肽

PDB 代码: 1T29

描述: 该结构特征性地展示了 BRCA1 BRCT 结构域与 BACH1 的磷酸化肽段结合,展示了磷酸化如何被 BRCT 结构域识别。

  1. 泛素识别

p62 的泛素结合结构域与泛素结合

PDB 代码: 3B0F

描述: 该结构描绘了 p62 的 UBA(泛素相关)结构域与泛素结合,突出了 p62 如何识别和结合多泛素化底物以进行自噬。

  1. 甲基化识别

HP1 的染色质结构域与甲基化组蛋白结合

PDB 代码: 3C1A

描述: HP1 的染色质结构域与三甲基化组蛋白 H3K9 肽段相互作用,展示了组蛋白上的甲基化如何被识别并有助于转录调控。

  1. 乙酰化识别

乙酰化组蛋白 H4 与溴结构域结合

PDB 代码: 3MXF

描述: 该结构展示了 BET 蛋白 BRD4 的溴结构域与乙酰化组蛋白 H4 尾巴结合,说明了组蛋白的乙酰化如何被识别并介导染色质相互作用。

  1. Neddylation 识别

cullin-RING E3 连接酶与 Nedd8 结合

PDB 代码: 2ZVJ

描述: 该结构展示了 cullin-RING E3 连接酶与 Nedd8 修饰的相互作用,突出了 neddylation 在泛素-蛋白酶体系统中的作用。

  1. p27Kip1 和 Cdk-Cyclin 结合的磷酸化

Cdk2-cyclin A 复合物与磷酸化 p27Kip1 结合

PDB 代码: 1JSU

描述: 该结构显示了 cyclin A/Cdk2 复合物与磷酸化形式 p27Kip1 的相互作用,展示了磷酸化如何调节周期依赖性激酶的结合和抑制。

  1. 糖基化

刀豆球蛋白 A 的凝集素结构域与甘露糖化糖蛋白结合

PDB 代码: 3FQZ

描述: 该结构特征性地展示了植物凝集素刀豆球蛋白 A 与甘露糖化糖蛋白结合,说明了糖基化如何介导蛋白质-蛋白质相互作用。

  1. Ets1 转录因子的磷酸化

Ets1 与 DNA 结合

PDB 代码: 2NNY

描述: Ets1 的无序调控区域在结合 DNA 后部分有序,展示了磷酸化如何影响其与靶序列相互作用的潜力。

  1. p53 的乙酰化

乙酰化 p53 与 MDM2 结合

PDB 代码: 1YCR

描述: 乙酰化 p53 与 MDM2 之间的相互作用说明了乙酰化如何影响 p53(一种关键的肿瘤抑制因子)的稳定性和调控。

  1. SUMO 化

SUMO-1 与 SUMO 相互作用基序结合

PDB 代码: 4C0N

描述: 该结构显示了一个含有 SUMO 相互作用基序的蛋白质与 SUMO-1 结合,突出了 SUMO 化如何调控各种蛋白质相互作用。

示例:PDB 1QJA,包括 AlphaFold 3 的反向预测(可以处理磷酸化残基!)

PDB 1QJA(ChatGPT-4o 提供的第一个答案)是名为 14–3–3 的蛋白质与含有磷酸化(P 原子被 4 个 O 原子包围)的肽结合的结构。在下面的图片中,3D 结构对应于蛋白质和磷酸化肽之间的复合物(左侧:全视图,右侧:聚焦磷酸)。你可以看到磷酸基团建立了几个接触(虚线)。下面的绿色 2D 图是 AlphaFold 3 的 PAE 图,显示当磷酸基团存在时,肽与蛋白质相互作用的统计数据更好(右侧)。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/18460e7911fc9332896ca9ae82aac0f7.png

顶部:与蛋白质结合的磷酸化肽的 AlphaFold 3 模型。底部:AlphaFold 3 预测的 PAE 图,考虑(右侧)或不考虑(左侧)磷酸化。图由作者从屏幕截图组成。

GPT-4o 真的在训练中学习了 PDB 吗?

由于 OpenAI 没有在邮件中回答我的问题,我就直接问了 ChatGPT-4o 本身。答案是……有点,但又不完全是!

从 ChatGPT 那里我了解到,它并没有明确地用 PDB 条目进行训练(那会很好,因为它们包含每条 PDB 条目的论文摘要和大量其他数据)。然而,ChatGPT 解释说,它的训练材料包括论文、预印本、摘要和教育文档,这些文档提到了这些 PDB 条目;这就是它如何了解到大量 PDB 条目的方式。

PDB 条目的幻觉,以及克服它们的方法

如果上述说法正确,即如果 GPT-4o 没有用 PDB 本身进行训练,而是用引用某些 PDB 结构的论文和其他文档进行训练,那么它可能根本不知道许多结构,尤其是那些没有与任何论文链接的结构。顺着这个思路,我决定更深入地询问 ChatGPT-4o,并试图揭露它。

我花了一些时间才破解它,但最终我成功了。在我第一次问“你知道 PDB ID 1CI0 吗?”(PDB 显示没有与任何论文链接)时,我得到了一个自信但错误的回答,解释说这个条目“描述了来自Desulfovibrio vulgaris的细胞色素 c553”。然而,PDB 条目解释说这又是另一种蛋白质,它既不是细胞色素 c,也不属于Desulfovibrio vulgaris

现在很糟糕,非常糟糕,就像所有的幻觉一样。但令人鼓舞的是,如果我问 ChatGPT-4o 进行在线搜索(注意 PDB 是完全开放的),那么它会提炼出正确的信息:

PDB ID 1CI0 指的是从酿酒酵母(酿酒酵母)中提取的吡哆醇-5’-磷酸氧化酶(PNP)的晶体结构。该酶被归类为氧化还原酶,在维生素 B6 代谢途径中起着关键作用。它促进吡哆醇-5’-磷酸转化为维生素 B6 的活性形式——吡哆醛-5’-磷酸。

该结构是通过 2.7 Å分辨率的 X 射线衍射确定的,生物组装为同源二聚体。实验使用的是在大肠杆菌中表达的重组蛋白衍生的晶体。该结构包括两条蛋白链,并与辅因子黄素单核苷酸(FMN)结合,这对于其酶活性至关重要。

该条目由 Shi 等人于 1999 年存档,常用于研究维生素 B6 的生物合成机制以及在生物技术或医学中的潜在应用【7】【8】【10】。

…这实际上完美地反映了 PDB 中此条目可用的所有信息,实际上比它更好,因为它解释了缩写和简称,如"PNP",并清理了所有数据——只需与 PDB 条目比较:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d270b3fd2d8de96e815e8738c2069db3.png

那么?有用吗?

我通过这次最新实验得出的结论是,尽管 ChatGPT 很容易产生幻觉,但通过强制其在线回溯条目进行交叉检查,可能完全克服其幻觉问题。

就像所有这些 AI 工具一样,我们需要谨慎,但回溯搜索方法可能是可靠的——但在得出非常具体的结论之前,你最好亲自交叉检查 LLM 的输出。

结论与展望

通过这次探索,我旨在说明实验结构生物学、使用 AlphaFold 3 等工具的分子建模以及 GPT-4o 等 LLM 如何汇聚,使研究人员能够以新颖的方式搜索和分析分子结构,这一切都归功于 OpenAI 在训练数据集中包括 PDB 内容。从上一节中我们看到的幻觉问题,我提出,在 LLM 训练中明确包括 PDB 条目的信息,可以将这一切提升到一个新的水平,工作得更好、更准确。然而,在上述回溯搜索方法测试中,人们可能可以放心地工作,相信 LLM 不会偷偷输入错误信息。

我认为,通过利用这些综合资源,科学家可以更快、更好地了解与特定主题相关的结构范围;这在进入生物学的新特定子领域时可能最有用。

我还认为,这些资源为更深入地研究如何将 LLMs 和AlphaFold 3(或现在出现的类似模型)结合起来,不仅能够导航,而且能够以新的方式理解和分析生物分子及其复合物奠定了基础。也许甚至可以创建受益于 LLMs 对 PDB 知识的分子图形和建模工具,这些工具可以通过自然命令执行生物分子结构的复杂操作和分析。


www.lucianoabriata.com 我会写关于我广泛兴趣范围内的一切:自然、科学、技术、编程等。通过电子邮件订阅以获取我的新故事。关于小型工作咨询,请查看我的服务页面。您可以通过这里与我联系。您也可以在这里给我打赏。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值