如何利用 LLM 推动基因编辑革命

原创于 2025-12-21 00:34:40 发布 · 309 阅读

6 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

1088 篇文章

订阅专栏

原文：towardsdatascience.com/how-llms-can-fuel-gene-editing-revolution-1b15663f697c

|人工智能| 长语言模型| 基因编辑| 医学中的 AI|

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0cf407a93a483ec598632eb4690812fb.png

作者使用 AI 生成的图像

基因就像故事，DNA 是故事所用的语言。 —— 山姆·基恩

生成式 AI 可以创作诗歌、代码、博客文章等等。所有这些都是通过训练文本来实现的。我们常常忘记文本是一系列字符，它们可以通过复杂的方式组合起来，以实现无限和复杂的意义。同样，生命仅由几个基本字符组成（DNA 只有 4 个，蛋白质有 20 个），它们的无限组合使得我们今天拥有如此惊人的生物多样性。

如果我们是由序列组成的，而语言模型能够分析序列，那么为什么不利用 DNA 和蛋白质序列的语言模型呢？

这是过去两年革命的基础。这场革命始于AlphaFold2，在该研究中，研究人员通过使用训练有蛋白质序列的语言模型，解决了困扰了 100 年的问题。如今，多亏了 AlphaFold2，我们能够仅从字符序列中重建蛋白质的结构。

生命之语的讲述：AlphaFold2 及其如何改变生物学

秘密在于模型能够自主学习（自监督学习）数据表示，然后允许它执行任务。在蛋白质的情况下，模型学习蛋白质及其序列中存在的模式（这些序列类似于文本序列，不是随机的，而是具有功能意义和独特的语义）。这种表示使我们能够预测蛋白质的结构和功能或其他参数。

在这里，我们报告说大型蛋白质语言模型能够学习到足够的信息，从而能够进行准确的、原子级别的蛋白质结构预测。（来源）

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f7a855b0e78a8d553697e381c7d20696.png

ESM2 预测的蛋白质结构示例。图片来源：此处

生成式 AI 的一个优势是能够利用大型语言模型（LLM）进行文本生成等任务。此外，我们还可以根据特定要求生成文本。例如，当我们要求模型生成一个 Python 中最小化旋转图像功能的函数时，模型必须生成满足以下条件的文本：

功能性，生成的文本（代码）必须准确执行我们请求的功能。
效率，函数必须不复杂，但步骤要尽可能少。
语法正确性，模型必须遵守语言（Python）的规则。

所有这一切都是可能的，因为模型在其内部学习越来越复杂的表示。实际上，第一层学习文本不同部分之间的简单关系（句法结构、词性等），而深层学习复杂的模式（讽刺、修辞手法等）。然后，模型可以在推理时利用这些模式来执行任务。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/09210eeb2e95b2f884645307dde03cdb.png

在 Transformer（BERT）层中单词的分层表示。图片来源：此处

我们可以想象一个类似的过程用于蛋白质生成。如果模型理解蛋白质序列中哪些部分具有特定的功能作用或负责某种行为，它就可以在推理中利用这些部分。例如，我们可以要求模型生成一个由不到一百个氨基酸组成的序列，能够切割芳香族环的蛋白质。这可能是一种可以人工生产并用于清理受油污染水的酶。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5a0d16fc96844c8a2d2e120d3dd4cda1.png

从在通用蛋白质数据集上训练的预训练语言模型生成。图片来源：此处

这听起来可能像科幻小说，但通过利用大型语言模型，研究人员已经创建了具有自然界中不存在的序列的功能蛋白质。

AI 能够从头开始设计新的蛋白质

除了结构特征之外，掩码蛋白质语言模型捕捉生物物理属性、进化环境和家族内的对齐。(来源)

这意味着模型已经捕捉到了这种功能信息，并可以利用它来生成受所需生物物理属性约束的蛋白质。

![蛋白质工程领域使用 Transformer 模型的可能性的概述。得益于注意力机制，可控的 Transformer 可能能够生成具有所需功能或特性的新蛋白质。图片来源：这里]

蛋白质工程领域使用 Transformer 模型的可能性的概述。得益于注意力机制，可控的 Transformer 可能能够生成具有所需功能或特性的新蛋白质。图片来源：这里

DNA 和蛋白质不是不可变的，而是随机突变和自然选择驱动的产物。每天，每个生物体都会经历突变，其中一些是有益的，而另一些则是有害的。这些突变随后可以传递给后代，这就是物种进化的方式。然而，这个过程是随机的，无法控制。此外，许多这些突变在发生时是各种疾病（遗传疾病、癌症等）的原因。

到目前为止，我们所看到的是利用语言模型进行计算任务的可能性，例如预测蛋白质的结构或为人工应用生成蛋白质。尽管应用前景几乎是无限的，但这并不允许我们治愈疾病。

我们能否通过突变 DNA 来获得优势，人工智能如何帮助我们？

基因编辑（修改 DNA 的过程）实际上是一个已经研究了数十年的过程。它现在才即将在临床和患者身上产生影响，这显示了其复杂性。实际上，在患者身上编辑 DNA 在技术上复杂（产量低）且存在非特异性风险（将突变带到我们不希望的地方，从而导致疾病）。

最近，虽然取得了一些进展。目前，患者的细胞从体外提取（通常是造血细胞），在实验室中修改，然后重新输回患者体内。这为治疗地中海贫血和贫血等血液疾病带来了希望。

https://creativecommons.org/licenses/by/4.0/, 许可证：这里]

人类细胞基因编辑协议示例。图片来源：[这里](https://www.frontiersin.org/journals/physiology/articles/10.3389/fphys.2022.848261/full)，许可证：[这里]

这些成功是通过一种新的方法实现的，它彻底改变了修改人类细胞 DNA 的可能性。CRISPR-Cas9 简化了研究人员的工作，使他们能够进行简单、稳健和紧凑的编辑。

问题是，到目前为止，我们已经在提取血细胞、修改它们并重新注入它们方面取得了成功。 但这意味着我们既不能修改所有其他器官，也不能到达实体瘤（在肿瘤中特异性地修改基因以治愈它们）。这是因为尽管我们有几种 CRISPR-Cas 蛋白，但它们在体温下通常不是最优的，不具有所需的生化特性，选择性不足，等等。

基于 CRISPR 的技术预计将极大地促进可持续生产、病原体检测、某些遗传性遗传病的治疗以及食品安全。然而，在充分利用 CRISPR-Cas 的全部潜力之前，还有一些障碍需要克服：技术、商业和社会方面的障碍。来源

现在，一些研究人员已经尝试手动或借助程序绘制CRISPR-cas蛋白。然而，由于蛋白质序列景观的崎岖和非凸性，结果并不令人满意。序列的组合几乎是无限的，但只有少数是功能性的，并具有所需的特性。

正如我们之前所说，我们可以取一个语言模型，用蛋白质序列来训练它，然后利用它来生成具有所需特性的蛋白质。实际上，transformer通过自注意力机制学习序列中哪些成分对于特定的功能是重要的。使用情境学习，模型可以回忆起为特定功能设计序列所需的内容。

对 Transformer 的挽歌？

我们能否利用 LLM（大型语言模型）来获得期望的 CRISPR-cas？我们能否生成一种 CRISPR-cas，允许编辑人体内任何器官或疾病？

我们有一个通用的 LLM，能够生成各种类型和功能的蛋白质序列，这些序列与天然蛋白质的序列相匹配。然而，在这种情况下，我们希望有一个针对特定类型应用和蛋白质的特定模型。为此，模型可以对文本 LLM 进行微调。在这项工作中，他们使用了一个通用的蛋白质模型，并通过在专门的 CRISPR-Cas 数据集上进行微调来将其调整为 CRISPR-Cas。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1b91b40ec18976e2cdf40f3ec585f49e.png

设计 CRISPR-Cas 系统的语言建模方法概述。图片来源：这里

作者随后生成了与自然界中存在的蛋白质序列不同的蛋白质序列。 这些序列的结构与已知的相似，但同时也具有功能和结构上的差异。换句话说，这个模型就像是从自然存在的蛋白质中“启发”自己来创造新的蛋白质。这种方法的美丽之处在于，这些蛋白质可以在实验室中合成并测试其实际应用。测试后的蛋白质表现出不同的功能特性：

该模型能够生成具有各种功能特性的蛋白质，包括 PAM 特异性、温度依赖性活性、DNA 切割模式或人类细胞中的高活性。(来源)

最后，生物技术和医学正站在革命的边缘。人工智能将对医疗保健产生深远的影响，但尽管许多应用经常被讨论，LLMs 对 DNA 和蛋白质序列的影响讨论得较少。AlphaFold2 和其他类似的 LLMs 帮助研究人员理解蛋白质的结构，从而设计药物。由于在训练过程中，这些模型学习了关于蛋白质结构和功能的一般规则，因此它们也可以用于生成性地创建新的蛋白质。

一方面，这些新蛋白质可以用于新的应用（例如清理环境），但到目前为止，它们如何用于治疗疾病尚不清楚。另一方面，人工智能和 CRISPR-Cas 的结合使我们能够展望一个未来，在这个未来中，基因编辑可以用来治疗几乎任何疾病。

可能在未来，医生将在诊断时对基因组进行测序。它将注意到导致疾病的突变，并进行基因编辑以治疗患者。目前，基因编辑的第一项临床试验已经开始。LLMs 将允许识别新的突变和新的基因编辑措施。

此外，这些 LLMs 非常灵活，我们可以想象将用于经典基于文本的 LLMs 的技术应用于其中。因此，在未来，这些 LLMs 将拥有一个技术库（提示设计、微调等），以生成自然界中不存在的具有所需功能的蛋白质。