如何利用 LLM 推动基因编辑革命

原文:towardsdatascience.com/how-llms-can-fuel-gene-editing-revolution-1b15663f697c

|人工智能| 长语言模型| 基因编辑| 医学中的 AI|

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0cf407a93a483ec598632eb4690812fb.png

作者使用 AI 生成的图像

基因就像故事,DNA 是故事所用的语言。 —— 山姆·基恩

生成式 AI 可以创作诗歌、代码、博客文章等等。所有这些都是通过训练文本来实现的。我们常常忘记文本是一系列字符,它们可以通过复杂的方式组合起来,以实现无限和复杂的意义。同样,生命仅由几个基本字符组成(DNA 只有 4 个,蛋白质有 20 个),它们的无限组合使得我们今天拥有如此惊人的生物多样性。

如果我们是由序列组成的,而语言模型能够分析序列,那么为什么不利用 DNA 和蛋白质序列的语言模型呢?

这是过去两年革命的基础。这场革命始于AlphaFold2,在该研究中,研究人员通过使用训练有蛋白质序列的语言模型,解决了困扰了 100 年的问题。如今,多亏了 AlphaFold2,我们能够仅从字符序列中重建蛋白质的结构。

生命之语的讲述:AlphaFold2 及其如何改变生物学

秘密在于模型能够自主学习(自监督学习)数据表示,然后允许它执行任务。在蛋白质的情况下,模型学习蛋白质及其序列中存在的模式(这些序列类似于文本序列,不是随机的,而是具有功能意义和独特的语义)。这种表示使我们能够预测蛋白质的结构和功能或其他参数。

在这里,我们报告说大型蛋白质语言模型能够学习到足够的信息,从而能够进行准确的、原子级别的蛋白质结构预测。(来源

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f7a855b0e78a8d553697e381c7d20696.png

ESM2 预测的蛋白质结构示例。图片来源:此处

生成式 AI 的一个优势是能够利用大型语言模型(LLM)进行文本生成等任务。此外,我们还可以根据特定要求生成文本。例如,当我们要求模型生成一个 Python 中最小化旋转图像功能的函数时,模型必须生成满足以下条件的文本:

  • 功能性,生成的文本(代码)必须准确执行我们请求的功能。

  • 效率,函数必须不复杂,但步骤要尽可能少。

  • 语法正确性,模型必须遵守语言(Python)的规则。

所有这一切都是可能的,因为模型在其内部学习越来越复杂的表示。实际上,第一层学习文本不同部分之间的简单关系(句法结构、词性等),而深层学习复杂的模式(讽刺、修辞手法等)。然后,模型可以在推理时利用这些模式来执行任务。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/09210eeb2e95b2f884645307dde03cdb.png

在 Transformer(BERT)层中单词的分层表示。图片来源:此处

我们可以想象一个类似的过程用于蛋白质生成。如果模型理解蛋白质序列中哪些部分具有特定的功能作用或负责某种行为,它就可以在推理中利用这些部分。例如,我们可以要求模型生成一个由不到一百个氨基酸组成的序列,能够切割芳香族环的蛋白质。这可能是一种可以人工生产并用于清理受油污染水的酶。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5a0d16fc96844c8a2d2e120d3dd4cda1.png
从在通用蛋白质数据集上训练的预训练语言模型生成。图片来源: 此处

这听起来可能像科幻小说,但通过利用大型语言模型,研究人员已经创建了具有自然界中不存在的序列的功能蛋白质。

AI 能够从头开始设计新的蛋白质

除了结构特征之外,掩码蛋白质语言模型捕捉生物物理属性、进化环境和家族内的对齐。(来源)

这意味着模型已经捕捉到了这种功能信息,并可以利用它来生成受所需生物物理属性约束的蛋白质。

![蛋白质工程领域使用 Transformer 模型的可能性的概述。得益于注意力机制,可控的 Transformer 可能能够生成具有所需功能或特性的新蛋白质。图片来源:这里]
蛋白质工程领域使用 Transformer 模型的可能性的概述。得益于注意力机制,可控的 Transformer 可能能够生成具有所需功能或特性的新蛋白质。图片来源: 这里

DNA 和蛋白质不是不可变的,而是随机突变和自然选择驱动的产物。每天,每个生物体都会经历突变,其中一些是有益的,而另一些则是有害的。这些突变随后可以传递给后代,这就是物种进化的方式。然而,这个过程是随机的,无法控制。此外,许多这些突变在发生时是各种疾病(遗传疾病、癌症等)的原因。

到目前为止,我们所看到的是利用语言模型进行计算任务的可能性,例如预测蛋白质的结构或为人工应用生成蛋白质。尽管应用前景几乎是无限的,但这并不允许我们治愈疾病。

我们能否通过突变 DNA 来获得优势,人工智能如何帮助我们?

基因编辑(修改 DNA 的过程)实际上是一个已经研究了数十年的过程。它现在才即将在临床和患者身上产生影响,这显示了其复杂性。实际上,在患者身上编辑 DNA 在技术上复杂(产量低)且存在非特异性风险(将突变带到我们不希望的地方,从而导致疾病)。

最近,虽然取得了一些进展。目前,患者的细胞从体外提取(通常是造血细胞),在实验室中修改,然后重新输回患者体内。这为治疗地中海贫血和贫血等血液疾病带来了希望。

https://creativecommons.org/licenses/by/4.0/, 许可证:这里]

人类细胞基因编辑协议示例。图片来源:[这里](https://www.frontiersin.org/journals/physiology/articles/10.3389/fphys.2022.848261/full),许可证:[这里]

这些成功是通过一种新的方法实现的,它彻底改变了修改人类细胞 DNA 的可能性。CRISPR-Cas9 简化了研究人员的工作,使他们能够进行简单、稳健和紧凑的编辑。

问题是,到目前为止,我们已经在提取血细胞、修改它们并重新注入它们方面取得了成功。 但这意味着我们既不能修改所有其他器官,也不能到达实体瘤(在肿瘤中特异性地修改基因以治愈它们)。这是因为尽管我们有几种 CRISPR-Cas 蛋白,但它们在体温下通常不是最优的,不具有所需的生化特性,选择性不足,等等。

基于 CRISPR 的技术预计将极大地促进可持续生产、病原体检测、某些遗传性遗传病的治疗以及食品安全。然而,在充分利用 CRISPR-Cas 的全部潜力之前,还有一些障碍需要克服:技术、商业和社会方面的障碍。来源

现在,一些研究人员已经尝试手动或借助程序绘制CRISPR-cas蛋白。然而,由于蛋白质序列景观的崎岖和非凸性,结果并不令人满意。序列的组合几乎是无限的,但只有少数是功能性的,并具有所需的特性。

正如我们之前所说,我们可以取一个语言模型,用蛋白质序列来训练它,然后利用它来生成具有所需特性的蛋白质。实际上,transformer通过自注意力机制学习序列中哪些成分对于特定的功能是重要的。使用情境学习,模型可以回忆起为特定功能设计序列所需的内容。

对 Transformer 的挽歌?

我们能否利用 LLM(大型语言模型)来获得期望的 CRISPR-cas?我们能否生成一种 CRISPR-cas,允许编辑人体内任何器官或疾病?

我们有一个通用的 LLM,能够生成各种类型和功能的蛋白质序列,这些序列与天然蛋白质的序列相匹配。然而,在这种情况下,我们希望有一个针对特定类型应用和蛋白质的特定模型。为此,模型可以对文本 LLM 进行微调。在这项工作中,他们使用了一个通用的蛋白质模型,并通过在专门的 CRISPR-Cas 数据集上进行微调来将其调整为 CRISPR-Cas。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1b91b40ec18976e2cdf40f3ec585f49e.png

设计 CRISPR-Cas 系统的语言建模方法概述。图片来源:这里

作者随后生成了与自然界中存在的蛋白质序列不同的蛋白质序列。 这些序列的结构与已知的相似,但同时也具有功能和结构上的差异。换句话说,这个模型就像是从自然存在的蛋白质中“启发”自己来创造新的蛋白质。这种方法的美丽之处在于,这些蛋白质可以在实验室中合成并测试其实际应用。测试后的蛋白质表现出不同的功能特性:

该模型能够生成具有各种功能特性的蛋白质,包括 PAM 特异性、温度依赖性活性、DNA 切割模式或人类细胞中的高活性。(来源)

最后,生物技术和医学正站在革命的边缘。人工智能将对医疗保健产生深远的影响,但尽管许多应用经常被讨论,LLMs 对 DNA 和蛋白质序列的影响讨论得较少。AlphaFold2 和其他类似的 LLMs 帮助研究人员理解蛋白质的结构,从而设计药物。由于在训练过程中,这些模型学习了关于蛋白质结构和功能的一般规则,因此它们也可以用于生成性地创建新的蛋白质。

一方面,这些新蛋白质可以用于新的应用(例如清理环境),但到目前为止,它们如何用于治疗疾病尚不清楚。另一方面,人工智能和 CRISPR-Cas 的结合使我们能够展望一个未来,在这个未来中,基因编辑可以用来治疗几乎任何疾病。

可能在未来,医生将在诊断时对基因组进行测序。它将注意到导致疾病的突变,并进行基因编辑以治疗患者。目前,基因编辑的第一项临床试验已经开始。LLMs 将允许识别新的突变和新的基因编辑措施。

此外,这些 LLMs 非常灵活,我们可以想象将用于经典基于文本的 LLMs 的技术应用于其中。因此,在未来,这些 LLMs 将拥有一个技术库(提示设计、微调等),以生成自然界中不存在的具有所需功能的蛋白质。

你怎么看?你认为大型语言模型(LLMs)会革命化医疗保健吗?请在评论中告诉我。


如果你觉得这个话题很有趣:

您可以查找我的其他文章,您也可以在*LinkedIn上与我联系或找到我。请查看包含每周更新的 ML & AI 新闻的这个仓库我开放合作和项目,您可以在 LinkedIn 上联系我。您还可以免费订阅**,以便在发布新故事时获得通知。*

每当 Salvatore Raieli 发布文章时,都会收到电子邮件通知。

以下是我 GitHub 仓库的链接,我在那里收集与机器学习、人工智能等相关代码和资源。

GitHub – SalvatoreRa/tutorial: 有关机器学习、人工智能、数据科学等教程

或者你可能对我的最近文章感兴趣:

Tabula Rasa:用于表格数据的大型语言模型

欢迎回到 80 年代:卷积可能将 Transformer 吹走

关于上下文学习的所有你需要知道的内容

人工智能在人类语音疾病检测中的新兴角色

参考文献列表

这里是撰写本文时参考的主要参考文献列表,仅引用了文章的第一作者姓名。

  1. Lin, 2022, 蛋白质序列的语言模型在进化尺度上实现准确的结构预测,链接

  2. Voita, 2019, Transformer 中表示的底层进化:基于机器翻译和语言建模目标的研究,链接

  3. Quintana, 2022, 遗传性红细胞疾病的基因编辑,链接

  4. Van der Oost, 2023, 基因编辑革命,链接

  5. Ruffolo, 2024, 通过模拟 CRISPR-Cas 序列宇宙设计高度功能化的基因组编辑器,链接

  6. Ruffolo, 2024, 使用语言模型设计蛋白质,链接

  7. Ferruz, 2022, 使用条件 Transformer 实现可控蛋白质设计,链接

  8. Verkuil, 2022, 语言模型在自然蛋白质之外进行泛化,链接

  9. Jumper, 2021, 高度精确的 AlphaFold 蛋白质结构预测,链接

  10. Ghorbani, 2021, CRISPR-Cas 技术及其在病毒性疾病控制中的应用概述,链接

  11. Bhokisham, 2021, CRISPR-Cas 系统:当前和新兴的转化景观,链接

内容概要:本文介绍了ENVI Deep Learning V1.0的操作教程,重点讲解了如何利用ENVI软件进行深度学习模型的训练与应用,以实现遥感图像中特定目标(如集装箱)的自动提取。教程涵盖了从数据准备、标签图像创建、模型初始化与训练,到执行分类及结果优化的完整流程,并介绍了精度评价与通过ENVI Modeler实现一键化建模的方法。系统基于TensorFlow框架,采用ENVINet5(U-Net变体)架构,支持通过点、线、面ROI或分类图生成标签数据,适用于多/高光谱影像的单一类别特征提取。; 适合人群:具备遥感图像处理基础,熟悉ENVI软件操作,从事地理信息、测绘、环境监测等相关领域的技术人员或研究人员,尤其是希望将深度学习技术应用于遥感目标识别的初学者与实践者。; 使用场景及目标:①在遥感影像中自动识别和提取特定地物目标(如车辆、建筑、道路、集装箱等);②掌握ENVI环境下深度学习模型的训练流程与关键参数设置(如Patch Size、Epochs、Class Weight等);③通过模型调优与结果反馈提升分类精度,实现高效自动化信息提取。; 阅读建议:建议结合实际遥感项目边学边练,重点关注标签数据制作、模型参数配置与结果后处理环节,充分利用ENVI Modeler进行自动化建模与参数优化,同时注意软硬件环境(特别是NVIDIA GPU)的配置要求以保障训练效率。
内容概要:本文系统阐述了企业新闻发稿在生成式引擎优化(GEO)时代下的全渠道策略与效果评估体系,涵盖当前企业传播面临的预算、资源、内容与效果评估四大挑战,并深入分析2025年新闻发稿行业五大趋势,包括AI驱动的智能化转型、精准化传播、首发内容价值提升、内容资产化及数据可视化。文章重点解析央媒、地方官媒、综合门户和自媒体四类媒体资源的特性、传播优势与发稿策略,提出基于内容适配性、时间节奏、话题设计的策略制定方法,并构建涵盖品牌价值、销售转化与GEO优化的多维评估框架。此外,结合“传声港”工具实操指南,提供AI智能投放、效果监测、自媒体管理与舆情应对的全流程解决方案,并针对科技、消费、B2B、区域品牌四大行业推出定制化发稿方案。; 适合人群:企业市场/公关负责人、品牌传播管理者、数字营销从业者及中小企业决策者,具备一定媒体传播经验并希望提升发稿效率与ROI的专业人士。; 使用场景及目标:①制定科学的新闻发稿策略,实现从“流量思维”向“价值思维”转型;②构建央媒定调、门户扩散、自媒体互动的立体化传播矩阵;③利用AI工具实现精准投放与GEO优化,提升品牌在AI搜索中的权威性与可见性;④通过数据驱动评估体系量化品牌影响力与销售转化效果。; 阅读建议:建议结合文中提供的实操清单、案例分析与工具指南进行系统学习,重点关注媒体适配性策略与GEO评估指标,在实际发稿中分阶段试点“AI+全渠道”组合策略,并定期复盘优化,以实现品牌传播的长期复利效应。
<think>好的,用户想了解如何使用大型语言模型(LLM)进行主题建模。首先,我需要明确主题建模的基本概念,以及传统方法的优缺点。传统方法如LDA虽然有效,但可能无法捕捉复杂的语义关系。而LLM在这方面有潜力,因为它们在理解上下文和生成文本方面表现优异。 接下来,我应该整理使用LLM进行主题建模的几种主要方法。比如,生成式方法可能包括让LLM直接生成主题关键词或描述;判别式方法可能涉及对文本进行分类或聚类。同时,结合传统方法如聚类算法与LLM的嵌入也是一个方向。 然后,需要考虑具体的步骤,比如数据准备、模型选择、提示工程、后处理等。示例部分,可以展示如何用LLM生成主题,或者结合嵌入进行聚类。例如,使用OpenAI的API生成主题关键词,或者用BERT获取嵌入后使用K-means聚类。 还要注意用户可能关心的挑战,比如计算资源、数据隐私、模型可解释性。这些问题需要简要提及,并给出可能的解决方案,如使用较小的模型或差分隐私。 最后,确保回答结构清晰,分点说明方法和步骤,并附上示例代码。同时,根据用户提供的引用,特别是引用[3]和[4],可能需要提到生成式和判别式推荐模式,以及如何处理主题分配的不一致性,如TopicGPT的例子。 需要验证每个方法的可行性,比如生成式提示的有效性,以及嵌入聚类的具体实现。可能还需要考虑如何评估LLM生成的主题质量,比如一致性或人工评估。 总之,回答需要涵盖方法、步骤、示例、挑战和解决方案,并引用相关文献,确保信息准确可靠。</think>### 使用大型语言模型(LLM)进行主题建模的方法和示例 #### **方法概述** 主题建模旨在从文本数据中提取隐含主题,传统方法如LDA(潜在狄利克雷分配)依赖统计模型,而LLM通过语义理解和生成能力可更灵活地实现这一目标。以下是几种常见方法: 1. **生成式主题建模** - **方法**:通过设计提示词(prompt)直接要求LLM生成文本的主题关键词或主题描述。例如: *“请为以下文本生成3个主题关键词:{输入文本}”* - **优势**:无需训练,直接利用LLM的生成能力,适合小规模或动态数据[^3]。 - **示例**(使用OpenAI API): ```python import openai response = openai.Completion.create( model="text-davinci-003", prompt="为以下新闻生成3个主题关键词:'苹果公司宣布推出新一代iPhone,搭载AI芯片和增强现实功能。'", max_tokens=50 ) print(response.choices[0].text.strip()) # 输出:科技, 人工智能, 增强现实 ``` 2. **嵌入聚类法** - **方法**:利用LLM生成文本的嵌入向量(embedding),再通过聚类算法(如K-means)提取主题。 - **步骤**: 1. 使用LLM(如BERT、Sentence-BERT)生成文本嵌入。 2. 对嵌入向量降维(如UMAP)并聚类。 3. 从每个聚类中提取高频词或生成主题描述。 - **示例**(使用Hugging Face Transformers): ```python from sentence_transformers import SentenceTransformer from sklearn.cluster import KMeans model = SentenceTransformer('all-MiniLM-L6-v2') texts = ["文本1", "文本2", "文本3"] # 输入文本列表 embeddings = model.encode(texts) clusters = KMeans(n_clusters=3).fit_predict(embeddings) ``` 3. **混合方法(LLM + 传统模型)** - **方法**:用LLM增强传统主题模型。例如,先用LLM生成文本的语义标签,再输入LDA模型优化主题分布[^4]。 --- #### **关键步骤** 1. **数据准备**:清洗文本(去停用词、标准化)、划分文档。 2. **模型选择**:根据需求选择生成式(如GPT-3)或判别式(如BERT)LLM。 3. **提示工程**(针对生成式方法):需设计明确的指令和示例,例如指定主题数量或格式。 4. **后处理**:对生成结果去重、过滤无关词,或结合TF-IDF提取关键术语。 --- #### **挑战与解决方案** - **计算资源**:大模型推理成本高 → 使用轻量级模型(如DistilBERT)或API服务。 - **主题一致性**:LLM可能生成冗余主题 → 通过聚类后处理或人工校验。 - **可解释性**:生成的主题缺乏统计依据 → 结合LDA输出对比分析[^2]。 --- #### **示例:基于嵌入聚类的完整流程** ```python # 1. 生成嵌入 from sentence_transformers import SentenceTransformer model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') embeddings = model.encode(texts) # 2. 聚类与主题生成 from sklearn.cluster import KMeans import numpy as np kmeans = KMeans(n_clusters=5).fit(embeddings) cluster_labels = kmeans.labels_ # 3. 提取每个聚类的代表性词语 from sklearn.feature_extraction.text import TfidfVectorizer for i in range(5): cluster_texts = [texts[j] for j in np.where(cluster_labels == i)[0]] vectorizer = TfidfVectorizer(max_features=10) X = vectorizer.fit_transform(cluster_texts) print(f"Cluster {i} 主题词:", vectorizer.get_feature_names_out()) ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值