蛋白质语言模型:解读蛋白质序列中的生物信息
这篇文章介绍了将蛋白质序列作为语言进行训练的蛋白质语言模型,并重点探讨了Burt模型。Burt模型通过学习蛋白质序列的语言模式,能够识别蛋白质的生物学信息,甚至可以从模型的注意力机制中提取蛋白质的高阶功能信息。这表明蛋白质序列的语言结构中蕴含着丰富的生物学信息。
文章首先简要介绍了生物学中的DNA、RNA和蛋白质之间的关系。DNA作为生物功能的编码,通过转录和翻译过程最终生成蛋白质。蛋白质是由氨基酸链组成,不同的氨基酸顺序决定了蛋白质的功能。
文章重点强调了蛋白质的三维结构对功能的重要性。不同的氨基酸具有不同的化学性质,在细胞中会相互吸引,最终形成特定的三维结构。蛋白质的三维结构决定了其功能,例如,一些蛋白质像剪刀一样切割其他蛋白质。
文章指出,蛋白质语言模型通过学习蛋白质序列的语言模式,可以识别蛋白质的生物学信息,甚至可以从模型的注意力机制中提取蛋白质的高阶功能信息。这表明蛋白质序列的语言结构中蕴含着丰富的生物学信息,为未来的蛋白质研究提供了新的方向。
蛋白质是几乎所有细胞功能的“主力军”,也是生命的核心组成部分。尽管蛋白质用途广泛,但所有蛋白质都是由相同的20种氨基酸按顺序排列而成的。这些序列可以用 NLP 的工具进行分析。本文研究了在蛋白质序列数据上训练的 BERT 模型的注意力机制,发现该语言模型已隐式学习了蛋白质的非平凡高阶生物学特性。概要:0:00 - 简介和概述1:40 - 从 DNA 到蛋白质5:20 - 用于氨基酸序列的 BERT8:50 - 蛋白质的结构12:40 - 通过检查 BERT 研究生物学特性17:45 - 氨基酸替换24:55 - 接触图30:15 - 结合位点33:45 - 线性探针35:25 - 结论和评论论文:https://arxiv.org/abs/2006.15222代码:https://github.com/salesforce/provis
摘要:Transformer 架构已被证明可以学习对蛋白质分类和生成任务有用的表示。然而,这些表示在可解释性方面存在挑战。通过注意力的视角,我们分析了 Transformer 的内部运作,并探索了模型如何识别蛋白质的结构和功能特性。我们表明注意力 (1) 捕获蛋白质的折叠结构,连接在基础序列中相距很远但在三维结构中空间上靠近的氨基酸,(2) 针对结合位点,这是蛋白质的关键功能组件,以及 (3) 随着层深的增加,专注于越来越复杂的生物物理特性。我们还展示了注意力和蛋白质结构之间交互的三维可视化。我们的发现与已知的生物学过程相一致,并为蛋白质工程和合成生物学中的发现提供了工具。