超越AlphaFold 3!ProRNA3D搞定RNA蛋白互作,攻克癌症、病毒有了新武器

弗吉尼亚理工(Virginia Tech)的 Debswapna Bhattacharya 团队在《细胞系统》(Cell Systems)期刊上发表了一篇文章。

图片

他们开源了一个名为ProRNA3D-single的AI工具。这东西只靠一条蛋白质序列和一条RNA序列,就能预测出它俩搅和在一起之后的三维立体结构。

在这个赛道上,即便是DeepMind大名鼎鼎的AlphaFold 3,表现也只能算差强人意。

AI预测界的旧王与新贵

生命活动的核心,很多时候就是蛋白质和RNA这对CP在干活,比如基因调控、病毒复制。搞清楚它俩是怎么抱在一起的,也就是解析出复合结构,就能从根本上理解很多疾病,开发新药。

但这件事,非常难。

传统的实验方法,比如X射线晶体学、冷冻电镜(cryo-EM)、核磁共振(NMR),要么样品难搞,要么太贵太慢,要么只能看小个头的分子。结果就是,在庞大的蛋白质结构数据库(PDB)里,带RNA的结构连2%都不到,缺口巨大。

于是,大家把希望寄托在计算方法上,尤其是AI。

AI界的王者AlphaFold 2在蛋白质结构预测上封了神,但它的升级版AlphaFold 3,在预测蛋白质-RNA复合物这个更复杂的任务上,却栽了跟头。根据公开数据,AlphaFold 3的测试集平均iLDDT(互作局部距离差异检验,可以理解为预测互作界面的准确分)只有39.4分。

另一个来自华盛顿大学贝克实验室的知名工具RoseTTAFold2NA(RF2NA),分数更惨,只有19.0。

这些工具都依赖一个叫多重序列比对(MSA)的东西。简单说,就是把一堆沾亲带故的序列放一起比对,从中寻找进化的蛛丝马迹来推断结构。可蛋白质和RNA的联合MSA数据,稀疏得可怜,噪声还大,严重拖了后腿。

ProRNA3D-single的出现,就是来解决这个难题的。它不需要MSA,直接单挑,只用一条序列输入。结果显示,它的表现“令人信服地超越了包括AlphaFold 3在内的当前最先进方法,尤其是在进化信息有限的情况下”。

图片

尤其是在进化信息稀缺的场景,比如预测新冠病毒(SARS-CoV-2)的RNA如何与人体蛋白勾结时,AlphaFold 3的准确率大幅下降,ProRNA3D-single却稳如泰山。

底气来自“生物语言模型”

ProRNA3D-single站在了巨人的肩膀上。

图片

这个巨人,就是生物语言模型(bio LLMs)。你可以把它理解成生物界的ChatGPT,只不过它读的不是人类语言,而是蛋白质和RNA的序列“语言”。

ProRNA3D-single用了两个顶级的语言模型:

一个是Meta AI开发的ESM-2(第二代进化尺度模型),它“读”了2.5亿条蛋白质序列,对蛋白质的语言模式了如指掌。

另一个是北京大学和深圳湾实验室联合开发的RNA-FM(RNA基础模型),它“读”了上百万条RNA序列,是RNA界的语言大师。

当一条蛋白质和RNA序列被输入,这两个模型会分别输出一串数字,也就是“嵌入”。这串数字里,已经包含了序列自身隐含的进化和结构信息,从而摆脱了对外部MSA数据库的依赖。

有了高质量的嵌入,ProRNA3D-single开始了自己的骚操作,分三步走:

第一步,画图。它把蛋白质和RNA的嵌入信息,变成两张结构感知图。图里的每个点是一个氨基酸或核苷酸,点之间的连线代表它们的距离。

第二步,配对。这是最核心的创新。它用一个叫“配对模块”的东西,把两张图融合起来。这个模块里有个关键技术叫“几何注意力层”。普通的注意力机制只关心序列位置,而几何注意力机制能同时理解三维空间的几何约束,比如距离、角度、方向。它通过多头注意力机制,模拟多体互作,最终输出一张蛋白质-RNA的互作原子图谱,上面标明了哪里可能接触、距离多远、方向如何。

第三步,建模。有了这张精细的图谱,就等于有了施工蓝图。ProRNA3D-single把图谱信息转化成几何约束,然后用优化算法和分子动力学(MD)模拟,像搭积木一样,快速生成初始结构,再精细打磨,最终输出一个标准的PDB格式三维结构文件。

整个过程基于Python和PyTorch框架,在一块英伟达(NVIDIA)A100显卡上,预测一个中等大小的复合物(比如100个残基的蛋白+50个核苷酸的RNA),也就一个小时左右。

这玩意儿到底能干啥

ProRNA3D-single最直接的应用,是给RNA靶向药物的研发踩上一脚油门。

过去,药物研发主要盯着蛋白质靶点。现在,RNA靶向药成了新风口,它特异性高,副作用小。人类基因组里大概有1500个RNA结合蛋白(RBPs)和疾病有关,其中好几百个都被认为是“可成药”的靶点。但想设计药物,首先得知道靶点的三维结构,ProRNA3D-single正好能提供这个关键信息。

具体来说,有三大应用场景:

首先是抗病毒。病毒的复制、组装,处处离不开病毒RNA和宿主蛋白质的相互作用。比如新冠病毒的聚合酶就需要和人体蛋白结合才能干活。用ProRNA3D-single预测出这些结合界面,就能为设计药物、阻断病毒复制提供精确的“靶子”。

其次是神经退行性疾病。在阿尔茨海默病、渐冻症(ALS)里,像TDP-43这样的RNA结合蛋白会异常聚集,这是核心病理特征。ProRNA3D-single可以预测这些蛋白和RNA的正常及异常结合模式,帮助科学家理解病变是如何发生的。

再者是肿瘤治疗。很多癌症的发生,都和异常的RNA-蛋白互作有关,它们会激活癌基因,或者让抑癌基因沉默。比如MYC基因的信使RNA(mRNA)和一种叫IGF2BP1的蛋白结合后会变得更稳定,从而促进肿瘤生长。ProRNA3D-single可以帮助找到这些关键的互作,为开发靶向治疗提供思路。

弗吉尼亚理工官方新闻稿里,Bhattacharya教授说得很直白:“我们的终极目标是加速药物发现过程,阻止RNA病毒与宿主蛋白的相互作用,从而在疫情大流行之前阻止感染,或者抑制阿尔茨海默病中RNA结合蛋白的异常功能。”

开源、局限与未来

Bhattacharya团队遵循“开放科学”原则,把ProRNA3D-single的代码、预训练模型和文档全部放在了GitHub上开源。

当然,ProRNA3D-single也不是完美的。

团队在论文里坦诚,当前版本主要处理单链RNA,对双链RNA支持还不够;输出的是静态结构,没法模拟分子间相互作用的动态过程;也没考虑蛋白质翻译后修饰的影响。而且,对于特别巨大的复合物,预测精度也会下降。

这些也是他们未来的改进方向:支持多链RNA、结合分子动力学做动态建模、引入修饰信息、用分层策略搞定大分子机器。

数据方面,由于训练数据主要来自PDB数据库,存在一定偏差。比如,数据库里的物种主要是人、酵母、细菌,RNA类型也集中在核糖体RNA(rRNA)和转运RNA(tRNA)上,与疾病直接相关的复合物占比不到15%。团队已经采用了一些技术手段来缓解这些偏差。

从AlphaFold的横空出世,到ProRNA3D-single的精准打击,AI正在以一种超乎想象的速度,深入到生命科学最核心的领域。

AI已经开始预测生命的微观结构了,用AI优化甚至创造新物种将成为可能吗?

参考资料:

https://www.cell.com/cell-systems/abstract/S2405-4712(25)00233-9

https://www.sciencedirect.com/science/article/pii/S2405471225002339

https://github.com/facebookresearch/esm

https://academic.oup.com/nar/article/52/1/e3/7369930

https://github.com/Bhattacharya-Lab/ProRNA3D-single

https://www.biorxiv.org/content/10.1101/2024.07.27.605468v1.full-text

END

### RNA蛋白质相用的预测方法和工具 RNA-蛋白质相用(RBP-RNA Interaction)是基因表达调控的重要组成部分,涉及多个生物学过程,包括RNA剪接、加工、输出以及翻译调控[^1]。然而,由于实验验证这些相用的成本较高且复杂度较大,生物信息学领域开发了许多计算方法和工具用于预测潜在的RNA-蛋白质相用。 #### 计算预测方法概述 目前,RNA-蛋白质相用的预测方法主要包括基于序列特征的方法、基于结构特征的方法以及机器学习/深度学习驱动的方法: 1. **基于序列特征的方法** 这些方法依赖于RNA蛋白质序列的信息,通过识别特定的motif模式或保守区域来进行预测。例如,CLIP-seq数据分析能够揭示RNA结合蛋白在全转录组范围内的结合位点。这类方法通常适用于大规模数据集的初步筛选。 2. **基于结构特征的方法** 结构建模方法利用RNA蛋白质的空间三维结构信息来评估它们之间可能存在的物理接触。这种方法需要高质量的结构模板为输入,但对于缺乏已知结构的目标分子来说适用性有限。一些常用的软件包如RNABindR Plus 和 RPISeq 可以帮助完成此类任务[^3]。 3. **机器学习与深度学习方法** 随着大数据时代的到来,尤其是高通量测序技术和人工智能算法的发展,越来越多的研究转向采用先进的统计模型和技术框架处理复杂的生物问题。例如,在引用中提到,“深度学习在生物信息学中的应用”,展示了如何运用神经网络架构解决诸如基因组解析或者蛋白质折叠路径推测等问题[^2]。类似的思路也可以扩展到RNA-蛋白质交关系的学习当中去。 #### 常见预测工具介绍 以下是几个广泛使用的RNA-蛋白质相用预测工具及其特点简介: - **CatRAPID**: 提供了一个快速简便的方式来估计给定mRNA片段同任意一种已知核糖核酸绑定因子间是否存在显著联系的可能性大小;它综合考虑了热力学稳定性参数等因素的影响。 ```bash catrapid --rna_sequence="AUGCUAGC..." --protein_id=PDB_ID ``` - **PRISM (Protein–RNA Interface and Structure Modeler)**: 主要专注于构建详细的原子级分辨率下的复合物图像表示形式以便进一步深入探讨两者间的具体机制细节等方面的内容。 - **DeepBind & SPOT-RNA-Protein**: 利用了卷积神经元网路(CNNs)等现代AI组件训练而成的大规模数据库资源之上建立起来的服务平台之一, 它们能更精准高效地理清那些难以捉摸的新颖型态下尚未被充分认识清楚的部分实例情况等等. --- ### 示例代码展示 下面是一个简单的Python脚本例子演示调用外部API接口获取有关某个指定物种内所有已记录下来的RBP列表并保存至本地文件的操流程: ```python import requests from bs4 import BeautifulSoup def fetch_rbproteins(species='human'): url = f"https://rbpmap.tau.ac.il/{species}/" response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') table_data = [] rows = soup.find_all('tr')[1:] # Skip header row for tr in rows: cols = tr.find_all('td') name = cols[0].text.strip() description = cols[-1].text.strip() table_data.append((name, description)) with open(f"{species}_rbps.txt", "w") as file: for entry in table_data: file.write("\t".join(entry)+"\n") fetch_rbproteins() ``` 此段程序会访问[RBPMap](https://rbpmap.tau.ac.il/)网站抓取关于人类或其他选定种类的相关资料存储下来方便日后查阅分析之需。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值