RiNALMo:解锁RNA序列中的深层信息
RiNALMo RiboNucleic Acid (RNA) Language Model 项目地址: https://gitcode.com/gh_mirrors/ri/RiNALMo
项目介绍
RiNALMo(RiboNucleic Acid Language Model)是一个为解析RNA序列中的隐含信息而设计的通用语言模型。RNA在生物过程中扮演着多种关键角色,近年来更是成为药物研发的重要靶点。基于这一背景,RiNALMo通过利用大规模未标注的RNA数据,旨在揭开RNA中的“隐藏代码”。作为目前参数规模最大的RNA语言模型,RiNALMo拥有6500万个预训练参数,能在多种下游任务中实现最先进的性能。
项目技术分析
RiNALMo的构建灵感来源于蛋白质语言模型的成功案例。该模型通过预训练36万个非编码RNA序列,能够提取并捕获RNA序列中隐含的结构信息。RiNALMo的核心优势在于其强大的泛化能力,尤其表现在对未见过的RNA家族进行二级结构预测上,克服了其他深度学习方法难以泛化的局限。
RiNALMo的安装和使用都较为简便,支持Python 3.8及以上版本,以及CUDA 11.8及以上版本。用户可以通过pip命令快速安装,并获取核苷酸表示。
git clone https://github.com/lbcb-sci/RiNALMo
cd RiNALMo
pip install .
pip install flash-attn==2.3.2
import torch
from rinalmo.pretrained import get_pretrained_model
DEVICE = "cuda:0"
model, alphabet = get_pretrained_model(model_name="giga-v1")
model = model.to(device=DEVICE)
model.eval()
seqs = ["ACUUUGGCCA", "CCCGGU"]
tokens = torch.tensor(alphabet.batch_tokenize(seqs), dtype=torch.int64, device=DEVICE)
with torch.no_grad(), torch.cuda.amp.autocast():
outputs = model(tokens)
print(outputs["representation"])
项目技术应用场景
RiNALMo的应用场景广泛,特别是在RNA结构和功能的理解和预测方面。以下是一些主要的应用领域:
- 药物研发:RNA作为药物靶点的研究,对理解其结构至关重要。
- 基因编辑:在基因编辑领域,准确预测RNA结构可以帮助科学家设计更有效的编辑策略。
- 生物信息学:RiNALMo提供了一种新的工具,用于从大量未标注的RNA序列中提取有用信息。
项目特点
- 参数规模大:RiNALMo是当前参数规模最大的RNA语言模型。
- 强大的泛化能力:模型能够在新见的RNA家族上进行有效的结构预测。
- 易于使用:通过简单的pip安装和Python API,用户可以快速集成和使用RiNALMo。
- 开放许可:RiNALMo遵循Apache License 2.0和Creative Commons Attribution 4.0 International License,鼓励更广泛的应用和研究。
RiNALMo不仅在学术研究中具有巨大潜力,也为工业界的药物开发提供了强有力的工具。通过更好地理解和预测RNA的结构和功能,RiNALMo有望在未来的生物医学研究中发挥更加重要的作用。
如果您的研究或工作涉及RNA的解析和预测,RiNALMo值得您尝试和探索。通过揭开RNA序列中的隐藏信息,RiNALMo将为生命科学研究带来新的视角和工具。
RiNALMo RiboNucleic Acid (RNA) Language Model 项目地址: https://gitcode.com/gh_mirrors/ri/RiNALMo
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考