本文是LLM系列文章,针对《ProtChatGPT: Towards Understanding Proteins with Large Language Models》的翻译。
摘要
蛋白质研究在各个基础学科中都至关重要,但理解它们复杂的结构-功能关系仍然具有挑战性。最近的大型语言模型(LLM)在理解特定任务的知识方面取得了重大进展,这表明专门研究蛋白质的类ChatGPT系统有可能促进基础研究。在这项工作中,我们介绍了ProtChatGPT,它旨在通过自然语言学习和理解蛋白质结构。ProtChatGPT使用户能够上传蛋白质、提出问题和进行互动对话,从而得出全面的答案。该系统包括蛋白质编码器、蛋白质语言修饰转换器(PLP形成器)、投影适配器和LLM。蛋白质首先经过蛋白质编码器和PLP形成器以产生蛋白质包埋,然后由适配器投影以符合LLM。LLM最终将用户问题与投影嵌入相结合,生成信息丰富的答案。实验表明,ProtChatGPT可以对蛋白质及其相应的问题产生有希望的反应。我们希望ProtChatGPT能够为蛋白质研究的进一步探索和应用奠定基础。代码和我们的预训练模型将公开。
1 引言
2 相关工作
3 方法
4 实验
5 结论
在本文中,我们介绍了ProtChatGPT,这是一个基于人工智能的蛋白质聊天系统,用于实现蛋白质研究领域的类似ChatGPT的功能。ProtChatGPT标志着从预训练的LLM中为各种蛋白质语言任务引导蛋白质语言预训练(PLP)的初步努力。PLP位于蛋白质和语言之间的交叉点,这使ProtChatGPT能够有效地从蛋白质和自然语言社区中获取现成的大型模型。实验表明,Prot
已下架不支持订阅
5874

被折叠的 条评论
为什么被折叠?



