题目:Linguistically inspired roadmap for building biologically reliable protein language models
文献来源:https://doi.org/10.1038/s42256-023-00637-1 (Nature Machine Intelligence)
代码:无
简介:基于深度神经网络的语言模型(LMs)越来越多地应用于大规模的蛋白质序列数据来预测蛋白质功能。然而,目前的蛋白质LM方法主要是黑盒模型,因此具有挑战性,因此没有助于对序列功能映射的基本理解,阻碍了基于规则的生物治疗药物的开发。作者认为,语言学专门从自然语言数据中提取分析规则,可以帮助构建更多可解释的蛋白质lm,更有可能学习相关的领域特殊规则。与自然语言数据相比,蛋白质序列数据和语言序列数据之间的差异需要整合更多的领域特殊知识。本文提供了一个基于语言学的蛋白质LM管道选择的路线图,包括训练数据、标记化、标记嵌入、序列嵌入和模型解释。将语言学的思想整合到蛋白质的LMs中,使下一代可解释的机器学习模型的发展成为可能,并有可能揭示序列-功能关系背后的生物学机制。
主要内容:
-------------------------------------------
欢迎点赞收藏转发!
下次见!