本文是LLM系列文章,针对《X-LORA: MIXTURE OF LOW-RANK ADAPTER EXPERTS, A FLEXIBLE FRAMEWORK FOR LARGE LANGUAGE MODELS WITH APPLICATIONS IN PROTEIN MECHANICS AND DESIGN》的翻译。
摘要
我们报告了一种混合专家策略,使用基于低秩自适应(LoRA)的深层token级方法创建微调的大型语言模型。从一组预训练的LoRA适配器开始,我们提出了一种门控策略,该策略使用隐藏状态来动态混合自适应层,允许生成的X-LoRA模型利用不同的能力,并创建以前从未使用过的自适应深层组合,以解决特定任务。该设计的灵感来自普遍性和多样性的生物学原理,其中神经网络构建块在不同的层次表现中被重复使用。因此,X-LoRA模型可以很容易地用于任何现有的大型语言模型(LLM),而不需要修改底层结构。我们开发了一个量身定制的X-LoRA模型,该模型提供科学能力,包括正向/反向分析任务和增强的推理能力,专注于生物材料分析、蛋白质力学和设计。这项工作的影响包括访问易于扩展、适应性强和可更改的模型,这些模型具有强大的领域知识和跨知识领域集成的能力。X-LoRA模型由生物学、数学、推理、生物启发材料、力学和材料、化学和蛋白质力学等领域的专家组成,我们进行了一系列以物理学为重点的案例研究。我们研究了知识召回、蛋白质力学正向/反向任务、蛋白质设计和对抗性代理建模,包括本体知识图谱。该模型不仅能够对蛋白质的纳米力学性质进行定量预测,而且能够对结果进行推理,并正确预测解释不同分子行为的可能机制。