KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS

LLM知识融合：提升大型语言模型能力

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量226

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136505127

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文探讨了大型语言模型（LLM）的知识融合，旨在将不同架构的LLM结合成单一模型，增强其性能。通过利用源LLM的生成分布，将知识外部化，方法FUSELLM在推理、常识和代码生成等任务中提高了目标模型的表现。研究结果证实了LLM融合的有效性，并提供了公开资源供进一步研究。

本文是LLM系列文章，针对《KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS》的翻译。

摘要

虽然从头开始训练大型语言模型（LLM）可以生成具有不同功能和优势的模型，但这会带来巨大的成本，并可能导致冗余功能。或者，一种具有成本效益和说服力的方法是将现有的预训练的LLM合并到一个更有效的模型中。然而，由于这些LLM的架构各不相同，直接混合它们的权重是不切实际的。在本文中，我们引入了LLM的知识融合概念，旨在将现有LLM的能力结合起来，并将其转移到单个LLM中。通过利用源LLM的生成分布，我们将其集体知识和独特优势外部化，从而有可能将目标模型的能力提升到任何单个源LLM之外。我们使用三种不同架构的流行LLM——Llama-2、MPT和OpenLLaMA——在各种基准测试和任务中验证了我们的方法。我们的研究结果证实，LLM的融合可以在推理、常识和代码生成等一系列功能上提高目标模型的性能。我们的代码、模型权重和数据公开于https://github.com/fanqiwan/FuseLLM.