本文是LLM系列文章,针对《Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent》的翻译。
混元-Large:腾讯开源520亿激活参数的MoE模型
摘要
在本文中,我们介绍了Hunyuan-Large,它是目前最大的开源基于Transformer的专家混合模型,总共有3890亿个参数和520亿个激活参数,能够处理多达256K个token。我们对Hunyuan-Large在语言理解和生成、逻辑推理、数学问题解决、编码、长上下文和聚合任务等各种基准测试中的卓越性能进行了全面评估,其性能优于LLama3.1-70B并表现出可比的性能与明显更大的 LLama3.1-405B 模型相比。 Hunyuan-Large的主要实践包括比之前文献中的量级更大的大规模合成数据、混合专家路由策略、键值缓存压缩技术和专家特定学习率策略。此外,我们还研究了混合专家模型的缩放规律和学习率表,为未来的模型开发和优化提供了宝贵的见解和指导。混元-Large的代码和检查点发布,方便未来的创新和应用。
1 引言
近年来,大型语言模型 (LLM) 显着推进了人工智能领域的发展,证明了其在 NLP、CV、语音和 AI4Science 等众多领域的有效性。从ChatGPT的出现开始,涌现出许多强大的LLM,这不可避免地为人们带来了收集和处理信息的新方式,广泛影响着我们的日常生活。随着