Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/144339346

本文是LLM系列文章，针对《Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent》的翻译。

混元-Large：腾讯开源520亿激活参数的MoE模型

摘要
1 引言
2 预训练
3 后训练
4 模型评估
5 结论和未来工作

摘要

在本文中，我们介绍了Hunyuan-Large，它是目前最大的开源基于Transformer的专家混合模型，总共有3890亿个参数和520亿个激活参数，能够处理多达256K个token。我们对Hunyuan-Large在语言理解和生成、逻辑推理、数学问题解决、编码、长上下文和聚合任务等各种基准测试中的卓越性能进行了全面评估，其性能优于LLama3.1-70B并表现出可比的性能与明显更大的 LLama3.1-405B 模型相比。 Hunyuan-Large的主要实践包括比之前文献中的量级更大的大规模合成数据、混合专家路由策略、键值缓存压缩技术和专家特定学习率策略。此外，我们还研究了混合专家模型的缩放规律和学习率表，为未来的模型开发和优化提供了宝贵的见解和指导。混元-Large的代码和检查点发布，方便未来的创新和应用。

1 引言

近年来，大型语言模型 (LLM) 显着推进了人工智能领域的发展，证明了其在 NLP、CV、语音和 AI4Science 等众多领域的有效性。从ChatGPT的出现开始，涌现出许多强大的LLM，这不可避免地为人们带来了收集和处理信息的新方式，广泛影响着我们的日常生活。随着对更复杂的人工智能系统的需求不断增长，研究人员正在探索新技术和范例，以突破模型大小和性能的界限。一种脱颖而出的方法是专家混合 (MoE) 模型，它协同多个专门的子模型，通过动态激活的专家在不同的任务中