本文是LLM系列文章,针对《Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent》的翻译。
混元-Large:腾讯开源520亿激活参数的MoE模型
摘要
在本文中,我们介绍了Hunyuan-Large,它是目前最大的开源基于Transformer的专家混合模型,总共有3890亿个参数和520亿个激活参数,能够处理多达256K个token。我们对Hunyuan-Large在语言理解和生成、逻辑推理、数学问题解决、编码、长上下文和聚合任务等各种基准测试中的卓越性能进行了全面评估,其性能优于LLama3.1-70B并表现出可比的性能与明显更大的 LLama3.1-405B 模型相比。 Hunyuan-Large的主要实践包括比之前文献中的量级更大的大规模合成数据、混合专家路由策略、键值缓存压缩技术和专家特定学习率策略。此外,我们还研究了混合专家模型的缩放规律和学习率表,为未来的模型开发和优化提供了宝贵的见解和指导。混元-Large的代码和检查点发布,方便未来的创新和应用。
1 引言
近年来,大型语言模型 (LLM) 显着推进了人工智能领域的发展,证明了其在 NLP、CV、语音和 AI4Science 等众多领域的有效性。从ChatGPT的出现开始,涌现出许多强大的LLM,这不可避免地为人们带来了收集和处理信息的新方式,广泛影响着我们的日常生活。随着对更复杂的人工智能系统的需求不断增长,研究人员正在探索新技术和范例,以突破模型大小和性能的界限。一种脱颖而出的方法是专家混合 (MoE) 模型,它协同多个专门的子模型,通过动态激活的专家在不同的任务中提供卓越的性能,实现更高效的训练和推理。目前观察到的趋势是,越来越多的 MoE 结构的LLM被构建和开源,以促进LLM社区的发展。
腾讯的AI聊天机器人元宝(yuanbao.tencent.com)自2024年2月起也采用MoE作为
Hunyuan-Large开源大模型技术解析

订阅专栏 解锁全文
564

被折叠的 条评论
为什么被折叠?



