Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

本文是LLM系列文章,针对《Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent》的翻译。

摘要

在本文中,我们介绍了Hunyuan-Large,它是目前最大的开源基于Transformer的专家混合模型,总共有3890亿个参数和520亿个激活参数,能够处理多达256K个token。我们对Hunyuan-Large在语言理解和生成、逻辑推理、数学问题解决、编码、长上下文和聚合任务等各种基准测试中的卓越性能进行了全面评估,其性能优于LLama3.1-70B并表现出可比的性能与明显更大的 LLama3.1-405B 模型相比。 Hunyuan-Large的主要实践包括比之前文献中的量级更大的大规模合成数据、混合专家路由策略、键值缓存压缩技术和专家特定学习率策略。此外,我们还研究了混合专家模型的缩放规律和学习率表,为未来的模型开发和优化提供了宝贵的见解和指导。混元-Large的代码和检查点发布,方便未来的创新和应用。

1 引言

近年来,大型语言模型 (LLM) 显着推进了人工智能领域的发展,证明了其在 NLP、CV、语音和 AI4Science 等众多领域的有效性。从ChatGPT的出现开始,涌现出许多强大的LLM,这不可避免地为人们带来了收集和处理信息的新方式,广泛影响着我们的日常生活。随着

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值