Yi: Open Foundation Models by 01.AI

828 篇文章

已下架不支持订阅

本文介绍了Yi模型家族,一系列基于6B和34B预训练的语言和多模态模型,表现出强大的多维能力。重点在于数据质量和预训练的重要性,以及微调策略,如聊天模型和视觉语言模型的构建。Yi模型在多项基准测试中表现出色,并通过扩展上下文长度和深度预训练进一步提升性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Yi: Open Foundation Models by 01.AI》的翻译。

摘要

我们介绍了Yi模型家族,这是一系列语言和多模态模型,展示了强大的多维能力。Yi模型族基于6B和34B预训练的语言模型,然后我们将它们扩展到聊天模型、200K长上下文模型、深度放大模型和视觉语言模型。我们的基本模型在MMLU等广泛的基准测试上实现了强大的性能,我们微调的聊天模型在AlpacaEval和Chatbot Arena等主要评估平台上提供了强大的人类偏好率。在我们可扩展的超级计算基础设施和经典的transformer架构的基础上,我们将Yi模型的性能主要归因于我们的数据工程工作所带来的数据质量。为了进行预训练,我们使用级联的重复数据消除和质量过滤管道构建了3.1万亿个英文和中文语料库标记。为了进行微调,我们在多次迭代中打磨了一个小规模(小于10K)的指令数据集,以便我们的机器学习工程师直接验证每个实例。对于视觉语言,我们将聊天语言模型与视觉Transformer编码器相结合,并训练模型将视觉表示与语言模型的语义空间对齐。我们通过轻量级的连续预训练将上下文长度进一步扩展到200K,并展示了强大的大海捞针检索性能。我们表明,通过连续的预训练来扩展预训练检查点的深度,可以进一步提高性能。我们相信,鉴于我们目前的结果,使用彻底优化的数据继续扩大模型参数将导致更强大的前沿模型。

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值