本文是LLM系列文章,针对《Yi: Open Foundation Models by 01.AI》的翻译。
摘要
我们介绍了Yi模型家族,这是一系列语言和多模态模型,展示了强大的多维能力。Yi模型族基于6B和34B预训练的语言模型,然后我们将它们扩展到聊天模型、200K长上下文模型、深度放大模型和视觉语言模型。我们的基本模型在MMLU等广泛的基准测试上实现了强大的性能,我们微调的聊天模型在AlpacaEval和Chatbot Arena等主要评估平台上提供了强大的人类偏好率。在我们可扩展的超级计算基础设施和经典的transformer架构的基础上,我们将Yi模型的性能主要归因于我们的数据工程工作所带来的数据质量。为了进行预训练,我们使用级联的重复数据消除和质量过滤管道构建了3.1万亿个英文和中文语料库标记。为了进行微调,我们在多次迭代中打磨了一个小规模(小于10K)的指令数据集,以便我们的机器学习工程师直接验证每个实例。对于视觉语言,我们将聊天语言模型与视觉Transformer编码器相结合,并训练模型将视觉表示与语言模型的语义空间对齐。我们通过轻量级的连续预训练将上下文长度进一步扩展到200K,并展示了强大的大海捞针检索性能。我们表明,通过连续的预训练来扩展预训练检查点的深度,可以进一步提高性能。我们相信,鉴于我们目前的结果,使用彻底优化的数据继续扩大模型参数将导致更强大的前沿模型。