本文是LLM系列文章,针对《YuLan: An Open-source Large Language Model》的翻译。
摘要
大型语言模型(LLM)已经成为许多应用程序的基础,利用其在处理和理解自然语言方面的广泛能力。虽然许多开源LLM都发布了技术报告,但缺乏训练细节阻碍了进一步的研究和开发。本文介绍了YuLan的开发,这是一系列具有120亿参数的开源LLM。YuLan的基本模型是在来自不同语料库的大约1.7Ttoken上预训练的,这些语料库包括大量的英语、汉语和多语言文本。我们设计了一个三阶段的预训练方法,以提高玉兰的整体能力。随后的训练阶段包括指令调整和人员调整,使用大量高质量的综合数据。为了促进复杂和长尾知识的学习,我们设计了一个贯穿这些阶段的课程学习框架,帮助LLM以从易到难的方式学习知识。玉兰的训练将于2024年1月结束,在各种英语和汉语基准中取得了与最先进的LLM不相上下的成绩。本文概述了从头开始开发LLM的全面技术路线图。我们的模型和代码可在https://github.com/RUC-GSAI/YuLan-Chat。