前言
LLaMA系列算法是Meta公司发布的开源大模型。近期Meta公司又发布了LLaMA 3.1系列的模型,在这一系列模型中参数量最大的高达405B,上下文窗口多达128K个token。同时对模型进行了广泛的实证评估,发现在很多任务中,LLaMA 3的质量可以与GPT-4等模型相媲美。
技术报告原始论文链接 The Llama 3 Herd of Models
引言
模型的开发主要可以分为两个阶段:(1)训练前阶段,在这一阶段,利用下一个单词预测或者字幕等简单任务对模型进行大规模训练;(2)训练后阶段,在这一阶段中,对模型进行调整,使其遵循指令、符合人类偏好并提高特定能力(如编码和推理)。
LLaMA3是一个语言模型群,原生支持多语言性、编码、推理和工具使用。其中最大的模型是一个密集型Transformer架构,具有405B的参数量,上下文窗口多达128K个token,模型群的相关内容可以参照下图。
在开发高质量的模型时通常由三个关键的点:数据,规模和复杂性管理。在LLaMA3的开发过程中对上述三方面进行了如下的优化:
数据:与之前的LLaMA对比,改进了用于前训练和后训练的数据的数量和质量。为预训练数据开发了更细致的预处理和整理管道,为后训练数据开发了更严格的质量保证和过滤方法。在预训练阶段采用了15T以上的多语言词库的语料库,而LLaMA2仅采用了1.8T的词库。
规模:旗舰语言模型在预训练时使用了 3.8 × 1 0 25 3.8×10^{25} 3.8×1025