LLaMA3技术报告解读

前言

LLaMA系列算法是Meta公司发布的开源大模型。近期Meta公司又发布了LLaMA 3.1系列的模型,在这一系列模型中参数量最大的高达405B,上下文窗口多达128K个token。同时对模型进行了广泛的实证评估,发现在很多任务中,LLaMA 3的质量可以与GPT-4等模型相媲美。

技术报告原始论文链接 The Llama 3 Herd of Models

引言

模型的开发主要可以分为两个阶段:(1)训练前阶段,在这一阶段,利用下一个单词预测或者字幕等简单任务对模型进行大规模训练;(2)训练后阶段,在这一阶段中,对模型进行调整,使其遵循指令、符合人类偏好并提高特定能力(如编码和推理)。

LLaMA3是一个语言模型群,原生支持多语言性、编码、推理和工具使用。其中最大的模型是一个密集型Transformer架构,具有405B的参数量,上下文窗口多达128K个token,模型群的相关内容可以参照下图。
在这里插入图片描述
在开发高质量的模型时通常由三个关键的点:数据规模复杂性管理。在LLaMA3的开发过程中对上述三方面进行了如下的优化:

数据:与之前的LLaMA对比,改进了用于前训练和后训练的数据的数量和质量。为预训练数据开发了更细致的预处理和整理管道,为后训练数据开发了更严格的质量保证和过滤方法。在预训练阶段采用了15T以上的多语言词库的语料库,而LLaMA2仅采用了1.8T的词库。

规模:旗舰语言模型在预训练时使用了 3.8 × 1 0 25 3.8×10^{25} 3.8×1025

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nlp_xiaogui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值