LLaMA3技术报告解读

nlp_xiaogui

已于 2024-08-07 19:47:01 修改

阅读量1.6k

点赞数 15

分类专栏：论文解读文章标签： transformer llama 自然语言处理人工智能

于 2024-08-07 15:49:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/GuiBin1/article/details/140993788

版权

前言

LLaMA系列算法是Meta公司发布的开源大模型。近期Meta公司又发布了LLaMA 3.1系列的模型，在这一系列模型中参数量最大的高达405B，上下文窗口多达128K个token。同时对模型进行了广泛的实证评估，发现在很多任务中，LLaMA 3的质量可以与GPT-4等模型相媲美。

技术报告原始论文链接 The Llama 3 Herd of Models

引言

模型的开发主要可以分为两个阶段：（1）训练前阶段，在这一阶段，利用下一个单词预测或者字幕等简单任务对模型进行大规模训练；（2）训练后阶段，在这一阶段中，对模型进行调整，使其遵循指令、符合人类偏好并提高特定能力（如编码和推理）。

LLaMA3是一个语言模型群，原生支持多语言性、编码、推理和工具使用。其中最大的模型是一个密集型Transformer架构，具有405B的参数量，上下文窗口多达128K个token，模型群的相关内容可以参照下图。
在这里插入图片描述
在开发高质量的模型时通常由三个关键的点：数据，规模和复杂性管理。在LLaMA3的开发过程中对上述三方面进行了如下的优化：

数据：与之前的LLaMA对比，改进了用于前训练和后训练的数据的数量和质量。为预训练数据开发了更细致的预处理和整理管道，为后训练数据开发了更严格的质量保证和过滤方法。在预训练阶段采用了15T以上的多语言词库的语料库，而LLaMA2仅采用了1.8T的词库。

规模：旗舰语言模型在预训练时使用了 $3.8×10^{25}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

nlp_xiaogui 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。