LLama 405B 技术报告解读

最新推荐文章于 2025-07-31 09:52:41 发布

seetimee

最新推荐文章于 2025-07-31 09:52:41 发布

阅读量1.8k

点赞数 16

CC 4.0 BY-SA版权

分类专栏：大模型文章标签： llama python 人工智能大模型

本文链接：https://blog.youkuaiyun.com/stephen147/article/details/140679813

LLama 405B 技术报告解读

果然传的消息都是真的，meta在24号凌晨发布了llama 3的405B版本，这次还是做一个技术报告解读。

值得一提的是，在技术报告的开头，meta特意强调了一个 Managing complexity，大意是管控复杂度。

为什么没用MoE却弄个405B的dense？为什么没用PPO只用DPO？

meta给的解释是：Managing complexity，大意就是这样简单吧…

评测结果如下，这个结果跟当初网上传的那个版本还是有一定出入的，没有到摁着GPT4o锤的程度。

况且，根据GPT4o的速度来看，参数量要远远小于一个405B的dense，高下立判。不过这个无可厚非，毕竟GPT4也挺慢的

虽然如此，但是llama3 405B中间有许多实用的trick还是值得我们学习的，整个的画风有点像打比赛刷榜那种程度，做的很细，抠每一个上分点，那么我们来总结下一些亮点吧。

一、预训练

数据部分

PII数据（个人隐私数据）清洗、去重、去黄、做模型洗数据(fasttext)，混合代码和推理数据，多语言数据

数据配比-打标签

做模型做细粒度的打标签工作，然后根据标签采样，配不同的量去试，最终敲定了：50% 通用数据, 25% 数理数据, 17% 代码数据, 8% 多语言数据。实际这个过程比这个深入很多，据消息，国内某知名大模型团队能做到上千级别的细粒度标签实验。

数据配比-scalinglaw

探索数据配比的scaling law，作者这里没有展开，大概的方法可以看我之前写过的文章，在不同的小模型上做不同的配比实验，然后用来预测大模型的最优配比。

数据退火

作者发现在大模型训练的最后阶段，用高质量的数据学习能提高性能。于是在最后40B数据上，作者逐渐将学习率衰减到0。并且发现，数据退火方法，可以用来筛数据，量少，效果明显，实验更高效。

二、模型结构

GQA，8-kv head，超大参数的常规操作，具体参数如下。

。

126 层，层数多两层，这是一个训练阶段方便流水线并行切分的技巧。
长文拼接时候，使用attention mask防止不同来源的数据串味。样本间穿越在预训练阶段影响不大，以前大家也不在乎，但作者说，在扩长序列时影响很大。
词表大小为128K，英语语料的压缩率有所提高，同样计算量能够过更多数据，并且增强了非英语的能力。这里面中文水平如何，还等着大家测试，不过根据下面实验部分的case study看，这次中文能力还是不错的。
RoPE theta 调到了500000，再次感谢苏神。

三、scalinglaw

作者说了现有的scalinglaw通常只预测loss，而不是特定的benchmark上的表现；(2)scalinglaw可能因基于小资源进行的预训练运行而变得没那么可靠。

对此，作者搞了一个两步走方法。

1.先建立计算最优模型在下游任务上的负对数似然与训练FLOPs之间的相关性。

2.利用scalinglaw模型和使用更高计算FLOPs训练的旧模型，将下游任务上的负对数似然与benchmark的准确率指标关联上。作者在这步用了LLama2系列的模型

作者在ARC上使用这个方法，能看出来拟合的还不错

四、infra/硬件/网络

GPU资源 16K H100 80GB with NVLink，有钱。
专用集群，不是之前的Meta’s AI Research SuperCluster，船新的Meta’s production clusters，240 PB SSD，7500 台机器，2TB-7TB/s 吞吐，如此高吞吐的存储集群是为了最小化ckpt的IO耗时。

网络部分，专业的机房看管员可以仔细研究下：

RoCE，单口400Gb/s

具体的拓扑结构为

3层网络架构，单体24K GPU
最底层1个ToR下2机器配16卡
1 Pod 配192 ToR
3072 张GPU 1:1 收敛比
往上8 个Pod 1:7 的收敛比
由于跨pod 带宽降低，所以模型并行编排和资源调度均需考虑网络架构

负载均衡

两个GPU 间使用16个流，而不是1个，来降低单流流量，以更好地负载均衡
在网络包的头部增加了特殊区域，通过hash 来使得流的选路更加均衡

拥塞控制

在spine 上使用deep-buffer 交换机以适应集合通信导致的短时拥塞，并能够降低慢节点引发持久的拥塞和反压

整体的吞吐如图

别的不说，就这万卡集群的吞吐率，要比国内小作坊的16卡微调个小模型都要高。

模型并行策略：

* 4D并行，TP + CP + PP + DP，多了一个上下文并行CP，或者称之为序列并行。

使用了FSDP，但是model weight 只拉取一次，以减少反向梯度计算时的weight allgather 通信

PP并行策略改进

Batch Size 限制：当前的流水线并行策略会限制 micro batch 个数为流水线stage 的整数倍，会导致global batch size 和流水线 stage 相互制约
显存不均衡：第1个stage 会多出很多显存占用，之后逐stage 降低
计算不均衡：最后一层会额外计算 output layer 和 loss，增加了计算量和延时，首尾stage 做了padding

CP并行策略的改进

和Ring CP 一样的在序列维度切分，切分为2*CP 份以负载均衡，但没有用环状通信来overlap 计算和通信，而是基于allgather 的通信。

网络架构感知的并行策略

[TP, CP, PP, DP] 的并行策略是针对网络通信优化做专门设计的
开发了显存预估和性能探查工具，用以平衡显存开销和通信性能

数值稳定性

FP32 的梯度累加和通信

集合通信

基于NCCL 开发了 NCCLX，在高延迟网络下显著提升性能
[TP, CP, PP, DP] 并行策略可能导致PP 和DP 通信跨Pod：原 allgather 和 reducescatter 实现依赖数据chunk 和拷贝，需要大量的小的控制信息的通信，进行额外的拷贝操作，且占用GPU 资源来做通信。对此，llama团队优化chunk 策略，提升小的控制包的通信优先级。

可用性

不怎么样，运行54天，崩了419次（预期外训练中断），具体的分布如下：

网络问题和GPU问题各占一半。