大语言模型训练中的数据打包策略：①随机打包、②相似性打包【无padding（基于seq_len进行粗暴截断）】、②长度优先打包【有padding，不基于seq_len进行粗暴截断】

原创已于 2025-09-19 23:25:37 修改 · 706 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #深度学习

于 2025-09-19 22:14:15 首次发布

一、随机打包（concat-and-chunk）

随机打包的策略中，拼接后按固定长度切分会把切分后的剩余 token 丢弃吗？还是继续用于下一个样本？

在“随机打包（concat-and-chunk）”策略里，处理逻辑通常是这样的：

拼接与切分的过程

文档拼接：先把多个文档（之间加 <eos> 分隔符）顺序拼接成长的 token 流。
固定长度切分：按模型的最大上下文长度（如 2048、4096）从前往后切分成一个个完整的训练样本。

剩余 token 的处理

不会丢弃：切分到最后时，如果剩余 token 还不足一个完整的 seq_len，它们会继续被保留，然后再与后续的文档拼接，直到填满一个 seq_len。
丢弃的情况：只有在极端情况下（例如语料结束时，最后一个样本不足 seq_len，且训练框架未实现“partial batch”），这些尾部 token 才可能被丢弃。但在大多数实现中，会将它们拼接到下一轮 epoch 的开头，或者允许产生一个比 seq_len 短的样本（然后在 batch 内 padding）。

总结

随机打包的核心目标是尽量不浪费 token：

大多数实现会继续把“切分剩余的 token”拼接到下一个样本中使用；
只有最后一个尾巴在极少数情况下可能被丢弃，但这对海量语料训练几乎可以忽略。

下面是随机打包（concat-and-chunk）在“拼接—切分—处理剩余 token”时的流程示意图（文本版）：

                           ┌───────────────────────┐
                           │        开始           │
                           └───────────┬───────────┘
                                       │
                                       ▼
                          ┌──────────────────────────┐
                          │  读取文档 Di 的 token    │
                          └───────────┬──────────────┘
                                      │
                                      ▼
                   ┌──────────────────────────────────────┐
                   │ 将 Di 追加到全局 token 流 S（插入<EOS>)│
                   └─────────────────┬────────────────────┘
                                     │
                                     ▼
                     ┌────────────────────────────────┐
                     │ S 的长度 ≥ seq_len（如 2048）? │
                     └───────────────┬────────────────┘
                                     │是
                                     │
                                     ▼
                     ┌────────────────────────────────────────────┐
                     │ 取 S 的前 seq_len 作为样本 k（完整样本）   │
                     └─────────────────┬──────────────────────────┘
                                       │
                                       ▼
                     ┌────────────────────────────────────────────┐
                     │ 输出样本 k；将 S ← S[seq_len: ]（保留余下） │
                     └─────────────────┬──────────────────────────┘
                                       │
                                       └──────► 回到“读取文档 Di+1”

                                     否
                                     │
                                     ▼
            ┌───────────────────────────────────────────────────┐
            │ 是否还有后续文档可读？（数据未结束 / 仍在本 epoch 内）│
            └───────────────┬───────────────────────────────────┘
                            │是
                            │
                            └──────► 回到“读取文档 Di+1（继续拼接）”

                            否
                            │
                            ▼
       ┌──────────────────────────────────────────────────────────────┐
       │（语料已到末尾且 S 长度 < seq_len）尾部残余 token 的处理策略： │
       └───────────────┬─────────────────────────────────────────────┘
                       │
          ┌────────────┴────────────┐
          ▼                         ▼
┌──────────────────────┐   ┌─────────────────────────────────┐
│ 方案 A：丢弃尾部残余 │   │ 方案 B：将残余作为“短样本”输出， │
│ （少量、影响可忽略） │   │ 在 batch 内用 padding 对齐长度   │
└──────────────────────┘   └─────────────────────────────────┘

要点：

正常情况下，“切分后剩余的 token”不会丢弃，而是保留在全局缓冲 S，继续与后续文档拼接，直到够一个完整的 seq_len 样本。
只有在语料尾部且没有更多文档可拼接时，才会出现尾部残余：常见实现要么丢弃这小段（影响极小），要么把它当作短样本并在 batch 内 padding。

如果你需要可下载的图片版流程图，我也可以给你导出为 PNG/SVG。

二、对比

1、长度优先打包（length-aware / best-fit / bin-packing）”与“随机打包（concat-and-chunk）

“长度优先打包（length-aware / best-fit / bin-packing）”与“随机打包（concat-and-chunk）”的对照速览，重点放在：

训练效率
模型性能
收敛速度

维度	长度优先打包	随机打包
训练效率（吞吐/GPU利用）	显著减少填充与不必要截断，常见能达≈2×吞吐（在BERT/LLM预训练或指令微调中均有报告）；对齐FlashAttention等变长内核后保持高效。 (arXiv)	通过拼接避免padding本身就比“逐条+padding”更高效，但会把很多文档截断，信息利用率不如长度优先。 (arXiv)
模型性能（下游任务/幻觉）	更好：减少文档截断带来实证提升（阅读理解、上下文跟随、程序合成等，最高相对+16.8%）；封闭域幻觉显著减少（最高-58.3%）。 (arXiv)	可能下降：跨文档拼接+普通因果掩码易引入“无关上下文干扰”，导致语言建模与下游任务变差；若不额外处理文档边界，影响更明显。 (arXiv)
收敛速度（到同等损失/精度的时间）	由于有效token更高且信号更“干净”，通常更快到达目标困惑度/精度；等步数对比下，loss曲线与未打包或填充方案保持一致甚至更快收敛。 (arXiv)	虽然吞吐高于“逐条+padding”，但因截断与跨文档干扰，到同等性能可能更慢（需要更多步数去“忽略”噪声关系）。 (arXiv)
工程复杂度	较高：需要长度统计与近似装箱/最佳适配；实现时要保证不跨样本注意力与位置编码正确（现代库已有现成支持）。 (arXiv)	低：直接拼接到固定长度再切块，流水线最简单，早期大模型常用。 (arXiv)
关键风险点	若实现不当（如未正确mask/position ids），可能出现跨样本注意力“串味”；全局静态打包若长期固定邻接关系，可能引入轻微数据相关性偏置（可用shuffle/动态打包缓解）。 (Hugging Face)	语义跨污染与过度截断：破坏篇章完整性，削弱长程一致性与事实对齐能力。 (arXiv)
何时更合适	大语料、长度分布离散明显；追求更强的长上下文/事实一致性；算力昂贵需最大化“有效token”。 (arXiv)	快速打通数据管线的基线；实验早期/小规模试跑；对最终质量要求一般、主要想占满算力时。 (arXiv)

长度优先打包的三大利好

效率：把“装箱问题”引入样本构造，显著降低pad与无效计算；Graphcore在预训练中报告可至**≈2×吞吐**，且通过“无交叉污染”的掩码设计，数学等价于未打包训练。 (arXiv)
质量：Amazon 的 Best-fit Packing 通过最小化截断保持篇章完整，带来广泛下游提升并显著抑制幻觉。 (arXiv)
收敛：有效信号密度更高、噪声更少，配合现代变长注意力（如FlashAttention 2 + DataCollatorWithFlattening）通常不伤收敛且更快达到目标。 (Hugging Face)

随机打包的两面性

优点：实现成本极低，天然避免padding；作为对比基线/快速迭代很方便。 (arXiv)
短板：常把文档硬切开，并在边界处把不相干内容“拼在一起”，若仍用普通因果掩码，模型会注意到前一文档的无关token，造成性能劣化。 (arXiv)

实践建议（可操作）

至少做“长度感知 + 边界安全”：用长度优先/最佳适配（或近似贪心装箱）+ 显式禁止跨文档注意力（或使用库内“打包但保边界”的collator）。 (arXiv)
避免“静态邻接过拟合”：离线打包后，每epoch随机化打包单元顺序，或直接上动态打包（按token预算装箱）。 (Hugging Face)
度量三指标：监控填充率/截断率/拼接率，把“截断率→极低、填充率→低、拼接率→不过度”作为优化目标。 （指标化方法源自多桶/变长训练文献，思路相同） (arXiv)
验证不伤收敛：保持“每步token预算”和“优化步数”不变做A/B，对比验证损失曲线与吞吐提升。 (Hugging Face)

2、相似性打包（similarity-aware / relevance-aware packing）”与“随机打包（random concat-and-chunk）

“相似性打包（similarity-aware / relevance-aware packing）”与“随机打包（random concat-and-chunk）”的对比分析，涵盖

训练效率、
模型性能、
收敛速度

维度	相似性打包	随机打包
训练效率	与随机打包效率相近：依然拼接填满上下文窗口（没有padding），几乎没有额外计算开销；如果检索/聚类算法实现高效，整体吞吐几乎不降。	拼接方式最简单，天然无padding，效率也高。
模型性能	显著更好：减少跨文档干扰，让拼接的内容语义相关，模型能学到更有用的长距离依赖；实验显示下游任务（知识问答、上下文学习、长文档利用等）提升约 7%–12%。	容易下降：跨文档拼接会把不相关内容放在一起，模型注意力被“噪声”吸引，困惑度与下游任务准确率变差。
收敛速度	由于训练信号更“干净”，模型不必花很多步数去学习“忽略无关上下文”，因此更快达到目标性能。	虽然每秒处理token数高，但因为信号中掺杂无关信息，模型到同样精度时需要更多训练步。
工程复杂度	较高：需要额外的相似度计算或检索（BM25/embedding聚类/元数据分组），预处理或动态采样成本增加。	极低：只需顺序拼接+切块，是早期LLM最常见的方案。
关键风险点	如果相似度指标选择不当，可能引入“伪相关”，导致模型学到偏差；大规模检索在超大语料上计算代价不容忽视。	最大风险是“跨污染”：模型学到不真实的文档邻接关系，影响上下文建模与事实一致性。
适用场景	长上下文模型、知识密集型任务、希望提升事实一致性和减少幻觉的应用。	作为baseline/快速原型，或在资源有限、对最终质量要求不高时使用。

训练效率

两者在减少padding、提升GPU利用率上几乎没有差异。相似性打包的额外成本主要体现在构造样本时的相似度检索：比如用BM25、embedding聚类或基于元数据分组。若这些步骤离线完成，对整体训练效率影响有限。而随机打包不需要任何检索，直接拼接最省事。

模型性能

相似性打包优势：
- Zhao 等（2024）实验显示，BM25 打包的模型比随机打包在知识问答准确率高 9.8%，在上下文学习提升 11.6%，长上下文利用率提升 7.2%。
- Staniszewski 等（2024, SPLiCe）也发现，相似性打包能显著改善长文档检索和跨段问答等任务。
随机打包问题：模型常将两个无关文档错误地联系在一起，导致困惑度升高，下游效果下降。这种“无关注意力”是性能下降的主要原因。