LLM预训练与SFT数据配比调研_退火预训练-优快云博客

本文链接：https://blog.youkuaiyun.com/AIBigModel/article/details/142926486

知乎：天晴
链接：https://zhuanlan.zhihu.com/p/703825827

背景与目标

最终目标是在 LLAMA3 模型的基础上进行继续训练与 SFT，但 LLAMA3 的数据与配比方案并未公开，因此期望从其他方案中获得配比的思路，从而确保预训练与 SFT 不会严重影响原本的模型效果。

当前一种潜在的不伤害原模型的方法是，直接继续训练/SFT，随后通过 参数合并Merge 来保留原始效果。

首先需要调研现有的方案，思路为：

公开的预训练数据配比
公开的 SFT 配比方案
探测 LLAMA3 配比的潜在方法

更新日期：2024.07.29

前文：天晴：论文解读：如何自动选择 SFT 数据
后文：天晴：多模态数据混比工作调研

https://zhuanlan.zhihu.com/p/690779419
https://zhuanlan.zhihu.com/p/713670161

LLAMA 和 Qwen 技术报告

最新的Qwen2和LLAMA3.1终于是公布了很多数据细节，当然也包括数据配比问题。

Qwen2

预训练数据增强

Qwen2 的预训练数据分为 启发式方法过滤 和 Qwen 模型过滤。虽然实现细节未阐明，但根据其他工作，启发式方法可能类似 C4 数据的过滤方法。Qwen 模型过滤则可能是由 GPT 对模型进行 1-5 的质量分数打标，随后对 Qwen 的一个小版本（如 0.5B）进行微调，使其只输出 1-5 的分数 token。

数据扩充

Qwen2 包含了代码、数学、多模态数据，也包括多语数据。最关心的 数据分布 依然是含糊的，目标是让数据分布与人类相似的学习一致。通过实验，对不同来源和领域划分方法进行混合。

数据规模

Qwen1.5 使用了 3T 数据，而 Qwen2 扩充至 7T 数据。团队还尝试继续放宽数据质量筛选阈值，扩充到 12T 数据。然而，在打榜精度上，7T 和 12T 的训练并无显著差异。

长上下文训练

Qwen2 的长上下文训练分为几个阶段：

4k 上下文训练
32k 上下文训练
使用 RoPE 位置编码，将频率从 1 万增加到 100 万（频率越高，能容纳的上下文越长）

此外，Qwen2 还使用了 YARN 和 Dual Chunk Attention 机制，支持 131k 上下文（实践上，是对长上下文进行Chunk切分，随后在chunk内与chunk间进行相对位置信息的捕捉）。

后训练

核心是使用了大量非人工合成数据，值得关注的趋势是：

人机协作数据打标：使用 InsTag 模型生成标签，人工改进表述。依据标签多样性、语义性、复杂度、意图完整性评估筛选出具有代表性的数据；借助一些LLM数据演进生成的工作，例如Self-Evolution，进行数据合成；最后也包括人工标注。
自动数据合成：例如，使用 Rejection Sampling 进行数学任务推导，或者通过 Execution Feedback 对代码任务进行执行筛选。随后是SFT常见的Data Repurposing，为各种任务，借助LLM基于某些源数据，来构造任务数据。对于Qwen它还做了安全审查，当然这里我可能并不需要。