大模型训练语料（通俗易懂）第二篇

原创已于 2025-10-26 17:33:05 修改 · 305 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-10-21 09:08:55 首次发布

这一篇在前篇的基础上继续把“数据能用、可审计、能复现”的工程链条往前推：将怎么采样配比 和 如何训得又稳又快的过程讲清楚。

决定各来源/语言/领域/长度的采样比例，做到 “主域稳定 + 长尾覆盖”。

分类：按 lang / domain / length_bucket / quality_score 等建类别桶。
配比：设定各类别占比，例如 主域 70% + 泛化域 20% + 长尾 10%。
比重调配：引入温度采样 T 来动态调整长尾被选中的机会。通过温度T来调整初始占比（权重）。当设置温度 > 1 时会增加长尾机会，当温度 < 1时，会增加主域的权重。
抽样：按类别权重抽样，对近重复块施加惩罚权重，对关注的类别增加权重。

中文电商问答占 80%，英文通用问答占 10%，冷门知识文档 10%；在中文桶里，再按长度短/中/长的原始配比 [ 0.7, 0.2, 0.1 ] ：

当温度T=1.2 → 约 [0.645 , 0.227 , 0.128]（长尾从 0.10→0.128）

当温度T=0.7 → 约 [0.814 , 0.136 , 0.050]（主域从 0.70→0.814）

在第一至第七章节中做完数据“清洗、脱敏、去重、合规过滤、分块”等操作后，下一步就将数据按照目标来构成训练样本。

模型训练语料处理完成后，就可以按照所需的目的来进行模型的训练，常见模型预训练的目的是可以分为三个，第一，为了让模型学会自然语言的表示。第二、让模型学会理解上下文内容，预测词义。第三、根据理解的内容，进行内容生成。

目的：通过双向学习的方式，帮助模型训练理解能力、抗噪音能力，对于语篇的生成和编辑能力。

概念：只随机抽取部分字/词进行遮挡，让模型进行预测被遮挡的词/字的语义、作用。
用途：理解上下文、补充语义。
做法：
1. 随机调15%（假设的量）的token 当考点，对这些token 80%进行遮挡，10%换成随机词，10%保持不变。
2. 让这些被挑中的位置让模型去预测原词并记损失（其他位置不统计）。
3. 每次训练都会重新抽位置，同一条句子被抽成不同的填空题去做。
被随机抽中的词会进行遮挡，被填上[mask]
基于BERT模型的编码器实现，强理解，不擅长生成。