Mid-Training of Large Language Models: A Survey

该文章是首篇系统梳理大型语言模型(LLMs)中期训练(Mid-Training)的综述,明确了中期训练在预训练与微调间的核心地位,构建了数据分布、学习率调度、长上下文扩展三大维度的分类体系,并提炼实践经验与未来方向。

一、文章主要内容

文章围绕LLMs中期训练展开全面分析,核心内容可分为五大模块:

1. 中期训练的定位与理论基础
  • 定位:中期训练是衔接通用预训练与任务微调的关键阶段,通过多轮“退火式”训练(数据质量优化、学习率调整、上下文长度扩展),解决预训练后期噪声数据效用下降、收敛不稳定、能力拓展受限等问题。
  • 理论支撑:从三个角度解释有效性
    • 梯度噪声规模(GNS):高质量数据提升信号方差,帮助模型跳出局部最优。
    • 信息瓶颈(IB):压缩噪声特征,保留任务关键信息,推动模型从记忆转向抽象。
    • 课程学习:逐步引入复杂数据(如推理、代码),强化模型高阶能力。
2. 中期训练的三大核心维度(分类体系)
  • 数据分布:聚焦高质量数据筛选与混合,主流数据类型包括高质量过滤网页数据(如FineWeb-Edu)、代码与数学数据(如Stack、OpenWebMath)、指令与问答数据(如EvolInstruct)、合成教材数据(如Cosmopedia)等;关键实践是“降采样低质数据+升采样高价值数据”,并维持数据分布连续性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值