| 类别 | 参数名 | 含义 | 常见取值范围 / 说明 |
|---|---|---|---|
| 训练循环 |
| 训练轮次 | 1 – 10(小数据集);大模型一般用 max_steps 控制 |
| 最大训练步数 | 1e4 – 1e6(常用于大模型) | |
| 单卡 batch 大小 | 1 – 8(大模型);16 – 128(小模型) | |
| 梯度累积步数 | 1 – 64(显存不足时使用) | |
| 梯度裁剪阈值 | 0.5 – 1.0(常用 1.0) | |
| 优化器 |
| 优化器类型 | AdamW(主流),Adafactor(大模型省显存),Lion |
| 学习率 | 1e-5 – 1e-4(预训练/大模型);5e-5 – 5e-4(小模型/下游任务) | |
| 权重衰减 | 0.01 – 0.1(常用 0.01) | |
| Adam 参数 | β1=0.9,β2=0.98 或 0.999 | |
| 数值稳定项 | 1e-8 | |
| 学习率调度 |
| 学习率调度策略 | linear, cosine, cosine_with_restarts, polynomial, constant |
| 预热步数 | 总步数的 1–5% | |
| 预热比例 | 0.01 – 0.1 | |
| 最低学习率比例 | 0.01 – 0.1(余弦/多项式衰减时用) | |
| 正则化 / 稳定性 |
| 随机丢弃比例 | 0.1 – 0.3 |
| 注意力 dropout | 0.0 – 0.1 | |
| 标签平滑 | 0.05 – 0.2(常用 0.1) | |
| 梯度检查点 | True(节省显存,计算更慢) | |
| 混合精度 | True(推荐 bf16 更稳定) | |
| 数据 & 采样 |
| 最大序列长度 | 512(一般任务),2048+(大模型) |
| 数据是否打乱 | True | |
| 随机种子 | 42, 1234 等 | |
| 数据加载线程数 | 2 – 8(取决于 CPU) | |
| 分布式训练 |
| DeepSpeed 配置文件 | ZeRO Stage 1/2/3 |
| Fully Sharded Data Parallel | shard 全量参数,省显存 | |
| 分片 DDP | simple, zero_dp_2, zero_dp_3 | |
| 查找未用参数 | False(大模型推荐) | |
| ZeRO 优化级别 | 0–3(大模型常用 2/3) | |
| 监控 & 保存 |
| 保存策略 | steps / epoch |
| 保存间隔步数 | 500 – 5000 | |
| 最多保留的 checkpoint 数 | 1 – 10 | |
| 日志记录步数 | 10 – 500 | |
| 验证策略 | steps / epoch | |
| 验证间隔步数 | 500 – 5000 | |
| 是否加载最佳模型 | True(常见于微调任务) |
模型训练常见的训练超参数速查表
最新推荐文章于 2025-11-21 15:59:40 发布
956

被折叠的 条评论
为什么被折叠?



