模型训练常见的训练超参数速查表

类别参数名含义常见取值范围 / 说明
训练循环
num_train_epochs
训练轮次1 – 10(小数据集);大模型一般用 max_steps 控制
max_steps
最大训练步数1e4 – 1e6(常用于大模型)
per_device_train_batch_size
单卡 batch 大小1 – 8(大模型);16 – 128(小模型)
gradient_accumulation_steps
梯度累积步数1 – 64(显存不足时使用)
max_grad_norm
梯度裁剪阈值0.5 – 1.0(常用 1.0)
优化器
optimizer
优化器类型AdamW(主流),Adafactor(大模型省显存),Lion
learning_rate
学习率1e-5 – 1e-4(预训练/大模型);5e-5 – 5e-4(小模型/下游任务)
weight_decay
权重衰减0.01 – 0.1(常用 0.01)
adam_beta1 / adam_beta2
Adam 参数β1=0.9,β2=0.98 或 0.999
adam_epsilon
数值稳定项1e-8
学习率调度
lr_scheduler_type
学习率调度策略linear, cosine, cosine_with_restarts, polynomial, constant
warmup_steps
预热步数总步数的 1–5%
warmup_ratio
预热比例0.01 – 0.1
min_lr_ratio
最低学习率比例0.01 – 0.1(余弦/多项式衰减时用)
正则化 / 稳定性
dropout
随机丢弃比例0.1 – 0.3
attention_dropout
注意力 dropout0.0 – 0.1
label_smoothing_factor
标签平滑0.05 – 0.2(常用 0.1)
gradient_checkpointing
梯度检查点True(节省显存,计算更慢)
fp16 / bf16
混合精度True(推荐 bf16 更稳定)
数据 & 采样
max_seq_length
最大序列长度512(一般任务),2048+(大模型)
shuffle
数据是否打乱True
seed
随机种子42, 1234 等
dataloader_num_workers
数据加载线程数2 – 8(取决于 CPU)
分布式训练
deepspeed
DeepSpeed 配置文件ZeRO Stage 1/2/3
fsdp_config
Fully Sharded Data Parallelshard 全量参数,省显存
sharded_ddp
分片 DDPsimple, zero_dp_2, zero_dp_3
ddp_find_unused_parameters
查找未用参数False(大模型推荐)
zero_stage
ZeRO 优化级别0–3(大模型常用 2/3)
监控 & 保存
save_strategy
保存策略steps / epoch
save_steps
保存间隔步数500 – 5000
save_total_limit
最多保留的 checkpoint 数1 – 10
logging_steps
日志记录步数10 – 500
evaluation_strategy
验证策略steps / epoch
eval_steps
验证间隔步数500 – 5000
load_best_model_at_end
是否加载最佳模型True(常见于微调任务)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值