【GPT入门】第63课 XTuner 微调大模型必备：训练日志核心指标则（iter/step/epoch）计算规则

原创已于 2025-09-02 11:26:21 修改 · 344 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#gpt

于 2025-09-01 09:03:29 首次发布

大模型专栏收录该内容

92 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

【GPT入门】第63课 XTuner 微调大模型必备：训练日志核心指标（iter/step/epoch）计算规则

1. 日志示例
2. （iter/step/epoch）计算规则

1. 日志示例

08/31 18:18:16 - mmengine - INFO - Iter(train) [  7730/910000]  lr: 5.6626e-05  eta: 12 days, 1:34:05  time: 0.9080  data_time: 0.0093  memory: 10985  loss: 0.0950  grad_norm: 2.2010
08/31 18:18:27 - mmengine - INFO - Iter(train) [  7740/910000]  lr: 5.6699e-05  eta: 12 days, 1:32:13  time: 1.0687  data_time: 0.2093  memory: 10986  loss: 0.0903  grad_norm: 2.2010
08/31 18:18:36 - mmengine - INFO - Iter(train) [  7750/910000]  lr: 5.6773e-05  eta: 12 days, 1:27:17  time: 0.9109  data_time: 0.0094  memory: 10989  loss: 0.0852  grad_norm: 2.2419
08/31 18:18:45 - mmengine - INFO - Iter(train) [  7760/910000]  lr: 5.6846e-05  eta: 12 days, 1:22:21  time: 0.9103  data_time: 0.0093  memory: 10986  loss: 0.0871  grad_norm: 2.2176
08/31 18:18:54 - mmengine - INFO - Iter(train) [  7770/910000]  lr: 5.6919e-05  eta: 12 days, 1:17:24  time: 0.9094  data_time: 0.0098  memory: 10988  loss: 0.0874  grad_norm: 2.2176

2. （iter/step/epoch）计算规则

在XTuner（基于MMEngine框架）的训练日志中，iter、step和epoch的计算逻辑如下：

1. `Iter (迭代)`

定义：表示训练过程中参数更新的总次数（每处理一个batch并更新一次参数，记为1个iter）。
日志含义：日志中 [ 5110/910000] 表示“当前已完成5110次迭代，总计划迭代次数为910000次”。
计算逻辑：
- 每次模型处理一个batch的数据并反向更新参数后，iter 计数+1。
- 总迭代次数由 max_iters 配置参数指定（而非由数据集大小决定）。

2. `Step (步骤)`

与Iter的关系：在单卡训练中，step 与 iter 完全等价，即1个step = 1个iter（每步参数更新对应一次迭代）。
分布式场景差异：在多卡数据并行训练中，step 通常指“全局步数”，而 iter 可能指单卡迭代次数（此时 step = iter / 卡数）。
日志体现：XTuner日志中一般以 iter 为主，step 概念较少单独体现，可理解为与 iter 同义。

3. `Epoch (轮次)`

定义：表示完整遍历一次训练数据集的次数。
计算逻辑：
- 1个epoch = 训练数据集总样本数 / 每个batch的样本数（即 总batch数/epoch）。
- 例如：若数据集有10000个样本，batch_size=10，则1个epoch包含1000个iter。
与Iter的转换：当前epoch = 当前iter数 / 每epoch的iter数（结果取整数部分）。