要判断在训练过程中会有多少个检查点(checkpoint),我们需要考虑以下几个因素:
-
训练集数据量:假设训练集数据量为
num_samples
。 -
epoch:假设训练的总周期数为
num_epochs
。 -
save_steps:假设每隔
save_steps
个训练步骤保存一次检查点。 -
steps_per_epoch:每个 epoch 的训练步骤数,通常为
num_samples / batch_size
。
我们可以通过以下步骤来计算总的检查点数量:
-
计算每个 epoch 的训练步骤数:
steps_per_epoch=num_samples / batch_size -
计算总的训练步骤数:
total_steps=num_epochs × steps_per_epoch -
计算总的检查点数量:
num_checkpoints=total_steps /