1. 训练过程中意外中断,未完成训练预期的epoch数量

不小心多开了一个程序,导致程序从98次中断了,想要继续从98开始训练:
将train_dual.py文件中的patser中参数resume,将其设置为default=True:
parser.add_argument('--resume', nargs='?', const=True, default=True, help='resume most recent training')
注意如果想从上一次训练结果中恢复训练,那么保证训练结果(存放在/runs/train目录下)在保存目录中代号为最大的,也就是断点的那次存放的结果是在最后一个文件夹的,断点前训练的设置参数、超参数和每轮训练效果在时间最迟的文件夹下的opt.yaml、hyp.yaml、results.csv中有记录

然后运行train_dual.py:

本文讲述了在训练过程中遇到中断后,如何通过修改train_dual.py中的参数和utils/torch_utils.py的smart_resume函数来从上次中断处继续训练,包括设置resume参数、调整epoch值和管理超参数。
最低0.47元/天 解锁文章
23万+





