中断以后重新训练
有个resume的参数,将default从False改成True,然后他就会自己去找最新的权重继续训练了。
然后有个需要注意的点就是,不要为了想要备份最新的权重,然后把它复制一份出来,这样子,好像会造成路径的错乱,然后报错了很久哈哈哈(最后把复制出来的weights的文件夹删掉才好的)
增加训练的epochs
就是训练完了以后发现还没有收敛,想要继续增加epochs。我做的改动
- 修改resume参数
- 把epochs的参数修改成你需要的次数
- 在train文件夹里面加入语句,ckpt[‘epoch’] = 上一次训练的最后一个的次数

如果没有改的话可能会报错,大概的意思是说已经训练完了,不需要再继续训练了。 - 我还改了/runs/exp3中的opt.yaml文件中的epochs的个数,修改成了300,但是不知道这个有没有用处
训练的结果
tensorboard的使用
- 先在对应的环境下安装这个库
- 然后输入tensorboard --logdir=【event文件所在的文件夹路径】
- 然后在对应的端口打开

- 如果打开网页以后没有响应,或者找不到网页的话,那么就需要在xshell中把对应的端口弄到本地服务器上面。

文章讨论了如何在训练中断后使用resume参数继续训练,注意不要手动复制权重文件以免路径混乱。增加epochs以追求模型收敛,但需留意重新训练可能导致loss突然增加。使用tensorboard监控训练过程,并提到通过冻结模型部分层来进行微调的策略。
最低0.47元/天 解锁文章
2442

被折叠的 条评论
为什么被折叠?



