PyTorch的官方bug：torch.optim.lr_scheduler.CosineAnnealingWarmRestarts

原创已于 2022-05-04 02:48:29 修改 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #bug #深度学习

于 2022-05-04 02:34:36 首次发布

在低版本的PyTorch中使用`torch.optim.lr_scheduler.CosineAnnealingWarmRestarts`时遇到指定`last_epoch`参数的错误，升级到1.11.0版本后，预训练恢复时出现新的bug：在重启多次后的某个epoch，学习率会错误，然后在下一个epoch恢复正常。例如，当T_0=5且T_mult=2时，从特定epoch开始的前几个epoch学习率不正确，之后恢复正常。目前该问题被认为是官方bug，正在等待后续版本修复。

部署运行你感兴趣的模型镜像

torch.optim.lr_scheduler.CosineAnnealingWarmRestarts

低版本（如torch1.7.1）指定last_epoch参数时报错，已有人反馈指出，升级torch1.11.0可以解决该问题。

升级之后出现另外一个bug：训练过程中重启N次之后中断，再恢复进行预训练时，前N-1个epoch的lr错误，第N个epoch开始恢复正常。
例如当T_0=5, T_mult=2（这意味着lr将在第5,15,35,75,155,315…个epoch之后进行重启），预训练如果从第20个epoch开始时20的lr错误，21开始恢复正常；预训练从第40个epoch开始时40-41的lr错误，42开始恢复正常；预训练从第80个epoch开始时80-82的lr错误，83开始恢复正常

目前尚未解决，应该是官方bug，期待后续版本修复
【或者是我自己的代码逻辑出错，若有人无此问题，能正常恢复预训练，望评论告知，感谢！】

您可能感兴趣的与本文相关的镜像