- 博客(2)
- 资源 (2)
- 收藏
- 关注
原创 微调模型,grad_norm巨大无比,然后变成nan,loss变为0.0的处理方式
将deepspeed的配置文件中,overlap_comm选项设置为false。网上很多教程都在复制粘贴,没一点用。如果你走投无路了,试试我这个方法。
2024-10-10 23:34:26
1554
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人