这个bug的出现大概来说就是在用mT5_small + Seq2SeqTrainer的时候,设置fp16=True,打印的日志中损失函数直接为0了。显然这是个bug,网上说在T5/mT5中这是个普遍的问题,解决方案就是将fp16改设置为False。
参考资料:
文章讨论了在使用mT5_small模型和fp16=True时,训练过程中出现的训练损失为零的bug。解决方案是将fp16设置为False。参考了HuggingFace论坛上的讨论和经验分享。
这个bug的出现大概来说就是在用mT5_small + Seq2SeqTrainer的时候,设置fp16=True,打印的日志中损失函数直接为0了。显然这是个bug,网上说在T5/mT5中这是个普遍的问题,解决方案就是将fp16改设置为False。
参考资料:
您可能感兴趣的与本文相关的镜像
ACE-Step
ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。 它拥有3.5B参数量,支持快速高质量生成、强可控性和易于拓展的特点。 最厉害的是,它可以生成多种语言的歌曲,包括但不限于中文、英文、日文等19种语言
2759
2万+

被折叠的 条评论
为什么被折叠?