mT5系列模型在使用fp16时返回0 loss

文章讨论了在使用mT5_small模型和fp16=True时,训练过程中出现的训练损失为零的bug。解决方案是将fp16设置为False。参考了HuggingFace论坛上的讨论和经验分享。
部署运行你感兴趣的模型镜像

诸神缄默不语-个人优快云博文目录

这个bug的出现大概来说就是在用mT5_small + Seq2SeqTrainer的时候,设置fp16=True,打印的日志中损失函数直接为0了。显然这是个bug,网上说在T5/mT5中这是个普遍的问题,解决方案就是将fp16改设置为False

参考资料:

  1. T5 variants return Training Loss 0 and Validation loss nan while fine tuning - 🤗Transformers - Hugging Face Forums
  2. Mt5 fine-tuning using fp16 yields zero loss - 🤗Transformers - Hugging Face Forums

您可能感兴趣的与本文相关的镜像

ACE-Step

ACE-Step

音乐合成
ACE-Step

ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。 它拥有3.5B参数量,支持快速高质量生成、强可控性和易于拓展的特点。 最厉害的是,它可以生成多种语言的歌曲,包括但不限于中文、英文、日文等19种语言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值