
跑了三轮迭代后,死掉了,遇到上面的bug,
/opt/conda/conda-bld/pytorch_1614378063927/work/aten/src/THCUNN/ClassNLLCriterion.cu:59: ClassNLLCriterion_updateOutput_no_reduce_kernel: block: [0,0,0], thread: [0,0,0] Assertion `cur_target >= 0 && cur_target < n_classes` failed.
跑的GitHub的模型,用官方给的数据集可以正确出结果,换成我自己的数据集开始报上边的错,
百度到的结果大概分三类:
loss 有的会出 现loss为负数的情况,这样在totch.log中加上
+1e-5torch.sum(weight)+1e-5
但是这种 方法对我不管用
参考链接:
btchsize 大小不对应,尝试改变batch_size大小,也不对
标签不匹配( 我是这个问题)

在使用PyTorch进行深度学习训练时,将官方数据集替换为自定义数据集后,遇到`RuntimeError: CUDA error: device-side assert triggered`的错误。尝试了调整loss处理和改变batch_size,但问题依旧存在。可能是由于标签不匹配导致的错误。参考相关博客文章寻求解决方案。
10万+

被折叠的 条评论
为什么被折叠?



