一个无语的坑,4060单卡训练,8G内存本来就不够,还没开始训练就已经爆内存了,但是居然正常跑完了训练,然后一推理发现结果就是一坨。。。往回翻日志才发现原来中间有异常。
首先解决第一个问题:Could not load dynamic library 'cupti64_112.dll'
解决方法参考TensorFlow训练中保存tensorboard中cupti丢失问题解决,总结一下就是找到cupti64_2020.2.1.dll
复制到cuda安装路径的bin目录下,并重命名为缺的这个cupti64_112.dll
最坑的来了,OOM了但是还是能正常训练完,但是结果保存的权重必然是有问题的
UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor("training/SGD/gradi