在07可以运行程序,但是到了08结点就会报错,报错如下:

可能的原因有:
- GPU进程/线程死锁,缓存删除冲突;
- CUDA版本不一致造成CUDA缓存冲突;
- ……
解决方案:
删除 ~/.nv/ 下的所有内容(找了半天还是东钦师兄帮忙解决了,感谢师兄!):
rm -rf ~/.nv/*
删除之后记得重连xshell客户端。
本文详细介绍了在07节点上程序运行正常,但在08节点出现CUDA缓存冲突导致程序崩溃的问题。分析了可能的原因包括GPU进程/线程死锁、缓存删除冲突以及CUDA版本不一致等,并提供了解决方案,即通过删除~/.nv/下的所有内容来解决CUDA缓存冲突问题。
在07可以运行程序,但是到了08结点就会报错,报错如下:

可能的原因有:
解决方案:
删除 ~/.nv/ 下的所有内容(找了半天还是东钦师兄帮忙解决了,感谢师兄!):
rm -rf ~/.nv/*
删除之后记得重连xshell客户端。
您可能感兴趣的与本文相关的镜像
PyTorch 2.9
PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理
1944
1578

被折叠的 条评论
为什么被折叠?