最近用Google Cloud 跑实验,GPU是A100-40GB的。
一开始跑了很多次,程序都是直接挂掉。有时候甚至没有任何错误提示信息,真的很难找出问题。有时候倒是可能报错。
可能的报错
- No space left
- Bus Error
- 产生很多core.python的文件。
解决方案
试过以为自己的镜像问题,以为pytorch 版本问题,以为cuda 问题,以为deepspeed 的版本问题。结果都不是。
找了非常久, 网上一搜。发现是 /dev/shm
上面不够空间。真是郁闷死了。
我发现我的/dev/shm
只有64MB…
- 如果你是用docker的话, 你可以设置
shm
的sizedocker run -it --shm-size 40G
- 如果不是的话,你需要mount 一个比较大的size 到
/dev/shm
, 就解决了哈
备注:有时候好像 dataloader的num_workers = 0
也可以,但这样会很慢噢