
配置
文章平均质量分 64
皮皮鲁与鲁西西�
这个作者很懒,什么都没留下…
展开
-
【突然科研】解决分布式训练时突然断开并报错
今天在训模型时突然报错查了一下可能是内存问题,但有观察显存一直是比较稳定的。请教了一下群里的大佬可能是cpu内存不足,进程被系统杀掉。因为终端没有输出详细报错信息,大佬建议我去/var/log下查系统日志【凡是被系统kill的都会写进系统日志里的】通过命令sudo egrep -i -r 'killed process' /var/log或者用专门的dmesgsudo dmesg|grep -i kill | less查到:果然是内存不足被杀了,然后top看了一下果然cpu被占满了原创 2022-04-13 23:05:51 · 828 阅读 · 1 评论 -
CenterPoint的环境配置error大全【已全部解决】
1.error:编译spconv出错注意:git clone spconv --recursive不成功,第三方库没有clone下来,因此要在spconv的third_part里手动git clone pybind原因:pytorch版本不匹配解决方法:修改spconv-8da6f9/src/spconv/all.cc,line20如下原因:pytorch版本不匹配解决方法:修改spconv-8da6f9/src/spconv/all.cc,line20如下2.error:cannot原创 2021-11-28 10:12:30 · 14027 阅读 · 21 评论