之前上一篇重新配置了系统驱动cuda后还是会报错,怀疑是硬件的问题
从网络到英伟达官网,再到联想客服,一般都是两种答案
电源供电不足,或者过热
由于实验室配置的是两块Tesla M60,只有被动散热,而且在程序运行中使用英伟达的显卡监测
nvidia-smi -l
发现,一旦温度超过91°就会显示
GPU is lost ! ! !
且温度上升程序运行明显减慢
基本确定是温度的问题,给两块M60单独加装了小风扇

温度最高基本保持在60°左右,也暂时没有报出相同的问题,且程序运行速度也能保持稳定
在遇到GPU过热导致程序运行不稳定的问题时,通过增加散热措施,成功将TeslaM60显卡温度控制在60°C左右,解决了GPU丢失及程序运行速度下降的问题。
2万+

被折叠的 条评论
为什么被折叠?



