问题现象描述
硬件配置:2288H V5 + Atlas 300
问题现象:npu-smi工具查看部分芯片运行程序的温度高达90~100℃。
关键过程、根本原因分析
关键过程:
- 中断程序,等几分钟后查看芯片温度,所有芯片75℃左右,温度偏高。
- 打开服务器机盖,确认是否有导风罩。

图1 服务器导风罩
- 将Atlas 300卡从机框侧面转移到中间位置,增加标卡散热性。

图2 Atlas 300卡槽位
- 通过BMC界面更改风扇转速为高性能模式,提升服务器整体散热性。

图3 BMC界面调速模式
文章描述了在2288HV5服务器上,Atlas300芯片运行时温度过高问题的排查和解决过程。通过添加导风罩、改变风扇转速模式,成功降低了芯片温度至正常范围,强调了服务器散热和风扇配置的重要性。
问题现象描述
硬件配置:2288H V5 + Atlas 300
问题现象:npu-smi工具查看部分芯片运行程序的温度高达90~100℃。
关键过程、根本原因分析
关键过程:

图1 服务器导风罩

图2 Atlas 300卡槽位

图3 BMC界面调速模式
1235

被折叠的 条评论
为什么被折叠?