【Atlas 800-3000/3010 01】Atlas 300卡温度过高问题排查流程

文章描述了在2288HV5服务器上,Atlas300芯片运行时温度过高问题的排查和解决过程。通过添加导风罩、改变风扇转速模式,成功降低了芯片温度至正常范围,强调了服务器散热和风扇配置的重要性。

问题现象描述

硬件配置:2288H V5 + Atlas 300

问题现象:npu-smi工具查看部分芯片运行程序的温度高达90~100℃。

关键过程、根本原因分析

关键过程:

  1. 中断程序,等几分钟后查看芯片温度,所有芯片75℃左右,温度偏高。
  2. 打开服务器机盖,确认是否有导风罩。

图1 服务器导风罩

  1. 将Atlas 300卡从机框侧面转移到中间位置,增加标卡散热性。

图2 Atlas 300卡槽位

  1. 通过BMC界面更改风扇转速为高性能模式,提升服务器整体散热性。

图3 BMC界面调速模式

Atlas 800 AI服务器(型号 9000 9000 )是基于华为鲲鹏 )是基于华为鲲鹏 )是基于华为鲲鹏 920+ 920+ 昇腾 910 处理器的 处理器的 AI 训练服务 器,实现完全自主可控广泛应用于深度学习模型开发和 器,实现完全自主可控广泛应用于深度学习模型开发和 器,实现完全自主可控广泛应用于深度学习模型开发和 器,实现完全自主可控广泛应用于深度学习模型开发和 器,实现完全自主可控广泛应用于深度学习模型开发和 器,实现完全自主可控广泛应用于深度学习模型开发和 器,实现完全自主可控广泛应用于深度学习模型开发和 AI 训练服务场景。该器 训练服务场景。该器 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 面向公有云、互联网运营商政府交通金融校电力等领域,具计算 密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售密度、能效比网络带宽易扩展管理等优点,支 持单机和整柜销售持风冷和液应用,满足企业机房部署大规模数据中心集群。 持风冷和液应用,满足企业机房部署大规模数据中心集群。 持风冷和液应用,满足企业机房部署大规模数据中心集群。 持风冷和液应用,满足企业机房部署大规模数据中心集群。 持风冷和液应用,满足企业机房部署大规模数据中心集群。 持风冷和液应用,满足企业机房部署大规模数据中心集群。 持风冷和液应用,满足企业机房部署大规模数据中心集群。 持
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值