公司新进了几台A800,记录一些学习内容。
温度监控:
1.安装lm-sensors
sudo apt-get install lm-sensors
2.配置
sudo sensors-detect
配置过程如下:
你执行以上命令后会出现一些基础信息
# 传感器检测版本 3.6.0
# 系统: XFUSION G5500 V6 [Whitley]
# Board: XFUSION BC13MBSD
# Kernel: 5.15.0-67-generic x86_64
# 处理器 Intel(R) Xeon(R) Platinum 8352V CPU @ 2.10GHz (6/106/6)该程序将帮助您确定需要加载哪些内核模块才能最有效地使用 lm_sensors。
以最有效地使用 lm_sensors。通常情况下建议接受所有问题的默认答案、
除非你知道自己在做什么。
接下来会出现一系列设置语句
扫描桥、CPU 或内存控制器传感器,这里我选择的yes
扫描I/O传感器
一些系统(主要是服务器)实施了 IPMI,这是一套通用接口IPMI 是一套通用接口,可通过它检索系统健康数据等。我们首先尝试从 SMBIOS 获取信息。如果找不到我们就必须从任意 I/O 端口读取信息,以探查此类接口。接口。这通常是安全的。您想扫描 IPMI接口?(是/否): 是
一些硬件监控芯片可通过 ISA I/O 端口访问。我们必须写入任意 I/O 端口才能对其进行探测。这通常但通常是安全的。是的,即使没有 ISA 插槽,您也有 ISA I/O 端口ISA 插槽!要扫描 ISA I/O 端口吗?(是/否): 是
最后,我们可以探测 I2C/SMBus 适配器上连接的硬件监控设备。这是最危险的部分,虽然在大多数系统上都能正常工作在大多数系统上运行良好,但也有报告称它会在某些系统上造成麻烦。在某些系统上造成麻烦。现在要探测 I2C/SMBus 适配卡吗?(是/否):是
现在要探测 I2C/SMBus 适配器吗?(是/否):是
为设备 0000:00:1f.4: Lewisburg (PCH) 使用驱动程序 "i2c-i801"。
最后就是一系列扫描了,我都选的yes - -
3.运行
sensors
4.结果分析
power1: 系统当前消耗的功率是 873 瓦。
asic: GPU核心温度为 62.0°C,临界温度为 105.0°C,历史最高温度为 69.0°C。
Package id 1: CPU的封装温度为 45.0°C,最高警戒温度为 83.0°C,临界温度为 93.0°C。
各个核心的温度都在 36.0°C 到 43.0°C 之间,均低于警戒和临界温度。
sensor0: 温度为 54.0°C,临界温度为 105.0°C,历史最高温度为 58.0°C。
Module1: 温度为 45.0°C,临界温度为 90.0°C,历史最高温度为 50.0°C。
Composite: NVMe SSD的组合温度为 26.9°C,临界温度为 87.8°C。
各个传感器的温度在 26.9°C 到 37.9°C 之间,均在安全范围内。
如果你想获取相应的设备信息可以执行以下指令
安装
sudo apt update
sudo apt install nvme-cli
查看 NVMe 设备详细信息
sudo nvme list
查看特定 NVMe 设备的详细信息
sudo nvme id-ctrl /dev/nvme0n1
查看设备的PCI信息,例如nvme-pci-4b00(温度传感器监测结果上可见型号)
sudo lspci -vv -s 4b:00.0
可以得到以下结果
查看GPU状态质量:
1.nvidia-smi
2.nvtop