清风 001
这个作者很懒,什么都没留下…
展开
-
【DCGMI专题2】---DCGMI 常用命令详解与生产实例分析
数据中心及时将该 GPU 从可用资源池中移除,更换了新的 GPU,并对该故障 GPU 进行返厂维修,同时对其他 GPU 进行了预防性的深度检测,避免了类似问题的大规模出现,保证了云计算服务的稳定性和可靠性。在训练过程中,通过查看该文件数据,发现 GPU 温度在训练后期持续升高接近温度阈值,运维人员及时检查服务器散热系统,发现有一个风扇转速异常,及时进行了更换,避免了因 GPU 过热导致降频,保证了训练任务的顺利进行。:在一个云计算数据中心,某用户反馈使用分配的 GPU 进行计算任务时,频繁出现计算错误。原创 2025-05-20 16:03:19 · 67 阅读 · 0 评论 -
【DCGMI专题1】---DCGMI 在 Ubuntu 22.04 上的深度安装指南与原理分析(含架构图解)
DCGMI(Data Center GPU Manager Interface)是 NVIDIA 数据中心 GPU 管理套件的核心工具,基于 **NVIDIA Management Library (NVML)** 构建,提供对 GPU 集群的实时监控、配置管理和故障诊断能力。硬件监控:获取 GPU 温度、功耗、显存利用率等 100 + 指标;服务管理:通过实现 daemon 化运行;远程控制:支持通过 REST API 或 CLI 跨节点管理;生态集成。原创 2025-05-20 15:34:26 · 214 阅读 · 0 评论 -
【GPFS专题5】---IBM Spectrum Scale (GPFS) 日常运维命令大全
掌握这些命令是有效管理 GPFS 集群的基础。实际生产环境中,建议结合自动化脚本和监控系统(如 IBM Storage Insights)实现高效运维。定期备份配置、监控性能指标,并进行灾备演练,是保障数据安全和系统稳定的关键。原创 2025-05-19 15:12:03 · 237 阅读 · 0 评论 -
【GPFS专题4】---IBM Spectrum Scale (GPFS) 原理详解
IBM Spectrum Scale(原名为 GPFS,General Parallel File System)是一种高性能、分布式的集群文件系统,专为大规模数据共享和并行访问设计。它允许多个客户端同时访问共享文件,提供高可用性、容错性和扩展性,广泛应用于高性能计算(HPC)、大数据分析、AI 训练和企业级存储场景。IBM Spectrum Scale 通过分布式架构、并行访问和智能数据管理,为企业提供了高性能、高可用、可扩展的存储解决方案。原创 2025-05-19 14:42:58 · 73 阅读 · 0 评论 -
【GPFS专题3】---GPFS故障实际生产故障处理分析
节点 11 的 RAID 硬件故障是问题的根源节点 15 的 pdisk 状态异常是故障传播和自动恢复机制的结果建议优先处理节点 11 的 RAID 控制器问题(检查物理磁盘、更换故障部件),同时监控节点 15 的 pdisk 状态,确保数据已成功迁移且集群恢复正常。原创 2025-05-19 14:09:03 · 120 阅读 · 0 评论 -
【GPFS专题2】---命令2-IBM Spectrum Scale(以前称为 GPFS)-mmhealth cluster show NATIVE_RAID
是 IBM Spectrum Scale(原 GPFS)中用于监控集群内。原创 2025-05-19 14:02:21 · 33 阅读 · 0 评论 -
【GPFS专题1】---命令1-IBM Spectrum Scale(以前称为 GPFS)-mmvdisk pdisk list
列出物理磁盘信息:该命令用于获取物理磁盘的详细列表。指定存储池--rg all参数表示列出所有存储池中的物理磁盘。如果不指定此参数,命令可能只列出默认存储池中的磁盘。筛选不正常状态--not-ok参数用于筛选出状态不正常的物理磁盘。正常状态的磁盘将不会出现在结果中,这有助于快速定位有问题的磁盘。显示详细信息-L参数用于显示详细的磁盘信息,包括磁盘的各种属性和状态。原创 2025-05-19 13:58:13 · 434 阅读 · 0 评论 -
用大白话讲透 CPU 的 NUMA 架构:从 “抢内存” 到 “分组协作” 的进化史
当 CPU 核心数量从个位数涨到成百上千,传统 UMA 的 “大一统” 架构失效,必须通过 NUMA “分组管理”,让每个小组自治,减少全局冲突。一个班级 50 人可以统一管理(UMA),但一个学校 5000 人必须分年级、分班(NUMA),每个班有自己的班主任(本地内存控制器),校长(互联总线)只处理跨班事务。原创 2025-04-17 14:13:50 · 275 阅读 · 0 评论 -
查看 GPU 与 NUMA 节点的绑定关系
一步到位:运行,直接查看 GPU 对应的 NUMA 节点(如验证逻辑用确认内核绑定。用hwloc-ls可视化硬件拓扑,交叉验证。原创 2025-04-17 11:25:43 · 95 阅读 · 0 评论 -
nvidia-H200跑cuda-samples报错二
通过修复依赖,所有 CUDA 示例将正常编译。如果仅需核心 CUDA 功能,可忽略这些警告。,但会导致部分依赖 OpenGL/GLUT/FreeImage 的示例(如。等警告表明系统缺少 CUDA 示例所需的图形和图像库依赖。所有依赖 OpenGL/GLUT/FreeImage 的示例将正常构建。若输出显示 OpenGL 窗口并与 CUDA 交互,则依赖问题已解决。此时 OpenGL/GLUT/FreeImage 相关警告应消失。如果不需要图形相关示例,可通过。运行图形相关示例(如。原创 2025-04-15 15:20:20 · 69 阅读 · 0 评论 -
nvidia-H200跑cuda-samples报错一
而此架构在当前 CUDA 12.4 环境下不兼容 NVIDIA H100 GPU(实际需。通过明确指定与硬件匹配的 CUDA 架构参数,可解决此编译兼容性问题。编译错误源于 CMake 配置中错误指定了 CUDA 架构。以下为排查和解决 CUDA 编译错误。需修正架构参数以匹配硬件支持。H100 GPU 的计算能力为 。原创 2025-04-15 15:14:44 · 184 阅读 · 0 评论 -
LLDP(Link Layer Discovery Protocol)原理深度解析
【代码】LLDP(Link Layer Discovery Protocol)原理深度解析。原创 2025-03-26 17:37:12 · 182 阅读 · 0 评论 -
LACP(Link Aggregation Control Protocol)原理深度解析
优势即插即用:动态协商减少人工配置弹性扩展:带宽随物理链路增加而线性扩展高可靠性:自动故障切换保障业务连续性挑战协商延迟:默认 30 秒超时可能影响关键业务哈希算法限制:传统五元组可能导致流量不均跨设备聚合:需与 MLAG 等技术协同工作。原创 2025-03-26 16:53:57 · 162 阅读 · 0 评论 -
DHCP(Dynamic Host Configuration Protocol)原理深度解析
价值提升效率:减少手动配置工作量增强灵活性:支持动态地址回收与重用优化管理:集中监控地址使用情况挑战地址冲突:需结合 ARP 检测机制网络延迟:跨网段请求增加传输时间安全性:易受伪造请求攻击(需配合 DHCP Snooping)原创 2025-03-26 16:24:27 · 90 阅读 · 0 评论 -
DHCP 中继配置深度解析(基于 Junos OS)
核心问题:中继代理地址使用虚拟 IP,导致 DHCP 响应路径依赖 MLAG MAC 代理,在 PXE 初始化阶段(无 bonding)时无法及时建立通信。修复方案修正中继源地址:使用交换机真实接口 IP(10.2.1.251/252)固定 MLAG 虚拟 MAC:两台交换机配置相同虚拟 MAC,避免 ARP 震荡启用追踪日志:通过定位具体丢包阶段优化后效果DHCP 请求直接通过真实接口 IP 转发响应报文无需经过 MLAG MAC 代理,缩短传输路径。原创 2025-03-26 16:09:22 · 48 阅读 · 0 评论 -
MLAG(Multi-Chassis Link Aggregation Group)原理深度解析
高可用性:双节点冗余,消除单点故障线性扩展:带宽随物理链路增加而线性扩展简化管理:上联设备仅需配置一个聚合组协议兼容性:支持 BGP、OSPF、VRRP 等多种协议挑战配置复杂度:需同步多台设备的配置和状态故障排查:跨设备的流量路径难以直观分析性能开销:配置同步和心跳检测消耗系统资源厂商兼容性:不同厂商 MLAG 实现可能存在差异。原创 2025-03-26 16:02:30 · 150 阅读 · 0 评论 -
Mellanox 网卡的工作模式自动化修改脚本(实战生产,复制即可使用)
目录1. 初始化与日志记录2. 获取所有 Mellanox 网卡设备3. 定义颜色变量4. 标记是否需要重启5. 遍历所有网卡并检查配置6. 判断是否需要重启系统7.生产脚本,复制即可直接使用8. 总结与脚本作用主要功能适用场景注意事项原创 2025-03-24 10:42:53 · 308 阅读 · 0 评论 -
【nvidia-B200 生产环境】NVIDIA 570.124.06+Cuda12.8 Ubuntu22.04 nccl-test 一键部署脚本(免修改复制即用)
目录1. 初始化与日志记录2. 安装基础工具与配置更新3. NVIDIA 驱动安装 570.124.064. 安装 Mellanox OFED 24.10-2.1.8.05. 安装 CUDA 12.86. 安装 NCCL 和测试7. 配置 rc.local 和其他优化8. B200 单独步骤9. 最终测试与重启10. 完整生产脚本,复制即可直接使用总结 功能: 设置日志目录和日志文件路径。 使用 命令将标准输出和错误输出同时写入日志文件和终端。 记录脚本开始时间,并计算开始的秒数原创 2025-03-24 10:35:29 · 1013 阅读 · 0 评论 -
NVIDIA-B200 OFED安装失败解决步骤,实际生产环境故障一例
,需先卸载这些依赖包,才能继续安装新版驱动。原创 2025-03-17 15:40:03 · 155 阅读 · 1 评论 -
【nvidia-H200 生产实战】Ubuntu24.04 NVIDIA 570.124.06+Cuda12.8 nccl-test 一键部署(免修改复制即用)
【代码】Ubuntu 24.04安装nvidia H200 驱动,并进行nccl-test测试,生产实战部署脚本。原创 2025-03-14 17:39:34 · 446 阅读 · 0 评论 -
ubuntu24.04执行nvidia-smi报错,实际生产报错,处理过程
报错日志。原创 2025-03-14 10:30:45 · 440 阅读 · 0 评论 -
【H100 生产实战】Ubuntu22.04 NVIDIA 550.144.03 全家桶一键部署(CUDA12.1+NCCL2.18+OFED5.1,复制即用)
【代码】ubuntu22.04安装GPU nvidia、nccl-tests、cuda、ofed驱动全家桶(实际生产环境,复制即可使用20250315)原创 2025-03-13 11:44:59 · 495 阅读 · 0 评论 -
ubuntu-drivers-common 包功能详解
(如 NVIDIA/AMD 显卡驱动、无线网卡驱动等)。该包是 Ubuntu 系统中用于。的核心工具,尤其针对。原创 2025-03-12 18:37:24 · 286 阅读 · 0 评论 -
NVIDIA-GPU驱动降级-(实际生产故障一例)
按照以上步骤操作,你应该可以解决无法安装指定版本 NVIDIA 驱动的问题。先更新本地的软件包索引,这样系统就能获取到最新的软件包信息。版本,你可以从列出的可用版本中选择一个进行安装。下载对应的驱动,然后按照官方文档的指引进行安装。与 NVIDIA 驱动版本不匹配。若软件源里没有合适的版本,你可以从。,而 NVIDIA 驱动版本是。此命令会列出所有可用的版本。在更新软件源之后,查看。替换成你要安装的版本。你遇到的错误信息表明。原创 2025-03-12 16:56:37 · 253 阅读 · 0 评论 -
CentOS 8 配置bond
CentOS 8 网络配置的详细步骤和对应的配置文件内容。原创 2025-02-17 15:25:54 · 323 阅读 · 0 评论 -
二、OpenSM排障----实战生产
当 OpenSM 服务端故障时,客户端可能无法正常访问 InfiniBand 网络。以下是排障步骤,帮助确认是否是服务器故障,以及如何查看客户端日志。使用 测试客户端与服务器之间的连通性:ibping <服务器节点的GUID或LID> 如果无法 ping 通,可能是服务器故障或网络问题。使用 查看客户端 InfiniBand 接口状态:ibstat 确保接口状态为 Active,如果状态为 Down,可能是服务器端未正确配置或故障。使用 查看当前子网管理原创 2025-02-14 10:45:30 · 239 阅读 · 0 评论 -
一、OpenSM 架构部署及原理详解
OpenSM 是 InfiniBand 网络的核心组件,通过自动化的拓扑发现、路由计算和状态维护,确保网络的高效运行。部署时需关注配置文件参数、路由算法选择和高可用性设计,调试时可借助日志和诊断工具快速定位问题。原创 2025-02-14 10:35:53 · 463 阅读 · 0 评论 -
nccl-test报错,实际解决过程-实战生产
共享库文件未找到,这通常意味着 OpenMPI 或其他 MPI 实现的库路径没有正确包含在系统的库路径中。:确保使用的 MPI 版本与 NCCL 测试程序兼容。有时不同版本之间可能存在不兼容的情况。为了永久设置该环境变量,可以将其添加到你的 shell 配置文件(例如。:确保在编译时指定了正确的 MPI 路径。如果找不到,请确保你安装的是正确的版本。:确保所有依赖项都已正确安装。将 OpenMPI 的库路径添加到。如果有任何库未找到,请安装相应的包。通过以上步骤,你应该能够解决。通常,该文件应该位于。原创 2025-02-13 18:57:53 · 230 阅读 · 0 评论 -
modprobe nvidia 报错,-实战生产
没有找到 NVIDIA 驱动模块。这通常是因为驱动程序未为该内核版本正确编译或安装。如果仍然遇到问题,请提供更多的错误信息或日志内容以便进一步诊断。如果仍然无法加载 NVIDIA 模块,可以检查系统日志以获取更多信息。有时,更新 initramfs 文件可以帮助解决问题。如果没有看到当前内核版本对应的条目,可能需要重新构建模块。如果上述方法无效,可以尝试使用 NVIDIA 官方提供的。这些日志可能会提供有关为什么驱动程序无法加载的更多信息。并下载适合你 GPU 型号的驱动程序。如果成功加载,你可以运行。原创 2025-02-13 18:42:30 · 687 阅读 · 0 评论 -
nvidia-smi执行失败,报错-实战生产
出现错误通常意味着系统无法与 NVIDIA 驱动程序进行通信。这可能是由于驱动程序未正确安装、内核模块未加载或存在其他配置问题。原创 2025-02-13 18:38:56 · 368 阅读 · 0 评论 -
MLNX_OFED_LINUX安装失败-实战生产
日志信息来看,脚本在尝试为你的内核版本(6.8.0-1008-nvidia)构建相应的 DEB 包时遇到了一些警告和错误。这些警告主要集中在某些功能不支持当前的内核版本上。原创 2025-02-13 18:20:29 · 751 阅读 · 0 评论 -
[gpu驱动] H200 nvidia-fabricmanager-550升级到nvidia-fabricmanager-565报错,升级步骤
【代码】H200 nvidia-fabricmanager-550升级到nvidia-fabricmanager-565报错,升级步骤。原创 2025-01-20 16:51:05 · 444 阅读 · 0 评论