- 博客(36)
- 资源 (4)
- 收藏
- 关注
原创 InfiniBand 交换机端口启停操作手册(新版 OFED)
本文介绍了使用OFED工具管理InfiniBand(IB)网络端口状态的详细流程。主要包括:1)安装必要工具包;2)通过ibswitches查询交换机LID/GUID;3)使用ibportstate命令查询、禁用/启用端口状态;4)通过iblinkinfo验证端口连接。操作注意事项包括:禁止关闭SM管理端口、操作前后备份网络拓扑、准确记录操作信息。流程关键步骤为:查询→修改状态→验证→记录,需确保LID/GUID和端口号准确,避免业务中断。
2025-08-27 15:50:11
490
原创 IB 网络链路检测手册(完整版)
摘要:本文提供IB网络故障排查指南,涵盖基础检查、端口状态、错误统计、链路质量等关键步骤。通过ibstat、iblinkinfo等工具检查网络拓扑和端口状态,使用perfquery、mlxlink分析错误和物理层性能。针对延迟波动、带宽不足等问题,建议采用ib_read_lat测试和ibdiagnet诊断。常见故障定位思路包括:端口down检查对端状态,误码高需更换模块,频繁掉线排查HCA或光模块。
2025-08-27 15:00:00
680
原创 Linux系统无故关机排查与处理文档
服务器无故关机重启的排查与处理 摘要:服务器出现无故关机重启现象时,系统日志无异常但BMCSEL日志显示电源单元反复掉电和恢复。主要原因是PSU模块老化、双电源冗余异常、机房供电问题或服务器功耗过高。排查步骤包括检查BMCSEL日志、PSU状态、供电环境及服务器功耗。短期措施可更换故障PSU或检查电源线,长期需更换更高功率PSU或优化负载。最终解决方案是定位并修复PSU或供电环境问题,必要时更换硬件。
2025-08-20 15:39:30
757
原创 Linux 硬盘故障排查与处理文档
本文介绍了系统启动后根分区挂载为只读状态的排查流程。主要步骤包括:检查挂载状态和系统日志、验证磁盘分区及文件系统、使用SMART工具检测磁盘健康、扫描坏块、修复文件系统等。关键发现点包括I/O错误日志、未知文件系统类型、坏道数量等指标。处理建议强调临时修复后仍需更换故障硬盘,特别提醒RAID环境需重建阵列。最后指出只读挂载是系统保护机制,文件系统修复仅能暂时缓解,长期稳定需更换硬件。
2025-08-20 15:36:26
741
原创 RoCE 网络 LLDP 线缆顺序核查手册(完整版+脚本版)
摘要:本文介绍了在RoCE网络中通过LLDP协议验证网卡端口连接正确性的方法。主要内容包括:1)LLDP工具安装与配置;2)基础检查命令(单个端口);3)自动化表格检查脚本(支持批量验证);4)增强版脚本(包含交换机名和端口信息)。通过比对本地网关IP与LLDP获取的对端管理IP,可快速识别线缆接错问题。文末提供了完整检查脚本及常见问题解决方案,适用于H3C/Huawei/Cisco等主流交换机环境。该方案能有效确保RDMA网络的高性能通信。
2025-08-18 09:33:45
386
原创 AMD 主板 NPS 设置与 8卡 RTX 4090 NCCL 性能调优手册
摘要:在AMD EPYC平台搭建8卡RTX4090 AI服务器时,合理设置NPS(NUMA Per Socket)参数对提升NCCL通信效率至关重要。NPS=4(每2个CCD一个NUMA节点)能实现最优NUMA隔离,相比NPS=1/2可降低延迟20-50%。建议通过BIOS设置NPS=4,并确保GPU与IB网卡位于同一NUMA节点。测试显示该配置可使all_reduce带宽提升30%以上,推荐配合numactl绑定和NCCL拓扑优化使用。
2025-08-01 10:48:02
870
原创 H3C防火墙基于VRF和路由复制实现AWS DX多租户隔离配置手册
机房内部所有 node 节点位于统一的内部网络,通过默认 VRF 访问公网。而由于 AWS 上存在多个租户,租户之间的地址可能重叠,因此防火墙使用了 VRF 隔离 BGP 连接。为了简化 node 节点的配置,并避免将它们划入多个 VRF,防火墙通过 route-replicate 功能将全局路由表中的静态路由导入到指定租户的 VRF 中,实现租户对机房 node 节点的访问,而无需更改 node 本身的网关配置。
2025-07-15 15:25:54
606
原创 PCIe链路降级故障分析与解决手册(Mellanox ConnectX-6 网卡带宽降级案例)
摘要:Ubuntu系统中200Gbps的Mellanox ConnectX-6网卡性能异常,通过lspci命令发现PCIe链路从x16降级至x1。经排查确定是上游Broadcom PEX88048 PCIe交换芯片连接问题,而非网卡本身故障。重新拔插PCIe线缆后链路恢复正常,带宽限制问题解决。建议定期检查PCIe链路状态和物理连接,性能异常时应优先考虑链路降级可能性。关键诊断命令包括lspci检查链路状态、dmesg查看内核日志、物理槽位定位等。
2025-06-26 18:00:08
1847
2
原创 Mellanox ConnectX-6 网卡固件升降级指南
这是一个完整的NVIDIA Mellanox网卡固件升级/降级操作指南。主要内容包括:1. 环境准备(安装工具);2. 固件获取与解压;3. 网卡信息查询;4. 使用flint工具执行升级/降级操作;5. 无需重启的固件生效方法;6. 提供批量操作脚本;7. 验证方法及注意事项。特别强调:mlxfwmanager不支持降级,必须使用flint工具
2025-06-24 15:15:41
1406
原创 IPMI SOL (Serial over LAN) 排错与配置手册
SOL(Serial over LAN)是基于 IPMI 的远程串口重定向技术,可用于远程查看服务器 BIOS、自启动信息和登录界面。使用命令即可建立远程串口会话。本手册用于排查当使用 SOL 时没有显示、断开连接、无响应等常见问题。
2025-05-28 17:49:44
1159
原创 chkrootkit进程导致D状态问题解析
进程通常由 I/O 阻塞或资源无响应引起。通过升级工具、优化扫描范围、检查硬件/挂载点,可以有效解决问题。若频繁发生,建议替换为更高效的安全工具(。
2025-04-07 10:59:41
476
原创 GPU服务器集群网络规划方案
本网络规划方案基于高性能计算和存储的需求,采用物理和逻辑分层设计,将管理、存储和计算流量严格隔离;通过合理的IP地址规划和VLAN划分,确保不同网络轨道间无干扰;采用专用硬件(支持RoCE、IB、DCB等特性的交换机)以及自动化配置与监控,保证网络高可用、低延时及易于管理。各项部署前的试点和后续的定期巡检也确保了系统的稳定性和扩展性。该方案既考虑了现有设备情况,也预留了未来扩展的空间,能够满足256台H20 GPU服务器集群在业务管理、存储与计算三轨道上的高性能需求。
2025-03-26 16:03:37
1696
原创 华三(H3C)交换机 RoCEv2 优化配置指南
本文档基于华三交换机通用配置,具体实现可能因设备型号、软件版本略有差异,请以官方文档为准。本文档详细说明如何在华三(H3C)交换机上配置。及相关优化参数,包括。
2025-03-25 15:40:29
2184
原创 nvidia_uvm 被占用,nvidia-smi 卡死
系统可以识别到多块 NVIDIA GPU,且驱动模块已加载,但 nvidia_uvmnvidia-smi。
2025-03-19 14:56:30
1601
原创 服务器GPU使用率持续100%且功耗异常高
服务器GPU使用率持续100%且功耗异常高,断电重启后仍未恢复,可能涉及以下几方面的故障或异常原因:
2025-03-19 14:11:06
1043
原创 Linux服务器EXT4-fs error (device卡死、hang住问题
服务器出现了严重的EXT4文件系统错误,涉及。能修复文件系统,尽快备份重要数据。看看是否有磁盘I/O错误或硬件异常。如果 SMART 检测结果显示有大量。如果服务器频繁卡死,建议。或者挂载外部存储,使用。系统重启时会自动修复。
2025-03-18 13:43:03
3500
原创 IB网络如何通过master修改IB交换机的hostname
在 InfiniBand (IB) 网络中,。这里涉及到的是 IB 交换机的字段,它通常用于标识设备的位置或用途,类似于以太网交换机的 hostname。
2025-03-18 12:29:32
850
2
原创 如何恢复软RAID5而不影响硬盘数据
(Level、设备数、Chunk Size等),使用。若上述步骤无法解决,可能需专业数据恢复服务介入。若成功,RAID将挂载,数据可访问。等信息,确保四块盘属于同一阵列。
2025-03-07 09:42:16
1018
原创 Ubuntu系统内核驱动CUDA版本清单
这份清单仅为常见组合的参考,实际环境中可能因硬件支持、软件需求(如深度学习框架对 CUDA 版本的要求)以及个人维护策略而有所不同。建议在部署前参考最新的 NVIDIA CUDA Toolkit Release Notes 和 Ubuntu 官方发布说明,确保所选驱动与 CUDA 版本的最佳兼容性。
2025-03-06 10:44:31
1738
原创 IB网络下不同租户业务隔离方案
IB(InfiniBand)网络隔离可以在不同的通信模式下实现,其中包括 IPoIB(IP over InfiniBand)通信模式。在 IPoIB 模式下,InfiniBand 网络可以承载 IP 数据包,使得基于 IP 的应用程序能够在 InfiniBand 网络上进行通信。在这种情况下,IB 网络隔离通常指通过配置 Partition Key(PKey)来实现不同的租户或应用程序之间的网络隔离。然而,IB 网络隔离并不仅限于 IPoIB 模式。
2025-03-05 16:50:16
1235
原创 GPU服务器崩溃问题排查(2)
你的问题很可能是 NVIDIA驱动与内核不兼容 或 Ceph存储I/O超时,导致 Spinlock死锁 或 内核崩溃。强制重启服务器,观察是否能正常进入系统。查看日志 (journalctl -k -b -1) 确认崩溃原因。升级NVIDIA驱动 或 尝试禁用NVIDIA模块 看是否解决问题。检查Ceph存储 是否有异常 ceph -s。限制 nvidia-smi 监控频率 避免频繁锁争用。先升级NVIDIA驱动 并 与当前Linux内核匹配。
2025-03-05 14:52:49
2467
原创 GPU服务器崩溃问题排查(1)
一台服务器在运行使用中失联,通过BMC远程kvm查看界面卡死,屏幕显示如下信息:从提供的日志来看,服务器可能因为 内核崩溃(kernel panic) 而失联。日志中的以及表明问题可能与 Ceph 文件系统 相关。
2025-03-05 14:32:56
565
原创 一台服务器有多个IB网络,如何区分不同的IB网络
用 ibstat 查看每个 IB 端口的 LID用 sminfo -D 1 和 sminfo -D 2 分别查询 SM用 ibswitches -C mlx5_0 和 ibswitches -C mlx5_1 查询交换机用 ibnetdiscover 获取完整的 IB 拓扑用 ibdiagnet -r 分析 IB 网络结构。
2025-03-03 11:32:04
1039
转载 NVIDIA Mellanox 网卡安装使用手册(中文简易版)
注:本案例交换机SB7800已经开启子网管理器功能,交换机端口速率为EDR 100Gb/s,网卡CX5也是 EDR 100Gb/s,由于线缆是FDR 56G,所以上图的Rate:56,并没有达到100。7.2、验证IB底层网络连通性,使用ibping命令,在nodeb节点启用服务端,noded开启客户端,使用ib网络的 lid 号进行验证。6、完成以上步骤,使用命令 mlnx_tune 检查,所有状态都是 OK,则网卡运行环境OK。
2025-02-27 16:04:54
1434
原创 [Mellanox] 安装MFT并更改网卡IB模式为以太模式
Notice:这里需要特别注意,更改完网卡模式部分服务器重启后IB网卡并不能工作在以太模式(目前发现H100和H800都不行),需要服务器强行断开电源半分钟后再加电启动才能正常切换到以太模式。如检查到缺失的软件包,将在会命令行提示,请按照提示操作。MFT是一套管理Mellanox网卡的工具,也是MLEX_OFED中的一部分。1、打开驱动下载页面,选择对应操作系统和版本,cpu架构,下载iso、tar包或者源码包都可以。命令再次查看网卡驱动版本,确保系统重启后新驱动依然生效。
2025-02-27 11:53:45
2793
2
原创 在Ubuntu22.04上使用iptables策略控制局域网服务器访问
传统的 iptables用户空间管理工具现在配置 nftables 内核后端,同时还提供了新的 nft 用户空间工具,以允许创建传统 iptables范例不支持的更灵活的规则。如果你同时使用IPv6规则,可以将上述命令中的v4替换为v6,并相应地将规则保存到/etc/iptables/rules.v6文件中。可以将iptables规则转换为nft通过iptables-translate和ipt6ables-translate。
2025-02-26 14:26:18
547
原创 NAT回流,内网主机无法通过外网IP访问内网服务器问题
NAT回流是指服务器提供NAT映射,即满足公网用户通过公网地址访问;也满足内网用户通过公网地址访问,内网用户访问的数据能正常返回就是数据回流功能。出现Nat回流这是正常现象,任何设备只要做了端口映射,都绕不开这个问题,因为TCP/IP协议栈就是这样工作的。按理再做完这一步以后,nat回流的问题就应该解决了,但是实际情况是并没有生效。经过分析,原因就是做好端口映射以后,内部服务器通过外网IP访问内部server的时候流量没有回流到防火墙导致的。
2025-02-26 13:04:01
2750
原创 宝德服务器板载raid与系统的兼容性问题
一、集成RAID 配置。 按<↑>,<↓>键光标上下移动,在RAID Level 处选择所需要建立阵列的级别,可选项有RAID0、RAID1 和RAID5。选择完阵列级别及所要做阵列的硬盘后,敲Create Volume选项按提示选择‘Y’创建阵列。思考:如果后续大批量部署,需要联系供应商增加raid卡来解决板载raid与系统不兼容的问题。或许也可以升级bios等固件的方式来解决,这有待进一步验证。二、集成raid与系统的兼容性。
2025-02-26 11:15:47
817
原创 Pnet抓包工具Wireshark提示end of file on pipemagic during open
网络工程师在工作或者学习中,利用pnet做实验及项目验证的时候,使用Wireshark工具的话会出现end of file on pipe magic during open的提示。那么如何处理呢?请看我的本次分享。
2022-01-30 10:57:13
14983
1
国开MySQL数据库应用形考实验1-4.zip
2021-11-25
国开微机系统与维护形考实验报告1-12.zip
2021-11-25
淘宝店铺右侧促销代码
2011-02-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅