数据中心运维实战
文章平均质量分 73
深入探讨数据中心的建设、维护和优化策略,提供实际案例分析,帮助读者提升运维能力。
guganly
十年数据中心IT运维经验,网络、系统、硬件IT运维
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ESXi系统盘格式化后的nvme数据盘恢复思路和操作步骤
摘要:本文提供了一份ESXi系统恢复指南,针对系统盘已格式化但NVMe数据盘完好的情况。恢复流程分为三个阶段:1)重新安装相同/更高版本ESXi系统;2)识别并挂载原有VMFS数据存储;3)重新注册虚拟机。详细步骤包括通过命令行检查设备状态、手动挂载数据存储,以及通过Web界面注册虚拟机文件。对于无法自动识别的情况,文章还介绍了使用VMFS恢复工具等进阶修复方法。关键提醒:避免对NVMe磁盘进行格式化或写入操作,以防数据覆盖。原创 2025-12-09 10:30:35 · 777 阅读 · 0 评论 -
VMware vCenter Server Appliance (VCSA) 证书过期修复操作指南
摘要:VCSA出现HTTP500错误通常由MachineSSL/VMCA根证书过期导致。修复步骤包括:1) 通过SSH登录VCSA;2) 运行certificate-manager工具选择选项4重新生成VMCA根证书;3) 填写必要参数(特别是FQDN格式的Hostname);4) 重启服务。完成后需验证服务状态和UI访问,可能需单独修复扩展插件证书。建议定期检查证书有效期并配置告警,避免类似问题发生。注意操作时需确保SSO管理员密码可用,且必须使用FQDN作为主机名。原创 2025-12-09 10:17:08 · 1250 阅读 · 0 评论 -
IB 网络链路检测手册(完整版)
摘要:本文提供IB网络故障排查指南,涵盖基础检查、端口状态、错误统计、链路质量等关键步骤。通过ibstat、iblinkinfo等工具检查网络拓扑和端口状态,使用perfquery、mlxlink分析错误和物理层性能。针对延迟波动、带宽不足等问题,建议采用ib_read_lat测试和ibdiagnet诊断。常见故障定位思路包括:端口down检查对端状态,误码高需更换模块,频繁掉线排查HCA或光模块。原创 2025-08-27 15:00:00 · 724 阅读 · 0 评论 -
Linux系统无故关机排查与处理文档
服务器无故关机重启的排查与处理 摘要:服务器出现无故关机重启现象时,系统日志无异常但BMCSEL日志显示电源单元反复掉电和恢复。主要原因是PSU模块老化、双电源冗余异常、机房供电问题或服务器功耗过高。排查步骤包括检查BMCSEL日志、PSU状态、供电环境及服务器功耗。短期措施可更换故障PSU或检查电源线,长期需更换更高功率PSU或优化负载。最终解决方案是定位并修复PSU或供电环境问题,必要时更换硬件。原创 2025-08-20 15:39:30 · 786 阅读 · 0 评论 -
AMD 主板 NPS 设置与 8卡 RTX 4090 NCCL 性能调优手册
摘要:在AMD EPYC平台搭建8卡RTX4090 AI服务器时,合理设置NPS(NUMA Per Socket)参数对提升NCCL通信效率至关重要。NPS=4(每2个CCD一个NUMA节点)能实现最优NUMA隔离,相比NPS=1/2可降低延迟20-50%。建议通过BIOS设置NPS=4,并确保GPU与IB网卡位于同一NUMA节点。测试显示该配置可使all_reduce带宽提升30%以上,推荐配合numactl绑定和NCCL拓扑优化使用。原创 2025-08-01 10:48:02 · 953 阅读 · 0 评论 -
PCIe链路降级故障分析与解决手册(Mellanox ConnectX-6 网卡带宽降级案例)
摘要:Ubuntu系统中200Gbps的Mellanox ConnectX-6网卡性能异常,通过lspci命令发现PCIe链路从x16降级至x1。经排查确定是上游Broadcom PEX88048 PCIe交换芯片连接问题,而非网卡本身故障。重新拔插PCIe线缆后链路恢复正常,带宽限制问题解决。建议定期检查PCIe链路状态和物理连接,性能异常时应优先考虑链路降级可能性。关键诊断命令包括lspci检查链路状态、dmesg查看内核日志、物理槽位定位等。原创 2025-06-26 18:00:08 · 1894 阅读 · 1 评论 -
IPMI SOL (Serial over LAN) 排错与配置手册
SOL(Serial over LAN)是基于 IPMI 的远程串口重定向技术,可用于远程查看服务器 BIOS、自启动信息和登录界面。使用命令即可建立远程串口会话。本手册用于排查当使用 SOL 时没有显示、断开连接、无响应等常见问题。原创 2025-05-28 17:49:44 · 1193 阅读 · 0 评论 -
chkrootkit进程导致D状态问题解析
进程通常由 I/O 阻塞或资源无响应引起。通过升级工具、优化扫描范围、检查硬件/挂载点,可以有效解决问题。若频繁发生,建议替换为更高效的安全工具(。原创 2025-04-07 10:59:41 · 482 阅读 · 0 评论 -
Linux系统执行nvidia-smi命令比较卡,如何优化
nvidia-smi原创 2025-03-20 19:59:58 · 1268 阅读 · 0 评论 -
Ubuntu系统创建新用户、赋予 root 权限,并删除旧用户
在Linux中,可以按照以下步骤创建新用户、赋予 root 权限,并删除旧用户。原创 2025-03-20 19:54:03 · 720 阅读 · 0 评论 -
Ubuntu22.04三网三IP配置
在Ubuntu 22.04 上,若需要通过连接三个运营商,并使用不同的网卡分别走不同的出口,需要配置。原创 2025-03-20 16:42:20 · 1361 阅读 · 0 评论 -
nvidia_uvm 被占用,nvidia-smi 卡死
系统可以识别到多块 NVIDIA GPU,且驱动模块已加载,但 nvidia_uvmnvidia-smi。原创 2025-03-19 14:56:30 · 1657 阅读 · 0 评论 -
服务器GPU使用率持续100%且功耗异常高
服务器GPU使用率持续100%且功耗异常高,断电重启后仍未恢复,可能涉及以下几方面的故障或异常原因:原创 2025-03-19 14:11:06 · 1065 阅读 · 0 评论 -
Linux服务器EXT4-fs error (device卡死、hang住问题
服务器出现了严重的EXT4文件系统错误,涉及。能修复文件系统,尽快备份重要数据。看看是否有磁盘I/O错误或硬件异常。如果 SMART 检测结果显示有大量。如果服务器频繁卡死,建议。或者挂载外部存储,使用。系统重启时会自动修复。原创 2025-03-18 13:43:03 · 3697 阅读 · 0 评论 -
如何恢复软RAID5而不影响硬盘数据
(Level、设备数、Chunk Size等),使用。若上述步骤无法解决,可能需专业数据恢复服务介入。若成功,RAID将挂载,数据可访问。等信息,确保四块盘属于同一阵列。原创 2025-03-07 09:42:16 · 1038 阅读 · 0 评论 -
Ubuntu系统内核驱动CUDA版本清单
这份清单仅为常见组合的参考,实际环境中可能因硬件支持、软件需求(如深度学习框架对 CUDA 版本的要求)以及个人维护策略而有所不同。建议在部署前参考最新的 NVIDIA CUDA Toolkit Release Notes 和 Ubuntu 官方发布说明,确保所选驱动与 CUDA 版本的最佳兼容性。原创 2025-03-06 10:44:31 · 1767 阅读 · 0 评论 -
GPU服务器崩溃问题排查(2)
你的问题很可能是 NVIDIA驱动与内核不兼容 或 Ceph存储I/O超时,导致 Spinlock死锁 或 内核崩溃。强制重启服务器,观察是否能正常进入系统。查看日志 (journalctl -k -b -1) 确认崩溃原因。升级NVIDIA驱动 或 尝试禁用NVIDIA模块 看是否解决问题。检查Ceph存储 是否有异常 ceph -s。限制 nvidia-smi 监控频率 避免频繁锁争用。先升级NVIDIA驱动 并 与当前Linux内核匹配。原创 2025-03-05 14:52:49 · 2524 阅读 · 0 评论 -
GPU服务器崩溃问题排查(1)
一台服务器在运行使用中失联,通过BMC远程kvm查看界面卡死,屏幕显示如下信息:从提供的日志来看,服务器可能因为 内核崩溃(kernel panic) 而失联。日志中的以及表明问题可能与 Ceph 文件系统 相关。原创 2025-03-05 14:32:56 · 588 阅读 · 0 评论 -
一台服务器有多个IB网络,如何区分不同的IB网络
用 ibstat 查看每个 IB 端口的 LID用 sminfo -D 1 和 sminfo -D 2 分别查询 SM用 ibswitches -C mlx5_0 和 ibswitches -C mlx5_1 查询交换机用 ibnetdiscover 获取完整的 IB 拓扑用 ibdiagnet -r 分析 IB 网络结构。原创 2025-03-03 11:32:04 · 1093 阅读 · 0 评论 -
NVIDIA Mellanox 网卡安装使用手册(中文简易版)
注:本案例交换机SB7800已经开启子网管理器功能,交换机端口速率为EDR 100Gb/s,网卡CX5也是 EDR 100Gb/s,由于线缆是FDR 56G,所以上图的Rate:56,并没有达到100。7.2、验证IB底层网络连通性,使用ibping命令,在nodeb节点启用服务端,noded开启客户端,使用ib网络的 lid 号进行验证。6、完成以上步骤,使用命令 mlnx_tune 检查,所有状态都是 OK,则网卡运行环境OK。转载 2025-02-27 16:04:54 · 1537 阅读 · 0 评论 -
[Mellanox] 安装MFT并更改网卡IB模式为以太模式
Notice:这里需要特别注意,更改完网卡模式部分服务器重启后IB网卡并不能工作在以太模式(目前发现H100和H800都不行),需要服务器强行断开电源半分钟后再加电启动才能正常切换到以太模式。如检查到缺失的软件包,将在会命令行提示,请按照提示操作。MFT是一套管理Mellanox网卡的工具,也是MLEX_OFED中的一部分。1、打开驱动下载页面,选择对应操作系统和版本,cpu架构,下载iso、tar包或者源码包都可以。命令再次查看网卡驱动版本,确保系统重启后新驱动依然生效。原创 2025-02-27 11:53:45 · 2885 阅读 · 1 评论 -
在Ubuntu22.04上使用iptables策略控制局域网服务器访问
传统的 iptables用户空间管理工具现在配置 nftables 内核后端,同时还提供了新的 nft 用户空间工具,以允许创建传统 iptables范例不支持的更灵活的规则。如果你同时使用IPv6规则,可以将上述命令中的v4替换为v6,并相应地将规则保存到/etc/iptables/rules.v6文件中。可以将iptables规则转换为nft通过iptables-translate和ipt6ables-translate。原创 2025-02-26 14:26:18 · 557 阅读 · 0 评论 -
NAT回流,内网主机无法通过外网IP访问内网服务器问题
NAT回流是指服务器提供NAT映射,即满足公网用户通过公网地址访问;也满足内网用户通过公网地址访问,内网用户访问的数据能正常返回就是数据回流功能。出现Nat回流这是正常现象,任何设备只要做了端口映射,都绕不开这个问题,因为TCP/IP协议栈就是这样工作的。按理再做完这一步以后,nat回流的问题就应该解决了,但是实际情况是并没有生效。经过分析,原因就是做好端口映射以后,内部服务器通过外网IP访问内部server的时候流量没有回流到防火墙导致的。原创 2025-02-26 13:04:01 · 2847 阅读 · 0 评论
分享