- 博客(26)
- 资源 (4)
- 收藏
- 关注
原创 chkrootkit进程导致D状态问题解析
进程通常由 I/O 阻塞或资源无响应引起。通过升级工具、优化扫描范围、检查硬件/挂载点,可以有效解决问题。若频繁发生,建议替换为更高效的安全工具(。
2025-04-07 10:59:41
392
原创 GPU服务器集群网络规划方案
本网络规划方案基于高性能计算和存储的需求,采用物理和逻辑分层设计,将管理、存储和计算流量严格隔离;通过合理的IP地址规划和VLAN划分,确保不同网络轨道间无干扰;采用专用硬件(支持RoCE、IB、DCB等特性的交换机)以及自动化配置与监控,保证网络高可用、低延时及易于管理。各项部署前的试点和后续的定期巡检也确保了系统的稳定性和扩展性。该方案既考虑了现有设备情况,也预留了未来扩展的空间,能够满足256台H20 GPU服务器集群在业务管理、存储与计算三轨道上的高性能需求。
2025-03-26 16:03:37
1001
原创 华三(H3C)交换机 RoCEv2 优化配置指南
本文档基于华三交换机通用配置,具体实现可能因设备型号、软件版本略有差异,请以官方文档为准。本文档详细说明如何在华三(H3C)交换机上配置。及相关优化参数,包括。
2025-03-25 15:40:29
736
原创 nvidia_uvm 被占用,nvidia-smi 卡死
系统可以识别到多块 NVIDIA GPU,且驱动模块已加载,但 nvidia_uvmnvidia-smi。
2025-03-19 14:56:30
380
原创 Linux服务器EXT4-fs error (device卡死、hang住问题
服务器出现了严重的EXT4文件系统错误,涉及。能修复文件系统,尽快备份重要数据。看看是否有磁盘I/O错误或硬件异常。如果 SMART 检测结果显示有大量。如果服务器频繁卡死,建议。或者挂载外部存储,使用。系统重启时会自动修复。
2025-03-18 13:43:03
632
原创 IB网络如何通过master修改IB交换机的hostname
在 InfiniBand (IB) 网络中,。这里涉及到的是 IB 交换机的字段,它通常用于标识设备的位置或用途,类似于以太网交换机的 hostname。
2025-03-18 12:29:32
576
原创 如何恢复软RAID5而不影响硬盘数据
(Level、设备数、Chunk Size等),使用。若上述步骤无法解决,可能需专业数据恢复服务介入。若成功,RAID将挂载,数据可访问。等信息,确保四块盘属于同一阵列。
2025-03-07 09:42:16
465
原创 Ubuntu系统内核驱动CUDA版本清单
这份清单仅为常见组合的参考,实际环境中可能因硬件支持、软件需求(如深度学习框架对 CUDA 版本的要求)以及个人维护策略而有所不同。建议在部署前参考最新的 NVIDIA CUDA Toolkit Release Notes 和 Ubuntu 官方发布说明,确保所选驱动与 CUDA 版本的最佳兼容性。
2025-03-06 10:44:31
931
原创 IB网络下不同租户业务隔离方案
IB(InfiniBand)网络隔离可以在不同的通信模式下实现,其中包括 IPoIB(IP over InfiniBand)通信模式。在 IPoIB 模式下,InfiniBand 网络可以承载 IP 数据包,使得基于 IP 的应用程序能够在 InfiniBand 网络上进行通信。在这种情况下,IB 网络隔离通常指通过配置 Partition Key(PKey)来实现不同的租户或应用程序之间的网络隔离。然而,IB 网络隔离并不仅限于 IPoIB 模式。
2025-03-05 16:50:16
872
原创 GPU服务器崩溃问题排查(2)
你的问题很可能是 NVIDIA驱动与内核不兼容 或 Ceph存储I/O超时,导致 Spinlock死锁 或 内核崩溃。强制重启服务器,观察是否能正常进入系统。查看日志 (journalctl -k -b -1) 确认崩溃原因。升级NVIDIA驱动 或 尝试禁用NVIDIA模块 看是否解决问题。检查Ceph存储 是否有异常 ceph -s。限制 nvidia-smi 监控频率 避免频繁锁争用。先升级NVIDIA驱动 并 与当前Linux内核匹配。
2025-03-05 14:52:49
1141
原创 GPU服务器崩溃问题排查(1)
一台服务器在运行使用中失联,通过BMC远程kvm查看界面卡死,屏幕显示如下信息:从提供的日志来看,服务器可能因为 内核崩溃(kernel panic) 而失联。日志中的以及表明问题可能与 Ceph 文件系统 相关。
2025-03-05 14:32:56
329
原创 一台服务器有多个IB网络,如何区分不同的IB网络
用 ibstat 查看每个 IB 端口的 LID用 sminfo -D 1 和 sminfo -D 2 分别查询 SM用 ibswitches -C mlx5_0 和 ibswitches -C mlx5_1 查询交换机用 ibnetdiscover 获取完整的 IB 拓扑用 ibdiagnet -r 分析 IB 网络结构。
2025-03-03 11:32:04
419
转载 NVIDIA Mellanox 网卡安装使用手册(中文简易版)
注:本案例交换机SB7800已经开启子网管理器功能,交换机端口速率为EDR 100Gb/s,网卡CX5也是 EDR 100Gb/s,由于线缆是FDR 56G,所以上图的Rate:56,并没有达到100。7.2、验证IB底层网络连通性,使用ibping命令,在nodeb节点启用服务端,noded开启客户端,使用ib网络的 lid 号进行验证。6、完成以上步骤,使用命令 mlnx_tune 检查,所有状态都是 OK,则网卡运行环境OK。
2025-02-27 16:04:54
240
原创 [Mellanox] 安装MFT并更改网卡IB模式为以太模式
Notice:这里需要特别注意,更改完网卡模式部分服务器重启后IB网卡并不能工作在以太模式(目前发现H100和H800都不行),需要服务器强行断开电源半分钟后再加电启动才能正常切换到以太模式。如检查到缺失的软件包,将在会命令行提示,请按照提示操作。MFT是一套管理Mellanox网卡的工具,也是MLEX_OFED中的一部分。1、打开驱动下载页面,选择对应操作系统和版本,cpu架构,下载iso、tar包或者源码包都可以。命令再次查看网卡驱动版本,确保系统重启后新驱动依然生效。
2025-02-27 11:53:45
695
原创 在Ubuntu22.04上使用iptables策略控制局域网服务器访问
传统的 iptables用户空间管理工具现在配置 nftables 内核后端,同时还提供了新的 nft 用户空间工具,以允许创建传统 iptables范例不支持的更灵活的规则。如果你同时使用IPv6规则,可以将上述命令中的v4替换为v6,并相应地将规则保存到/etc/iptables/rules.v6文件中。可以将iptables规则转换为nft通过iptables-translate和ipt6ables-translate。
2025-02-26 14:26:18
277
原创 NAT回流,内网主机无法通过外网IP访问内网服务器问题
NAT回流是指服务器提供NAT映射,即满足公网用户通过公网地址访问;也满足内网用户通过公网地址访问,内网用户访问的数据能正常返回就是数据回流功能。出现Nat回流这是正常现象,任何设备只要做了端口映射,都绕不开这个问题,因为TCP/IP协议栈就是这样工作的。按理再做完这一步以后,nat回流的问题就应该解决了,但是实际情况是并没有生效。经过分析,原因就是做好端口映射以后,内部服务器通过外网IP访问内部server的时候流量没有回流到防火墙导致的。
2025-02-26 13:04:01
782
原创 宝德服务器板载raid与系统的兼容性问题
一、集成RAID 配置。 按<↑>,<↓>键光标上下移动,在RAID Level 处选择所需要建立阵列的级别,可选项有RAID0、RAID1 和RAID5。选择完阵列级别及所要做阵列的硬盘后,敲Create Volume选项按提示选择‘Y’创建阵列。思考:如果后续大批量部署,需要联系供应商增加raid卡来解决板载raid与系统不兼容的问题。或许也可以升级bios等固件的方式来解决,这有待进一步验证。二、集成raid与系统的兼容性。
2025-02-26 11:15:47
430
原创 Pnet抓包工具Wireshark提示end of file on pipemagic during open
网络工程师在工作或者学习中,利用pnet做实验及项目验证的时候,使用Wireshark工具的话会出现end of file on pipe magic during open的提示。那么如何处理呢?请看我的本次分享。
2022-01-30 10:57:13
14278
国开微机系统与维护形考实验报告1-12.zip
2021-11-25
国开MySQL数据库应用形考实验1-4.zip
2021-11-25
淘宝店铺右侧促销代码
2011-02-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人