自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (4)
  • 收藏
  • 关注

原创 chkrootkit进程导致D状态问题解析

进程通常由 I/O 阻塞或资源无响应引起。通过升级工具、优化扫描范围、检查硬件/挂载点,可以有效解决问题。若频繁发生,建议替换为更高效的安全工具(。

2025-04-07 10:59:41 392

原创 GPU服务器集群网络规划方案

本网络规划方案基于高性能计算和存储的需求,采用物理和逻辑分层设计,将管理、存储和计算流量严格隔离;通过合理的IP地址规划和VLAN划分,确保不同网络轨道间无干扰;采用专用硬件(支持RoCE、IB、DCB等特性的交换机)以及自动化配置与监控,保证网络高可用、低延时及易于管理。各项部署前的试点和后续的定期巡检也确保了系统的稳定性和扩展性。该方案既考虑了现有设备情况,也预留了未来扩展的空间,能够满足256台H20 GPU服务器集群在业务管理、存储与计算三轨道上的高性能需求。

2025-03-26 16:03:37 1001

原创 华三网络设备OSPF路由ID更改生效方法

在H3C设备上更改OSPF的Router ID后,需要执行特定操作才能使新配置生效。

2025-03-25 15:45:09 306

原创 华三(H3C)交换机 RoCEv2 优化配置指南

本文档基于华三交换机通用配置,具体实现可能因设备型号、软件版本略有差异,请以官方文档为准。本文档详细说明如何在华三(H3C)交换机上配置。及相关优化参数,包括。

2025-03-25 15:40:29 736

原创 Linux系统执行nvidia-smi命令比较卡,如何优化

nvidia-smi

2025-03-20 19:59:58 364

原创 Ubuntu系统创建新用户、赋予 root 权限,并删除旧用户

在Linux中,可以按照以下步骤创建新用户、赋予 root 权限,并删除旧用户。

2025-03-20 19:54:03 195

原创 Ubuntu22.04三网三IP配置

在Ubuntu 22.04 上,若需要通过连接三个运营商,并使用不同的网卡分别走不同的出口,需要配置。

2025-03-20 16:42:20 698

原创 nvidia_uvm 被占用,nvidia-smi 卡死

系统可以识别到多块 NVIDIA GPU,且驱动模块已加载,但 nvidia_uvmnvidia-smi。

2025-03-19 14:56:30 380

原创 服务器GPU使用率持续100%且功耗异常高

服务器GPU使用率持续100%且功耗异常高,断电重启后仍未恢复,可能涉及以下几方面的故障或异常原因:

2025-03-19 14:11:06 359

原创 Linux服务器EXT4-fs error (device卡死、hang住问题

服务器出现了严重的EXT4文件系统错误,涉及。能修复文件系统,尽快备份重要数据。看看是否有磁盘I/O错误或硬件异常。如果 SMART 检测结果显示有大量。如果服务器频繁卡死,建议。或者挂载外部存储,使用。系统重启时会自动修复。

2025-03-18 13:43:03 632

原创 IB网络如何通过master修改IB交换机的hostname

在 InfiniBand (IB) 网络中,。这里涉及到的是 IB 交换机的字段,它通常用于标识设备的位置或用途,类似于以太网交换机的 hostname。

2025-03-18 12:29:32 576

原创 Ubuntu系统如何查看自启动脚本

cat /etc/cron.d/文件名。

2025-03-14 15:53:53 321

原创 内网解析与网络故障处理记录与心得

在日常的网络维护中,遇到了。

2025-03-13 14:58:26 425

原创 PVE(Proxmox VE)主机上已经存在虚拟机如何加入集群

加入 PVE 集群的时间主要受和影响,通常可以完成,但具体时间可能有所不同。

2025-03-07 12:29:45 466

原创 如何恢复软RAID5而不影响硬盘数据

(Level、设备数、Chunk Size等),使用。若上述步骤无法解决,可能需专业数据恢复服务介入。若成功,RAID将挂载,数据可访问。等信息,确保四块盘属于同一阵列。

2025-03-07 09:42:16 465

原创 Ubuntu系统内核驱动CUDA版本清单

这份清单仅为常见组合的参考,实际环境中可能因硬件支持、软件需求(如深度学习框架对 CUDA 版本的要求)以及个人维护策略而有所不同。建议在部署前参考最新的 NVIDIA CUDA Toolkit Release Notes 和 Ubuntu 官方发布说明,确保所选驱动与 CUDA 版本的最佳兼容性。

2025-03-06 10:44:31 931

原创 IB网络下不同租户业务隔离方案

IB(InfiniBand)网络隔离可以在不同的通信模式下实现,其中包括 IPoIB(IP over InfiniBand)通信模式。在 IPoIB 模式下,InfiniBand 网络可以承载 IP 数据包,使得基于 IP 的应用程序能够在 InfiniBand 网络上进行通信。在这种情况下,IB 网络隔离通常指通过配置 Partition Key(PKey)来实现不同的租户或应用程序之间的网络隔离。然而,IB 网络隔离并不仅限于 IPoIB 模式。

2025-03-05 16:50:16 872

原创 GPU服务器崩溃问题排查(2)

你的问题很可能是 NVIDIA驱动与内核不兼容 或 Ceph存储I/O超时,导致 Spinlock死锁 或 内核崩溃。强制重启服务器,观察是否能正常进入系统。查看日志 (journalctl -k -b -1) 确认崩溃原因。升级NVIDIA驱动 或 尝试禁用NVIDIA模块 看是否解决问题。检查Ceph存储 是否有异常 ceph -s。限制 nvidia-smi 监控频率 避免频繁锁争用。先升级NVIDIA驱动 并 与当前Linux内核匹配。

2025-03-05 14:52:49 1141

原创 GPU服务器崩溃问题排查(1)

一台服务器在运行使用中失联,通过BMC远程kvm查看界面卡死,屏幕显示如下信息:从提供的日志来看,服务器可能因为 内核崩溃(kernel panic) 而失联。日志中的以及表明问题可能与 Ceph 文件系统 相关。

2025-03-05 14:32:56 329

原创 一台服务器有多个IB网络,如何区分不同的IB网络

用 ibstat 查看每个 IB 端口的 LID用 sminfo -D 1 和 sminfo -D 2 分别查询 SM用 ibswitches -C mlx5_0 和 ibswitches -C mlx5_1 查询交换机用 ibnetdiscover 获取完整的 IB 拓扑用 ibdiagnet -r 分析 IB 网络结构。

2025-03-03 11:32:04 419

转载 NVIDIA Mellanox 网卡安装使用手册(中文简易版)

注:本案例交换机SB7800已经开启子网管理器功能,交换机端口速率为EDR 100Gb/s,网卡CX5也是 EDR 100Gb/s,由于线缆是FDR 56G,所以上图的Rate:56,并没有达到100。7.2、验证IB底层网络连通性,使用ibping命令,在nodeb节点启用服务端,noded开启客户端,使用ib网络的 lid 号进行验证。6、完成以上步骤,使用命令 mlnx_tune 检查,所有状态都是 OK,则网卡运行环境OK。

2025-02-27 16:04:54 240

原创 [Mellanox] 安装MFT并更改网卡IB模式为以太模式

Notice:这里需要特别注意,更改完网卡模式部分服务器重启后IB网卡并不能工作在以太模式(目前发现H100和H800都不行),需要服务器强行断开电源半分钟后再加电启动才能正常切换到以太模式。如检查到缺失的软件包,将在会命令行提示,请按照提示操作。MFT是一套管理Mellanox网卡的工具,也是MLEX_OFED中的一部分。1、打开驱动下载页面,选择对应操作系统和版本,cpu架构,下载iso、tar包或者源码包都可以。命令再次查看网卡驱动版本,确保系统重启后新驱动依然生效。

2025-02-27 11:53:45 695

原创 在Ubuntu22.04上使用iptables策略控制局域网服务器访问

传统的 iptables用户空间管理工具现在配置 nftables 内核后端,同时还提供了新的 nft 用户空间工具,以允许创建传统 iptables范例不支持的更灵活的规则。如果你同时使用IPv6规则,可以将上述命令中的v4替换为v6,并相应地将规则保存到/etc/iptables/rules.v6文件中。可以将iptables规则转换为nft通过iptables-translate和ipt6ables-translate。

2025-02-26 14:26:18 277

原创 NAT回流,内网主机无法通过外网IP访问内网服务器问题

NAT回流是指服务器提供NAT映射,即满足公网用户通过公网地址访问;也满足内网用户通过公网地址访问,内网用户访问的数据能正常返回就是数据回流功能。出现Nat回流这是正常现象,任何设备只要做了端口映射,都绕不开这个问题,因为TCP/IP协议栈就是这样工作的。按理再做完这一步以后,nat回流的问题就应该解决了,但是实际情况是并没有生效。经过分析,原因就是做好端口映射以后,内部服务器通过外网IP访问内部server的时候流量没有回流到防火墙导致的。

2025-02-26 13:04:01 782

原创 宝德服务器板载raid与系统的兼容性问题

一、集成RAID 配置。 按<↑>,<↓>键光标上下移动,在RAID Level 处选择所需要建立阵列的级别,可选项有RAID0、RAID1 和RAID5。选择完阵列级别及所要做阵列的硬盘后,敲Create Volume选项按提示选择‘Y’创建阵列。思考:如果后续大批量部署,需要联系供应商增加raid卡来解决板载raid与系统不兼容的问题。或许也可以升级bios等固件的方式来解决,这有待进一步验证。二、集成raid与系统的兼容性。

2025-02-26 11:15:47 430

原创 Pnet抓包工具Wireshark提示end of file on pipemagic during open

网络工程师在工作或者学习中,利用pnet做实验及项目验证的时候,使用Wireshark工具的话会出现end of file on pipe magic during open的提示。那么如何处理呢?请看我的本次分享。

2022-01-30 10:57:13 14278

国开ERP原理与应用形考实验1-5.zip

实验1 订单录入与批次需求计划 实验2 采购与应付管理 实验3 生产管理实验 实验4 销售与应收管理实验 实验5 月底结账实验

2021-12-15

国开微机系统与维护形考实验报告1-12.zip

1-微机应用现状调研实训报告 2-认识微机的主要部件实训报告 3-多媒体微机配置市场调研实训报告 4-微机配置方案设计实训报告 。。。 共计12套实验报告文档

2021-11-25

国开MySQL数据库应用形考实验1-4.zip

MySQL数据库应用必做的总共四个实验训练,均有最新的实验步骤截图: 1-实验训练1:在MySQL中创建数据库和表.docx 2-实验训练2:数据查询操作.docx 3-实验训练3:数据增删改操作.docx 4-实验训练4:数据库系统维护.docx CMD操作截图、MySQL Workbench操作截图均有,物美价廉

2021-11-25

淘宝店铺右侧促销代码

古朴典雅风格的茶叶模板,主要是作为茶叶网站模板,并且是茶叶促销模板。本模板用于淘宝网店店铺的首页促销区,所以你不是淘宝旺铺的卖家有些功能不能完全显示。 如果你是做茶叶网店的,该模板一样可以适用,模板为褐色为主调,以泡好的茶具为主题,配上古装的赵雅芝作…

2011-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除