- 博客(129)
- 资源 (9)
- 收藏
- 关注
原创 LLDP(Link Layer Discovery Protocol)原理深度解析
【代码】LLDP(Link Layer Discovery Protocol)原理深度解析。
2025-03-26 17:37:12
65
原创 LACP(Link Aggregation Control Protocol)原理深度解析
优势即插即用:动态协商减少人工配置弹性扩展:带宽随物理链路增加而线性扩展高可靠性:自动故障切换保障业务连续性挑战协商延迟:默认 30 秒超时可能影响关键业务哈希算法限制:传统五元组可能导致流量不均跨设备聚合:需与 MLAG 等技术协同工作。
2025-03-26 16:53:57
50
原创 DHCP(Dynamic Host Configuration Protocol)原理深度解析
价值提升效率:减少手动配置工作量增强灵活性:支持动态地址回收与重用优化管理:集中监控地址使用情况挑战地址冲突:需结合 ARP 检测机制网络延迟:跨网段请求增加传输时间安全性:易受伪造请求攻击(需配合 DHCP Snooping)
2025-03-26 16:24:27
43
原创 DHCP 中继配置深度解析(基于 Junos OS)
核心问题:中继代理地址使用虚拟 IP,导致 DHCP 响应路径依赖 MLAG MAC 代理,在 PXE 初始化阶段(无 bonding)时无法及时建立通信。修复方案修正中继源地址:使用交换机真实接口 IP(10.2.1.251/252)固定 MLAG 虚拟 MAC:两台交换机配置相同虚拟 MAC,避免 ARP 震荡启用追踪日志:通过定位具体丢包阶段优化后效果DHCP 请求直接通过真实接口 IP 转发响应报文无需经过 MLAG MAC 代理,缩短传输路径。
2025-03-26 16:09:22
25
原创 MLAG(Multi-Chassis Link Aggregation Group)原理深度解析
高可用性:双节点冗余,消除单点故障线性扩展:带宽随物理链路增加而线性扩展简化管理:上联设备仅需配置一个聚合组协议兼容性:支持 BGP、OSPF、VRRP 等多种协议挑战配置复杂度:需同步多台设备的配置和状态故障排查:跨设备的流量路径难以直观分析性能开销:配置同步和心跳检测消耗系统资源厂商兼容性:不同厂商 MLAG 实现可能存在差异。
2025-03-26 16:02:30
22
原创 Mellanox 网卡的工作模式自动化修改脚本(实战生产,复制即可使用)
目录1. 初始化与日志记录2. 获取所有 Mellanox 网卡设备3. 定义颜色变量4. 标记是否需要重启5. 遍历所有网卡并检查配置6. 判断是否需要重启系统7.生产脚本,复制即可直接使用8. 总结与脚本作用主要功能适用场景注意事项
2025-03-24 10:42:53
278
原创 【nvidia-B200 生产环境】NVIDIA 570.124.06+Cuda12.8 Ubuntu22.04 nccl-test 一键部署脚本(免修改复制即用)
目录1. 初始化与日志记录2. 安装基础工具与配置更新3. NVIDIA 驱动安装 570.124.064. 安装 Mellanox OFED 24.10-2.1.8.05. 安装 CUDA 12.86. 安装 NCCL 和测试7. 配置 rc.local 和其他优化8. B200 单独步骤9. 最终测试与重启10. 完整生产脚本,复制即可直接使用总结 功能: 设置日志目录和日志文件路径。 使用 命令将标准输出和错误输出同时写入日志文件和终端。 记录脚本开始时间,并计算开始的秒数
2025-03-24 10:35:29
852
原创 【nvidia-H200 生产实战】Ubuntu24.04 NVIDIA 570.124.06+Cuda12.8 nccl-test 一键部署(免修改复制即用)
【代码】Ubuntu 24.04安装nvidia H200 驱动,并进行nccl-test测试,生产实战部署脚本。
2025-03-14 17:39:34
292
原创 【H100 生产实战】Ubuntu22.04 NVIDIA 550.144.03 全家桶一键部署(CUDA12.1+NCCL2.18+OFED5.1,复制即用)
【代码】ubuntu22.04安装GPU nvidia、nccl-tests、cuda、ofed驱动全家桶(实际生产环境,复制即可使用20250315)
2025-03-13 11:44:59
323
原创 ubuntu-drivers-common 包功能详解
(如 NVIDIA/AMD 显卡驱动、无线网卡驱动等)。该包是 Ubuntu 系统中用于。的核心工具,尤其针对。
2025-03-12 18:37:24
191
原创 NVIDIA-GPU驱动降级-(实际生产故障一例)
按照以上步骤操作,你应该可以解决无法安装指定版本 NVIDIA 驱动的问题。先更新本地的软件包索引,这样系统就能获取到最新的软件包信息。版本,你可以从列出的可用版本中选择一个进行安装。下载对应的驱动,然后按照官方文档的指引进行安装。与 NVIDIA 驱动版本不匹配。若软件源里没有合适的版本,你可以从。,而 NVIDIA 驱动版本是。此命令会列出所有可用的版本。在更新软件源之后,查看。替换成你要安装的版本。你遇到的错误信息表明。
2025-03-12 16:56:37
160
原创 二、OpenSM排障----实战生产
当 OpenSM 服务端故障时,客户端可能无法正常访问 InfiniBand 网络。以下是排障步骤,帮助确认是否是服务器故障,以及如何查看客户端日志。使用 测试客户端与服务器之间的连通性:ibping <服务器节点的GUID或LID> 如果无法 ping 通,可能是服务器故障或网络问题。使用 查看客户端 InfiniBand 接口状态:ibstat 确保接口状态为 Active,如果状态为 Down,可能是服务器端未正确配置或故障。使用 查看当前子网管理
2025-02-14 10:45:30
200
原创 一、OpenSM 架构部署及原理详解
OpenSM 是 InfiniBand 网络的核心组件,通过自动化的拓扑发现、路由计算和状态维护,确保网络的高效运行。部署时需关注配置文件参数、路由算法选择和高可用性设计,调试时可借助日志和诊断工具快速定位问题。
2025-02-14 10:35:53
332
原创 nccl-test报错,实际解决过程-实战生产
共享库文件未找到,这通常意味着 OpenMPI 或其他 MPI 实现的库路径没有正确包含在系统的库路径中。:确保使用的 MPI 版本与 NCCL 测试程序兼容。有时不同版本之间可能存在不兼容的情况。为了永久设置该环境变量,可以将其添加到你的 shell 配置文件(例如。:确保在编译时指定了正确的 MPI 路径。如果找不到,请确保你安装的是正确的版本。:确保所有依赖项都已正确安装。将 OpenMPI 的库路径添加到。如果有任何库未找到,请安装相应的包。通过以上步骤,你应该能够解决。通常,该文件应该位于。
2025-02-13 18:57:53
144
原创 modprobe nvidia 报错,-实战生产
没有找到 NVIDIA 驱动模块。这通常是因为驱动程序未为该内核版本正确编译或安装。如果仍然遇到问题,请提供更多的错误信息或日志内容以便进一步诊断。如果仍然无法加载 NVIDIA 模块,可以检查系统日志以获取更多信息。有时,更新 initramfs 文件可以帮助解决问题。如果没有看到当前内核版本对应的条目,可能需要重新构建模块。如果上述方法无效,可以尝试使用 NVIDIA 官方提供的。这些日志可能会提供有关为什么驱动程序无法加载的更多信息。并下载适合你 GPU 型号的驱动程序。如果成功加载,你可以运行。
2025-02-13 18:42:30
505
原创 nvidia-smi执行失败,报错-实战生产
出现错误通常意味着系统无法与 NVIDIA 驱动程序进行通信。这可能是由于驱动程序未正确安装、内核模块未加载或存在其他配置问题。
2025-02-13 18:38:56
292
原创 MLNX_OFED_LINUX安装失败-实战生产
日志信息来看,脚本在尝试为你的内核版本(6.8.0-1008-nvidia)构建相应的 DEB 包时遇到了一些警告和错误。这些警告主要集中在某些功能不支持当前的内核版本上。
2025-02-13 18:20:29
602
原创 nginx面试题及答案(全网最全)
Nginx是一个开源的高性能HTTP和反向代理服务器,也提供IMAP/POP3代理服务。正向代理为客户端提供服务,隐藏客户端的真实IP;反向代理为服务器端提供服务,隐藏后端服务器的真实地址。
2025-02-10 18:22:16
73
原创 lvs面试题及答案(全网最全)
LVS(Linux Virtual Server)是一种高性能的负载均衡解决方案,主要用于在 Linux 系统上实现服务器集群。其主要作用是通过将客户端请求分发到多个后端服务器来提高系统的可用性和性能。真实服务器(RS)是指实际处理客户端请求的服务器。每个 RS 都有自己的 IP 地址,并且可能运行不同的应用程序或服务。请求转发是指 Director 将接收到的客户端请求根据调度算法选择合适的 Real Server,并将请求转发给该服务器的过程。
2025-02-10 17:49:20
439
原创 ubuntu-gpu生产环境,创建lvm步骤(真实生产)
通过以上步骤,你已经成功地将多个 NVMe 磁盘创建成了一个 LVM 逻辑卷,并将其挂载到了/mnt,同时确保了系统重启后能够自动挂载该逻辑卷。下面是将上述步骤转换为一个Shell脚本的示例。这个脚本会自动执行LVM创建、格式化、挂载以及修改/etc/fstab文件的操作,并验证配置是否正确。通过以上步骤,你已经成功地删除了vg0卷组及其相关的物理卷,并按照你的需求重新配置了一个新的 LVM 逻辑卷,并将其挂载到了/mnt,同时确保了系统重启后能够自动挂载该逻辑卷。
2025-02-10 16:25:21
498
原创 2. Mellanox 网卡的参数调优-LINK_TYPE_P1(GPU-AI-大模型,底层调优-测试)
命令作用设置 Mellanox 网卡设备的参数为1,表示 InfiniBand 链路类型。验证方法使用查询当前配置。使用和ip link检查网络接口状态。使用ethtool检查链路状态(如果有需要)。通过这些步骤,你可以确保参数已正确设置,并且网卡工作在预期的链路类型下。
2025-02-08 18:42:14
157
原创 1. Mellanox 网卡的参数调优-ATS_ENABLED(GPU-AI-大模型,底层调优-测试)
最直接且可靠的方法是使用mlxconfig来查询设备的配置状态。使用mlxconfig查询配置检查输出:确认是否设置为true。
2025-02-08 18:21:42
229
原创 ubuntu22.04中软件版本存在2个,如何删除旧版本
如果需要更新或者重新安装最新的NVIDIA驱动或组件,建议通过官方渠道获取最新版本,以保证兼容性和稳定性。此外,在进行此类更改时,请确保了解这些更改可能对依赖于特定版本的现有应用程序或设置的影响。该命令会移除指定的软件包以及任何与之相关的配置文件。在执行此操作之前,请确保这样做不会对你系统的其他部分造成不利影响。命令的输出表明存在两个版本的NVIDIA Fabric Manager:一个是550.127.08-1,状态为。,意味着它已经被卸载,但是它的配置文件仍然保留在系统中。
2025-01-21 11:29:07
173
原创 [gpu驱动] H200 nvidia-fabricmanager-550升级到nvidia-fabricmanager-565报错,升级步骤
【代码】H200 nvidia-fabricmanager-550升级到nvidia-fabricmanager-565报错,升级步骤。
2025-01-20 16:51:05
318
原创 cka考试-02-节点维护
对于由控制器管理的 Pod(例如 ReplicaSet、Deployment、StatefulSet 或者 DaemonSet),当它们检测到一个节点再次变为可调度时,会尝试在该节点上创建新的 Pod 实例。的节点标记为不可调度(unschedulable),并驱逐该节点上的所有 Pod,以便你可以对该节点进行维护或其他操作。这个命令会列出集群中所有节点的信息,并且在输出的最后一列(通常是最右边的一列),你会看到每个节点的条件。确保集群中有足够的资源(CPU、内存等)可用,以便快速创建新的 Pod。
2025-01-03 16:46:57
174
原创 ubuntu22.04 fstab详细分析
这个/etc/fstab文件展示了标准的Ubuntu服务器安装配置,其中包含了一个LVM管理的根文件系统、一个独立的/boot分区、一个EFI系统分区以及一个交换文件。这种配置提供了良好的灵活性和性能,并且通过使用UUID来标识设备,可以确保即使磁盘顺序发生变化,系统仍然能够正确挂载各个分区。
2024-12-31 15:38:39
386
原创 六、实战pxe安装ubuntu 22.04 软raid1(实际生产pxe配置-使用match匹配磁盘)
请注意,在实际环境中,应当根据具体的硬件和需求调整配置参数。中的一些命令可能需要根据实际情况进行适当调整或测试。
2024-12-31 14:52:40
220
原创 实战ubuntu22.04 软raid查看命令
从上述信息来看,你的RAID1阵列md0正在健康地运行,并正在进行同步操作以确保数据的一致性。由于RAID1是一个镜像模式,即使其中一个磁盘失效,另一个磁盘仍然可以保证数据的可用性。同步完成后,RAID将恢复正常操作状态。如果你不需要进行任何额外的操作,只需等待同步完成即可。如果你担心同步速度或者想要检查是否有任何潜在问题,你可以使用来获取更多细节信息。从上述信息来看,你的RAID1阵列md0正在健康地运行,并且正在进行同步操作以确保数据的一致性。同步进度已经达到了96%,预计很快就会完成。
2024-12-27 17:05:42
564
原创 五、实战pxe安装ubuntu 22.04 软raid1(实际生产pxe配置)
这段配置文件是一个cloud-init的自动安装配置,用于自动化部署Ubuntu服务器操作系统。它定义了从系统身份、键盘布局、区域设置到磁盘分区和RAID配置的一系列设置,并且包含了在安装过程的最后阶段执行的一些命令。基础设置version: 1指定了autoinstall配置文件的版本。source定义了安装源,这里是ubuntu-server。identity设置了主机名(hostname)、用户(username)和密码(password注意这里的密码是经过加密的。键盘与语言设置。
2024-12-27 16:50:51
346
原创 三、PXE安装-dhcp服务异常实战排错
确保 DHCP 服务器有权限访问所需的文件和目录,并且所有路径都正确无误。如果有任何错误,它们将会被打印到标准输出中。根据提示修复配置文件中的问题。文件,确保为每个需要提供 DHCP 服务的网络接口添加了相应的。声明,并指定了正确的 IP 地址范围、默认网关等信息。接口的请求,因为没有为该接口定义子网。确保您的 DHCP 配置文件没有语法错误。知道它应该监听哪个网络接口。变量包含正确的网络接口名称,例如。完成上述检查和修正后,尝试重新启动。(如果存在)中的相关条目。
2024-12-19 10:46:57
85
原创 四、PXE-配置 Ubuntu 22.04 的 PXE 无人值守安装
配置 Ubuntu 22.04 的 PXE 无人值守安装需要设置 DHCP、TFTP 和 HTTP(或 NFS)服务器,并准备适当的引导文件和自动应答文件。以下是基于实际生产环境的配置案例,适用于使用 CentOS 或 Ubuntu 作为部署服务器。
2024-12-19 10:46:43
476
原创 HP服务器开启性能模式
模式指的是通过特定配置(通常是 BIOS 或操作系统中的设置)来控制处理器的能源性能偏置(Energy Performance Bias, EPB)。EPB 是一种机制,允许用户或系统管理员在性能和功耗之间进行权衡。不同的设置可以影响系统的响应速度、能效等。当提到 模式时,通常是指使用一个配置项(如 BIOS 设置或操作系统中的配置文件)来设定 EPB 的行为。这种模式下,EPB 的值不是固定不变的,而是可以根据具体的工作负载需求动态调整,以达到最佳的性能与功耗平衡。操作系统模式:BIOS 模式:PECI
2024-12-17 18:37:50
547
原创 二、pxe-Kickstart 文件 (kickstart.ks) 详细分析及中文注释
文件的逐行分析,并附上详细的中文注释。这个文件用于自动化安装 CentOS 或 RHEL 系统,通过指定一系列命令来配置和安装操作系统。两者虽然独立,但在实现自动化部署和维护的过程中是相辅相成的。文件则具体定义了安装过程中的各项配置,两者共同作用于实现完全自动化的安装流程。中可能涉及的网络启动选项保持一致,确保系统能够顺利地通过网络获取必要的资源。部分实现了无人值守安装的具体步骤,确保了安装过程的自动化。文件负责自动化安装过程中的各项配置,而。,确保新安装的操作系统能够正确引导。指令配置了网络接口,这与。
2024-12-12 16:08:12
88
原创 一、pxe-grub.cfg 文件详细分析及中文注释
以下是对 文件的逐行分析,并附上详细的中文注释。这个文件用于配置 GRUB(Grand Unified Boot Loader),它是在启动过程中加载操作系统的引导加载程序。中文注释汇总 设置默认启动项: 这行代码设置了 GRUB 的默认启动项为菜单中的第一个选项(索引从0开始)。也就是说,如果没有用户干预,GRUB 将会自动选择并启动第一个菜单项。 设置等待时间: 这行代码指定了 GRUB 在启动时等待用户选择的时间为5秒。如果在这段时间内没有用户选
2024-12-12 15:50:48
255
读闪付卡号软件uid cuid
2023-08-14
FlashThief U盘小偷
2010-01-04
WIN32API手册
2008-12-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人