100GB Mellanox InfiniBand 网卡虚拟化技术调研

最新推荐文章于 2025-05-02 23:22:55 发布

原创最新推荐文章于 2025-05-02 23:22:55 发布 · 1.8k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #服务器 #运维

调研目的

验证 Mellanox InfiniBand 100GB网卡和SR650 Server能兼容

ThinkSystem SR650	Power On (Booting OS or in undetected OS)
Machine Type/Model	7X05CTO1WW

验证 SR-IOV虚拟话技术在BIOS/Firmware/Kernel/QEMU/Libvirt能被支持

4.18.0-305.19.1.el8_4.x86_64

验证 Virtual Function PCI设备在KVM能支持passthough

物理硬件

ThinkSystem Mellanox ConnectX-6 HDR100/100GbE QSFP56 2-port PCIe VPI Adapter

lspci

0000:2f:00.0 Ethernet controller [0200]: Mellanox Technologies MT28908 Family [ConnectX-6] [15b3:101b]

0000:2f:00.1 Ethernet controller [0200]: Mellanox Technologies MT28908 Family [ConnectX-6] [15b3:101b]

网口直连（无IB交换机）

无 InfiniBand Switch，如果将100GB IB卡接10GB 交换机纯属暴殄天物，直接IB两口直连，可使网速最大化

BIOS设置

SR-IOV（Single Root I/O Virtualization）
- 必须开启：SR-IOV是一种硬件虚拟化技术，用于在共享物理网络适配器的环境中创建多个虚拟网络适配器。SR-IOV 允许多个虚拟机 (VM) 直接访问物理适配器的硬件资源，从而提高了网络性能和可靠性。
Intel VT-d（Virtualization Technology for Directed I/O)
- Intel VT-d 是一种硬件级别的 I/O 虚拟化技术，用于提供更安全和更高效的 I/O 访问控制和虚拟化。包括以下几个方面：
  - DMA 保护：DMA (Direct Memory Access) 是一种设备与内存之间直接传输数据的方式。Intel VT-d 技术可以保护系统内核和用户空间的内存不被非授权设备读写，从而提高系统的安全性。
  - SR-IOV：SR-IOV (Single Root I/O Virtualization) 是一种硬件级别的虚拟化技术，用于在共享物理网络适配器的环境中创建多个虚拟网络适配器。Intel VT-d 技术可以支持 SR-IOV，并通过硬件分离和隔离来保护虚拟适配器的安全性。
  - PCI Express 隔离：Intel VT-d 技术可以在 PCIe (Peripheral Component Interconnect Express) 总线上执行 I/O 隔离和分区，从而避免了物理设备之间的干扰和冲突，提高了 I/O 性能和可靠性。

网卡驱动升级

注意：100GB IB的网口模式不支持端口PF-VF的虚拟化技术，2个网口不够用，网卡驱动必须升级

第一步：打开Mellanox官网下载驱动 Linux InfiniBand Drivers

第二步：解压缩执行 ./mlnxofedinstall 会发现缺少依赖，按提示反复执行mlnxofedinstall直到依赖全部装上

./mlnxofedinstall

# ./mlnxofedinstall

Logs dir: /tmp/MLNX_OFED_LINUX.11337.logs

General log file: /tmp/MLNX_OFED_LINUX.11337.logs/general.log

Verifying KMP rpms compatibility with target kernel...

Error: One or more required packages for installing MLNX_OFED_LINUX are missing.

Please install the missing packages using your Linux distribution Package Management tool.

Run:

yum install kernel-modules-extra tk

第三步：报错kernel版本不支持时，需要执行驱动自带的脚本

./mlnxofedinstall

# bash mlnx_add_kernel_support.sh -m ./

Note: This program will create MLNX_OFED_LINUX TGZ for rhel8.1 under /tmp directory.

Do you want to continue?[y/N]:y

See log file /tmp/mlnx_iso.20469_logs/mlnx_ofed_iso.20469.log

Checking if all needed packages are installed...

/lib/modules/4.18.0-305.19.1.el8_4.x86_64/build//scripts is required to build mlnx-ofa_kernel-modules RPM.

Please install the corresponding kernel-devel RPM.

Error: One or more required packages for installing OFED-internal are missing.

Please install the missing packages using your Linux distribution Package Management tool.

Run:

yum install kernel-devel-4.18.0-305.19.1.el8_4.x86_64 kernel-rpm-macros

如上述命令报错，缺少kernel-devel依赖，则继续安装依赖，直到报错消失

再次执行下述命令

./mlnxofedinstall

./mlnxofedinstall --add-kernel-support

第四步：修改opensm配置文件, 则opensm服务无法重启

vi /etc/infiniband/openib.conf

# run Firmware update utlity upon system boot in order to update Firmware for newly installed devices

RUN_FW_UPDATER_ONBOOT=yes

Firmware升级

Slot No.	Device Name	Status	Version	Manufacturer	Release Date
1	ThinkSystem Mellanox ConnectX-6 HDR100/100GbE QSFP56 2-port PCIe VPI Adapter	Active	20.30.1004	Mellanox Technologies	2021/03/29

Kernel启动参数修改

grub启动界面点击e进入command模式

default intel_iommu=on iommu=pt

intel_iommu=on：该参数用于启用 Intel VT-d（Virtualization Technology for Directed I/O）。Intel VT-d 提供硬件级别的 I/O 虚拟化支持，可以增强系统的安全性和性能。启用该选项后，操作系统可以访问和管理 IOMMU（I/O Memory Management Unit），以支持设备的直接内存访问 (DMA) 和虚拟机的 I/O 虚拟化。
iommu=pt：该参数设置 IOMMU 使用的页表类型为 “passthrough”。IOMMU 的页表用于映射设备的物理地址和虚拟地址之间的转换。通过设置 iommu=pt，IOMMU 将直接传递虚拟地址给设备，而不进行额外的转换或修改。这种模式通常用于需要最低延迟和最高性能的应用场景。

uname -a

Linux systemtest 4.18.0-305.19.1.el8_4.x86_64 #1 SMP Wed Sep 15 15:39:39 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux