VMware NSX 9.0.1.0 发布 - 下一代网络安全虚拟化平台
NSX is an implementation of a software-defined network. It provides network services such as switching, routing, load balancing, firewalls, and VPN.
请访问原文链接:https://sysin.org/blog/vmware-nsx-9/ 查看最新版。原创作品,转载请保留出处。
作者主页:sysin.org
发布日期:2025 年 9 月 30 日
网络虚拟化平台
VMware NSX
使用 VMware NSX,通过单一窗口像管理单个实体一样管理整个网络。

VMware NSX® 是一个支持 VMware 云网络解决方案的网络虚拟化和安全性平台,能够以软件定义的方式构建跨数据中心、云环境和应用框架的网络。借助 NSX,无论应用是在虚拟机 (VM)、容器还是在物理服务器上运行,都能够使应用具备更完善的网络连接和安全能力。与虚拟机的运维模式类似,可独立于底层硬件对网络进行置备和管理 (sysin)。NSX 通过软件方式重现整个网络模型,从而实现在几秒钟内创建和置备从简单网络到复杂多层网络的任何网络拓扑。用户可以创建多个具有不同要求的虚拟网络,利用由 NSX 或范围广泛的第三方集成(从新一代防火墙到高性能管理解决方案)生态系统提供的服务组合构建本质上更敏捷、更安全的环境。然后,可以将这些服务延展至同一云环境内部或跨多个云环境的各种端点。
VMware NSX 9.0.1.0 | 29 SEP 2025 | Build 24952111
新增功能
本次发布被视为一次维护版本,因此功能主要集中在提升产品的可支持性。
本版本修复了 CVE-2025-41251 和 CVE-2025-41252。有关这些漏洞及其对 VMware 产品影响的更多信息,请参见 VMSA-2025-0016。
✅ 安装与升级
-
支持在管理域为 NSX 4.2.x 的非 VCF 环境中导入 VCF
在 VCF 9.0.1 中,VCF Installer 不再要求第一个导入的域必须升级到 VCF 9.0.x。这允许导入包含 NSX 4.2.x 的非 VCF 部署环境。
-
VCF 导入中支持 NSX Federation
在 VCF 9.0.1 中,VCF Operations 支持导入本地管理器为 NSX Federation 成员的非 VCF 部署。
-
NSX 升级准备评估
NSX 9.0.1 提供了增强的升级体验,预升级检查更快且更聚焦 (sysin)。通过提高线程数、减少等待时间,以及仅在选定升级的主机上运行预检查,用户可以更高效地检查升级准备情况。
-
NSX 升级预检查
本版本新增了升级预检查,用于验证传输节点的 SSL 证书是否已过期或将在 90 天内过期。如果发现此类证书,用户需运行 Certificate Analyzer, Results and Recovery (CARR) 脚本。
✅ Edge 平台
-
UI 中的 NSX Edge 重新部署选项
当节点出现问题或需要修改编辑模式下不可用的节点配置时,可重新部署 NSX Edge 节点。
-
重新部署 Edge 节点时的日志通知
新增通知,用于告知用户重新部署 Edge 节点将永久删除该节点关联的所有日志。如果用户需要保留这些信息用于后续排障,需要在重新部署前生成并下载支持包。
-
Root Shell 命令历史
Root shell 命令被收集到单独文件中,以便更清晰地进行故障排查。
✅ 运维与监控
-
在线诊断系统运行手册
NSX 9.0.1 添加了
dp_support.py,一个用于离线分析 ESXi 网络统计的 Python 工具。该工具处理收集到的网络统计数据并生成包含关键数据路径指标的Datapath.json文件。- 支持 Python 3.10+ 离线运行
- 输出
Datapath.json,快速获取数据路径洞察 - 支持 NSX/ESX 版本标识和 SmartNIC 选项
- 支持自定义日志级别
-
增强审计日志以识别 REST 请求
在 9.0.1 中,用户可以在审计记录中查看已调用的网络策略 API,并通过
request="<METHOD> <URI>"的附加元数据识别实际调用的 REST 请求。 -
优化组内有效成员告警定义
组内最大有效成员的计算已优化,以确保增强的容量限制精度,并消除生成误报的系统告警。
-
撤销传输节点证书不再有宽限期
对撤销的传输节点证书的 24 小时宽限期已移除 (sysin)。如果通过 CRL 验证未找到有效证书,将关闭与传输节点的连接。
-
为云合作伙伴新增预定义角色
新增一个专为云合作伙伴设计的预定义角色,允许访问网络和安全服务,但必须阻止访问 NSX 许可证视图。
功能弃用 / 行为更改
功能弃用:
本版本没有弃用任何功能。
行为更改:
-
不再支持独立 NSX 升级
从 VCF 9.0 开始,NSX 仅作为 VCF 堆栈的一部分提供。不允许独立部署或升级 NSX。客户必须按照文档化流程,将现有 NSX 部署导入并升级到 VCF 9。
已解决问题
VMware NSX 9.0.1.0 修复了以下问题:
✅ 在 uplink 团队上编程学习到的 MAC 条目以支持 LAG 的 ARP 抑制失败
为 LAG 端口添加 MAC 表条目失败。
✅ 升级后,当 VLAN 传输区(TZ)ID 为 “a95c914d-748d-497c-94ab-10d4647daeba” 的 TZ 未找到时,NSX 尝试创建该 TZ,但由于系统中已存在默认 VLAN TZ,创建失败
升级失败,NSX Manager 服务无法启动。
✅ NSX 升级预检查期间,SDDC Manager 返回错误消息
如果第一次 NSX 升级失败,再次启动升级时,预检查尝试升级 NSX Upgrade Coordinator 并回滚升级。若 NSX Upgrade Coordinator 已升级 (sysin),则无法再次发起升级和回滚,导致预检查失败并报错:NSX UC Rollback failed as UC is not upgraded。
✅ Traceflow 在 VDR MAC 更改后失败,报 “dropped by no destination mac in MAC Table”
关键 NSX-V 到 NSX-T 迁移无法完成。
✅ ENS 流重验证逻辑错误地将 M1L1 流视为已卸载流,跳过超时计数检查,导致 M1L1 流无法过期,系统中残留条目
可能导致性能下降。
✅ 当 PRP LAN A 和 LAN B 均断开时,vPLC 与 IO 设备的连接只能通过恢复 LAN B 来重建
当 LAN A 断开后,PROFinet Discovery 和 Configuration Protocol (DCP) 无法在 vPLC 与 IO 设备间正常工作。
✅ 通过 API 创建网络接口时未设置 Tier1InterfaceAdvanceConfig 为 null,导致网络接口实现失败
客户无法成功创建网络接口。
✅ corfu 和 cbm 相关文件在 integrity-checker 日志中被标记
该问题无功能影响。
✅ NestDB 因磁盘已满而无法持久化来自客户端的数据
无法将新的期望状态或实际状态推送到主机,主机可能部分不可用。
✅ 损坏的 Roaring64navigablemap 导致 GM 与 LM 通信失败
GM 配置无法同步到部分 LM。
✅ 无法为 Overlay 段创建 Tier-0 网关 uplink
无法创建 uplink。
✅ 客户将 LE 站点加入常规 GM
客户存在 LE 站点。
✅ 启用 DVPG Beacon Probing 时,TeamPolicyUpDelay 设置未应用于不使用 Beacon Probing 的其他 DVPG/段,导致 uplink 从 DOWN 到 UP 状态立即被 ESX 视为 UP
可能在物理交换机升级期间导致流量受影响。
✅ 端口上配置的 QoS 配置无法生效,在管理模式下不被识别
相关绑定映射配置无法被执行或实现。
✅ 尝试删除 Segment Monitoring Binding Map 时收到 NSX Federation 错误
客户无法删除 Segment Monitoring Binding Map,此 API 在 GM 上不受支持 (sysin)。
✅ 虚假验证错误 --> [Fabric] Duplicate syslog server
客户设置会触发 “Duplicate syslog server” 验证,可能导致边缘节点 CPU 占用过高,编辑操作可能被阻塞。
✅ Edge 升级预检查期间,边缘版本白名单更新失败
若上次 NSX 升级已由 PI 用户更新版本白名单,Edge 升级会被阻止。
✅ 单个 LDAP Identity Source 最多可添加 20 个 LDAP 用户和组
客户无法添加超过 20 个用户或组。
✅ 高内存使用警报
除高内存警报外无其他不良症状。
✅ 客户环境内存使用高
可能导致系统响应缓慢。
✅ 更新 GM 证书后,GM 与 LM API 通信中断约 15 分钟
用户在此期间无法访问 LM realization status 与 stats API,但通过 APH 的配置同步正常。
✅ 从 4.2.0.0 升级到 4.2.1.3 时 NSX 升级预检查失败
生产升级无法进行。
✅ 因 GRE 隧道错误关联,删除 loopback 接口失败
无法移除 loopback 接口。
✅ ADF 工具在端口过多时无法运行
客户无法收集主机延迟的日志信息。
✅ nsx-audit.log、syslog.log 和 nsx-audit-write.log 存在冗余 .backup 文件
冗余日志文件存在于 /var/log/。
✅ 触发 Logical Router 的 reallocate API 或更新 Tier-1 flows 时,Logical Router GPRR 中的成员索引和首选边缘路径未更新
API 输出可能与实际不符。
✅ 配置本地 SPAN 时,目标 VM 存储 vMotion 后镜像流量停止接收
本地 SPAN 镜像功能停止工作。
✅ 由于传输区路径不匹配,用户无法编辑连接到 stretched GM 段的 provider 接口
客户无法编辑问题段连接的任何 Tier-0 uplink。
✅ vLCM 集群升级预检查触发主机 OOM 问题
主机升级无法继续,影响 ESXi 升级流程。
✅ NestDB 磁盘已满导致客户端数据无法持久化
主机部分功能受限,无法推送新状态。
✅ 修改 Stateful Active-Active Tier-0 的 Tier0-Tier1 Transit 子网后,部分 Edge 节点上的 Tier-1 广告路由未更新
North-South 流量受影响。
✅ NSX Edge 中,当逻辑路由使用 Multi-VRF Inter SR 支持非对称流量失败时,可能导致流量丢失
可能出现错误流量路径。
✅ Traceflow 中 Tier-0 VRF 发送到 uplink 的数据包未标记为 “delivered”
数据包实际已送达,但 traceflow 模块未正确标记。
✅ PowerCLI 调用 GetGroupVMMembers API 时失败
YML 中 power_state 字段大小写不一致导致反序列化异常。
✅ NSX Controller Antrea Cluster 连接中断
UI 显示新配置状态为 “unknown”。
✅ SegmentPortIpPoolMigrationTask 中 LogicalPort::addressBindings 为 null 导致 NullPointerException,NSX 升级失败
NSX 升级失败。
✅ HTTP 虚拟服务器启用持久性且 LB 池使用 least connection 算法时,池成员选择不正确
流量无法均衡分配。
✅ HA 协议无法绑定 UDP 端口 50263
可能导致 HA 失败,引发流量中断。
✅ Edge packet capture CLI 使用 file-count 参数时报权限拒绝
无法运行带 file-count 参数的抓包命令。
✅ ESX 升级后 VDS 无法附加 VMKs
主机进入无响应状态并与 vCenter 断开 (sysin)。
✅ ESXi PSOD 因 DLB 与 drop default DFW 规则频繁重配置出现竞争条件
ESX 主机服务中断。
✅ 禁用 LB 持久性功能时 nginx coredump
新连接的 LB 流量受影响,已有 L4 会话不受影响。
✅ 连接 NSX 段的 VM 失去网络连接
VM 网络连接丢失。
✅ NSX Manager 错误地将无状态主机处理为有状态主机
主机无法为 NSX 准备,执行错误工作流。
✅ 虚拟机开机后处于断开状态
VM 电源开启后处于断开状态。
✅ VC/vROPS 上 VM 接口 drop 计数错误
ARP/ND 高流量导致虚假 drop 告警。
✅ 主机升级后生成的新 TN 证书导致 TN 与 UA 管理平面通信中断
ESXi 主机管理与控制平面中断。
✅ 备份/恢复导致 UUID 与 NSX security-only TZ 不同步
TNC 安装将被阻止。
✅ Tier-0 RealizedLogicalRouterPort 与 Tier-1 realized-entities API 不一致
API 消费者可能无法看到预期输出,但无直接功能影响。
✅ 在 inter-VRF 路由中删除并重新创建所有 uplink,流量失败
Inter-VRF 流量受影响。
✅ 大量 TZ GET 调用导致 UI 响应缓慢
大规模 TZ GET 调用时 UI 变慢。
✅ 未将服务接口添加到 Tier-1 网关
租户通信无法通过该服务接口进行。
✅ 数据迁移异常可能导致整个升级失败
如未按数据迁移工作清理的解决方法操作,需重启升级;否则,覆盖 TZ 连接的所有 LS 将失去连接。
✅ mbuf_pool_socket_0 内存池利用率持续增加
Edge mbuf 不足,可能丢包。
✅ OSPF peer 路由器出现认证序列号不匹配
OSPF 邻居关系可能波动。
✅ Tier-1 上添加无效静态路由影响其他有效路由流量
无效或不可解析的静态路由导致流量异常 (sysin)。
✅ Tier-0 网关上的静态路由无法实现
Edge 节点无法实现静态路由,流量黑洞。
✅ Traceflow 报 “dropped by no destination mac in MAC Table”
NSX-V 到 NSX-T 迁移无法完成。
✅ Edge 在 Tier-0 uplink 连接 VNI Switch 且存在 ECMP 路径时发送 GENEVE 包带 Traceflow 位
大量 traceflow 消息可能导致 NSX Manager 集群降级。
✅ 聚合路由从路由表中删除
可能影响转发。
✅ LB 配置无法加载,原因是 SNI 证书 CN/SAN 字段过长
LB 流量受影响。
✅ NSX LB 状态显示未知,UDP 监控配置错误
LB 无法提供服务,状态未知。
✅ NSX L2VPN 数据传输时出现大量重复确认 (DUP ACK)
L2VPN 数据传输可能失败。
✅ Edge VPN 进程在对端发送缺少 DH 组的 IKEv1 SA 请求时崩溃
Edge VPN 进程退出。
✅ ECMP 路由中递归路径未在数据平面安装
可能影响流量。
✅ 从 SDDC Manager 升级 NSX Manager 时失败,报 “Failed to find products current version for Avi Load Balancer”
已部署 Avi Load Balancer 的环境升级 NSX Manager 会失败。
解决方法:
- 对 SDDC Manager VM 做快照。
- SSH 登录 SDDC Manager,切换 root。
- 编辑
/home/vcf/feature.properties,将feature.vcf.nsx.alb=false - 修改文件权限:
chown vcf_lcm:vcf /home/vcf/feature.properties - 重启 lcm 服务:
systemctl restart lcm - 重试升级。升级完成后,将特性标志恢复为
true并重启 lcm。
✅ SegmentPortIpPoolMigrationTask 中 LogicalPort::addressBindings 为 null 导致 NullPointerException,NSX 升级失败
Tanzu 在升级期间反复创建和删除 SegmentPorts,导致 LogicalPorts addressBindings 在升级窗口内保持 null,SegmentPortIpPoolMigrationTask 重复失败。
✅ 多 vMotion 并行更新组成员时,组成员更新显著延迟
UI 上组成员显示不及时。
解决方法:在执行 vMotion 前或完成后更新组。
✅ 通过绑定映射应用的 Flood Protection、DNS Security、Firewall 会话定时器等安全配置无法实现
GET realized entities API 或 GET consolidated status API 返回错误,但 UI 无异常。
解决方法:调整序列号以反映优先级。
✅ 客户在更新项目时可以使用已弃用字段(dedicated_resources)或新字段(log_labeled_external_resources)。如果在更新过程中修改了已弃用字段,由于与新字段的值不匹配,将导致异常。
使用 dedicated_resources 更新项目意图时,如果未将已弃用字段和新字段的值设置为相同,将会导致异常。
响应错误:{ “httpStatus”: “BAD_REQUEST”, “error_code”: 500231, “module_name”: “Policy”, “error_message”: “Both new and deprecated properties are specified for deprecated - dedicated_resources & new - log_labeled_external_resources in /orgs/default/projects/test-anand.” }
解决方法:确保在更新项目意图时,已弃用字段和新字段的值相同。
✅ 在 NSX 9.0 中,当 VPC 子网和 VPC 的显示名称超过 80 个字符时,错误模式不一致。
对于 VPC,当名称超过 80 个字符时,错误为实现失败。
解决方法:无。
这是无效输入。请使用少于 80 个字符的显示名称重试。
✅ 由于 GRE 隧道错误地与回环接口关联(使用回环接口作为隧道源地址),删除回环接口失败。
从 vCD 到 NSX 添加/删除/修改多租户在通过 UI 和 API 删除回环接口时失败。
在删除租户时,删除关联回环接口的 API/UI 调用失败 (sysin),错误信息如下:“Error: The object Tier-0 Interface ‘loopback-fra04-MS30-parent-n01’ cannot be deleted as either it has children or it is being referenced by other objects: Default: Tunnel ‘mrn-a29-vdc-apolloni-eu-de-1-1a’ Tunnel ‘mrn-a29-vdc-apolloni-eu-de-2-2a’ Tunnel ‘mrn-a29-vdc-apolloni-eu-de-3-3a’ (Error code: 500030)”。这会导致自动化失败。
解决方法:在 NSX 数据库中将 GRE 隧道对象的关系替换为与其对应接口的新关系。
✅ T0 网关边缘的静态路由未实现。
T0 网关上的静态路由在边缘节点上未实现,导致流量黑洞,影响生产环境。
解决方法:使用 Reprocess API 重新创建路由图。
POST https://<mgr-ip>policy/api/v1/infra/tier-0s/<t0-id>?action=reprocess&enforcement_point_path=/infra/sites/default/enforcement-points/default
✅ 在 inter-vrf 路由(无论是基础设施 VRFs 还是 CTGW)中,如果用户删除所有上行链路并重新创建默认 T0 网关,流量会失败。
Provider VRFs 和 CTGWs 与 provider 默认 T0 网关共享相同的 HA 和部署。当从 provider 默认 T0 网关删除所有上行链路(SRs)时,VRFs 和 CTGWs 的 inter-vrf 流量无法正常工作,这是预期行为。然而,当 SRs 再次添加到 provider 默认 T0 网关时,inter-vrf 流量无法正常工作。
解决方法:对于 VRFs,也删除并重新创建 inter-vrf 路由。对于 CTGW,删除并重新创建与网关连接的附件。删除后,等待实现成功再重新创建。
✅ 在对等路由器上观察到 OSPF 身份验证序列号不匹配。
以下日志消息出现在 TOR:
日志消息:2024-11-24T23:44:18.388685000+09:00 ospf default [22471]: TID 25248:ospfv2_verify_authentication:250:(tmtc-tstd2-1:mh-t-gyoumu-vrf-base) Mismatch in authentication sequence in packet from 12.73.228.8 on Vlan23, has 0x676f250d, ours was 0x676f250e! Packet captures revealed that packets are re-ordered at EDGE uplink/datapath interfaces.
如果 TOR 连续检测到 4 个 OSPF HELLO 数据包存在此序列号不匹配 (sysin),OSPF 邻居关系将发生波动。
解决方法:此问题仅在启用 MD5 身份验证时发生,因为 MD5 使用身份验证序列号。
- 在 Edge 节点和 TOR 上禁用 OSPF 身份验证。
- 使用简单密码身份验证而非 MD5。
✅ 在 ARP 监听过期后,ExcludeList 经常更新,导致 CCP-NestDb 慢速和 CCP OOM,因为消息队列积累。
ExcludeList 经常更新,导致 CCP-NestDb 慢速和 CCP OOM。
解决方法:通过删除不需要的组或虚拟机减少 ExcludeList 的大小。
✅ 在 NSX Edge 中,当使用 Multi-VRF Inter SR 支持所有 VRFs(以及默认 VRF/父 Tier0 网关)的非对称流量失败时,可能会出现流量丢失。
默认情况下,NSX Edge 中的逻辑路由器通过 Inter SR iBGP 支持默认 VRF/Tier0 网关的非对称流量失败。
当管理员显式启用 Multi-VRF inter-SR,其中所有 VRF 路由在 MP-BGP 会话上都有备份路径时,如果 inter-SR BGP 会话抖动,可能会出现此问题。此模型默认禁用。
当 inter-SR BGP 会话抖动时,会触发对该对等体的路由清理。在此清理过程中,如果从默认 VRF 导入到该 VRF 的路由被 BGP 清理,这将导致 EVPN 路由的下一跳不可达,所有 EVPN 路由从 RIB 中移除。
解决方法:需要重置所有 ToR BGP 会话,以便正确安装路由的下一跳。
✅ 某些 NAPI 调用返回 “content-type: text/html” 而不是 “content-type: application/json”,导致 SDK 失败。
NSX 9.0 SDK 对来自 NSX 的 API 的内容类型头有限制。一些 NAPI 调用返回 “content-type: text/html” 而非 “content-type: application/json”,导致 SDK 失败。
解决方法:使用早期版本的 NSX SDK。
✅ 如果 Other Hosts UI 中的记录超过 50 条,用户将无法查看 Hosts -> Other Hosts 的记录。
- Hosts -> Other Hosts UI 不显示分页条,无法浏览超过 50 条的其他主机记录。
- 用户无法看到不在前 50 条记录中的其他主机。
解决方法:当 Other Hosts 记录超过 50 条时,通过 API 查看或更新其他主机记录。
下载地址
VMware NSX 9.0
请访问:https://sysin.org/blog/vmware-nsx-9/
VMware NSX 9.0.1.0 发布
1万+

被折叠的 条评论
为什么被折叠?



