21、多Pod网络设计与互联技术解析

最新推荐文章于 2025-12-08 10:11:37 发布

原创最新推荐文章于 2025-12-08 10:11:37 发布 · 558 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#多Pod网络 #Spine-Leaf拓扑 #Overlay网络

多Pod网络设计与互联技术解析

1. 多Pod网络设计概述

在网络设计中，Overlay网络催生了“扁平”网络设计理念，这种设计有助于网络扩展和去除不必要的层级。不过，从操作简便性来看，分层网络设计实践同样适用于部署在 spine - leaf 拓扑之上的Overlay网络。

1.1 Spine - Leaf 拓扑基础

Leaf 层负责提供端点连接，除了虚拟交换机、FEX（Fabric Extender/Nexus 2000）、Cisco UCS FI（Unified Computing System Fabric Interconnect）或刀片服务器机箱中的交换机外，通常不存在额外的南向层级。但连接网络服务功能（如防火墙、负载均衡器、路由器等）仍是可行的选择。

在 leaf 下方连接完整的二层网络时，需要对 STP（生成树协议）进行特殊考虑，包括根放置、TCN（拓扑变更通知）处理和环路预防。因为像 VXLAN 这样的Overlay技术目前不传输 BPDU（桥协议数据单元）或 TCN。

传统的 spine 是简单的 IP/UDP 流量转发器，它不知道端点地址，其转发表只需根据 leaf 的数量进行扩展，而非端点数量。通过在同一阶段扩展 spine，不仅能增加带宽和弹性，还能保持之前提到的扩展性和操作简便性优势。

spine 的最佳数量由 leaf 上可用的上行链路接口决定。例如，在一个 leaf 有 6 × 40G 接口的拓扑中，最佳 spine 数量在 4 到 6 个之间，这考虑了基于 vPC 的部署，其中一些 40G 链路可能用于 vPC 对等链路。

下面是一个简单的 Two - Tier Spine–Leaf Topology 示意图：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(Spine 1):::process --> B(Leaf 1):::process
    A --> C(Leaf 2):::process
    D(Spine 2):::process --> B
    D --> C

1.2 多Pod网络的发展

在网络建设初期，可能使用包含两个 spine 和 N 个 leaf 的标准两层 spine - leaf 拓扑。随着数据中心需求的增长，需要更多的 leaf 和 spine。当添加新的 pod 时，会引入一组新的 spine，它们与最初部署的 spine 处于同一层级。

为了简化多Pod设计，引入了超级 spine 层。所有一级 spine 都连接到所有超级 spine，这样网络就从两层 spine - leaf 拓扑变为 n 级拓扑，n 表示 spine 层级的数量。在大多数实际部署中，一个超级 spine 层通常就足够了。

2. 多Pod网络中的控制协议与扩展性

2.1 MP - BGP EVPN 控制协议

在 n 级网络架构中，MP - BGP EVPN 控制协议是设计考虑的一部分。即使只有 VTEP 需要这些信息来进行转发决策，也需要在所有可用层级之间交换可达性信息。spine 或超级 spine 用作 BGP 路由反射器（RRs），以高效地分发这些可达性信息。

除了 BGP RRs 的放置，若使用组播来转发 BUM（广播、未知单播、组播）流量，还需要考虑会合点（RPs）的适当放置。

2.2 组播 OIF 扩展性

在 n 级或多级网络架构中使用组播和 RPs 还有一个优势，即可以扩展组播的输出接口（OIFs）。当一个 pod 中的 leaf 数量达到 OIF 限制时，上游的超级 spine 可以通过将组播树扩展到其他 spine 来增加扩展性。

例如，在一个简单的多Pod拓扑中，一个 spine 最多可以服务 256 个 OIF，代表 256 个 leaf，允许在 256 个 leaf 和作为 RP 的 spine 之间建立单个组播树。为了进一步扩展，需要在 spine 层达到最大 OIF 扩展之前拆分 pod。假设在达到 255 个 leaf 时进行拆分，spine 可以有 255 个南向 OIF 连接到 leaf，1 个北向 OIF 连接到超级 spine。如果超级 spine 也能扩展到 256 个 OIF，那么一组超级 spine 可以服务 256 个 spine。

从 OIF 角度来看，这种多Pod设计理论上可以将 leaf 数量从 255 个扩展到 65K 个。但在实际中，还需要考虑 VTEP 数量和前缀（MAC 和 IP）的整体扩展性。

下面是一个多Pod网络中组播 OIF 扩展的表格示例：
| 层级 | 最大 OIF 数量 | 可服务对象 |
| ---- | ---- | ---- |
| Spine | 256 | 256 个 Leaf |
| 超级 Spine | 256 | 256 个 Spine |

2.3 PIM Anycast RP 与 MSDP

为了实现不同 pod 之间的一定独立性，每个 pod 使用单个 PIM Anycast RP 是一种合理的方法。当需要在扩展二层 VNIs 时在不同 pod 之间流动 BUM 流量时，需要考虑不同 pod 之间的互连。

一种扩展 PIM Anycast RP 方法的方式是在每个不同的 pod 中使用相同的 RP 地址，并提供全网状邻居关系。在 spine 上配置任播 IP 地址可确保组播流量始终使用最短路径到达 RP，并保持在 pod 内。在必须使用 pod 本地 RPs 的 pod 中，可以使用不同的 PIM Anycast RP 集以及 Multicast Source Discovery Protocol（MSDP）来确保在 pod 之间交换组播源和接收组信息。

3. 多Pod网络中 BUM 流量转发方式对比

在多Pod网络中，BUM 流量的转发方式有组播转发和 ingress 复制两种，下面对这两种方式进行详细对比。

3.1 组播转发

当使用组播转发 BUM 流量时，由于流量沿着组播树转发，对于给定的 BUM 数据包，每个链路可以高效地传输单个数据包。随着 BUM 流量的增加，组播转发的优势会更加明显。

3.2 Ingress 复制

Ingress 复制会将单个 BUM 数据包复制到托管相同二层 VNI 的每个对等 VTEP。例如，在一个 VXLAN 域中有 256 个 VTEP，一个 VTEP 必须将单个数据包复制 255 次。以 64 字节的数据包为例，数据包源 VTEP 的上行链路将传输 255 × 64 = 16,320 字节，约 16KB。

如果考虑一个 VTEP 有 20 个活动端点，每个端点产生 1Kb/s 的 BUM 流量，这将导致 20Kb/s 进入 VTEP。假设远程 VTEP 数量为 255 个，这将导致 5100Kb/s（255 × 20Kb/s），即 637.5KB/s。

由于不太可能只有一个 VTEP 有活动端点发送 BUM 流量，其他 VTEP 下的端点也是 BUM 流量的生产者和消费者。因此，使用 ingress 复制处理 BUM 数据包时，网络中的流量可能会从兆比特每秒增长到千兆比特每秒。

在设计阶段，考虑将在多Pod拓扑上传输的应用程序流量的类型和体积非常重要，这有助于做出关于用于转发 BUM 流量的底层技术的正确决策。

4. 多Pod网络的其他特性

在 VXLAN BGP EVPN 网络中，并非所有 leaf 都需要为所有租户提供相同的二层和/或三层服务。leaf 可以分为集群，也称为移动域。移动域内的 leaf 配置有相同的二层和三层 VNI 集。一个具有公共 spine 的集群可以转换为位于单个物理数据中心位置的房间或大厅中的 pod。

此外，还有一些用例是将 pod 分布在几个近距离的数据中心中，以提供高可用性集的有限隔离。这种用例适用于一些城域数据中心方法，其中由于始终有灾难恢复站点可用，故障传播不是主要问题。

多Pod网络的一个主要优势是分布式 IP 任播网关。默认网关分布在所有可用的 leaf 或 VTEP 上，因此关于第一跳网关决策的影响仅限于连接到特定 leaf 的端点。这使得操作任务变得更加简单，因为不再像传统的三层（接入/聚合/核心）拓扑中的聚合或分布层交换机那样存在持有大多数网络功能的关键交换机对。

分布式任播网关在每个 pod 的 leaf 层可用，不需要特殊的本地化配置。与传统部署中的 FHRP 协议不同，在多Pod网络部署中，任何 pod 中任何 VTEP 上的端点之间可以实现最佳的一跳转发。

多Pod的存在还有几个操作优势。例如，如果需要对其中一个 pod 进行维护，而其他所有 pod 继续承载生产流量，该 pod 的维护可能会影响到该 pod 的Overlay连接性，但其他所有 pod 将继续独立运行，不受影响。这与大型扩展的两层 spine - leaf 拓扑不同，在后者中，一个 leaf 上的底层变更可能会影响整个底层路由域，进而影响Overlay。

5. 多Pod网络的底层路由设计

多Pod环境中的底层路由设计需要特殊考虑。底层路由必须能够交换 VTEP、BGP RR、组播 RP 和其他用于构建和维护 pod 的地址的可达性信息。

由于需要完全可见 VTEP 地址（IPv4 中为 /32，IPv6 中为 /128），并且不应使用汇总，因此路由域可以从分离中受益。在多Pod环境中使用内部网关协议（IGP）时，应考虑不同 pod 的区域分离。虽然这可以在一定程度上分离在 pod 之间发送的 LSAs（例如，使用 OSPF 时），但如果链路状态数据库受到错误信息（如重复的路由器 ID）的影响，整个底层路由可能会受到影响。

实现多Pod部署分离的其他方法包括使用存根区域并仅在 pod 之间注入默认路由。然而，这种方法会对Overlay控制协议的收敛产生重大影响，因为 VTEP 不再单独可见。如果远程区域中的 VTEP 发生故障，指向该区域出口的默认路由仍然存在，因此流量可能会潜在地黑洞，直到死定时器从控制协议中移除前缀。在这种情况下，必须权衡简单性与复杂性的好处。

可以通过使用 BGP 从底层角度互连 pod 来实现 pod 之间的强分离。但这种方法涉及到Overlay控制协议的影响，因为底层和Overlay控制协议合并（使用 BGP）。

如今，多Pod设计提供了在底层和潜在的Overlay控制平面中进行分层网络设计的选项。结果是保留了单个数据平面域。也就是说，无论流量是在同一 pod 内的端点之间还是跨 pod 转发，VXLAN 隧道始终在 leaf 处开始和结束。这意味着在所有 pod 中需要相同的二层和三层服务配置。这种方法还允许在多Pod环境中跨多个 pod 实现虚拟机移动性。

通过在每个 pod 中使用不同的 BGP 自治系统（AS）编号，可以实现不同 pod 中的Overlay控制平面分离。然而，这种分离仅涉及 BGP EVPN 功能集提供的控制协议内的处理功能。因此，每个 MAC 和 IP 的前缀规模成为整个多Pod环境中的全局考虑因素。如前所述，智能网络设计可以通过不要求在所有地方配置每个二层和三层 VNI 来在一定程度上分摊单个 leaf 的规模要求。

6. 多Pod网络的互联方式

在多Pod网络中，互联方式主要有在 spine 层互联和在 leaf 层互联两种，下面分别进行介绍。

6.1 在 Spine 层互联

当只有两个 pod 时，添加超级 spine 层或第三层可能不是必需的。在这种情况下，简单地互连 spine 可能就足够了。除了 BGP RR 和组播 RP 的放置外，spine 仅作为底层中单播和组播转发的 IP/UDP 转发器或路由器。

如果未来需要引入第三个 pod，这种设计可能会变得有点繁琐，因为 pod 之间的全网状连接需要额外的链路和配置。在这种情况下，引入超级 spine 层具有显著优势。

直接的 spine 背对背互连可能会使 spine 配置变得相当繁重，这违背了保持 spine 精简的原则。如果确实需要在 spine 层进行两个 pod 之间的互连，需要对比复杂性与简单性，以确定需要多大的分离度。由于Overlay是端到端的，并且Overlay控制协议在所有 pod 中存储了所有信息，这种配置可能是令人满意的。一旦引入额外的 spine 层（即超级 spine），可以通过 eBGP 方法进行底层路由协议更改。超级 spine 可以使用 BGP 作为唯一的路由协议保持精简，而 spine 则在其 IGP 域内将信息重新分发到 BGP 以进行跨 pod 交换。

下面是一个在 Spine 层互联的示意图：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(Spine 1 - Pod 1):::process --> B(Spine 1 - Pod 2):::process
    C(Spine 2 - Pod 1):::process --> D(Spine 2 - Pod 2):::process

6.2 在 Leaf 层互联

与在 spine 层进行背对背互连类似，在 leaf 层进行互连也是连接 pod 的一种可行方式。可以在 leaf 下方添加另一层，但在数据中心中，多个 pod 在 leaf 层互连可能会显得有点繁琐。

在 leaf 层互连在需要一定程度的地理分离并且相同的节点用于多Pod和外部连接时具有优势。

综上所述，在设计多Pod网络时，需要综合考虑网络的扩展性、操作简便性、BUM 流量转发方式、底层路由设计以及互联方式等多个因素，以构建一个高效、稳定的网络架构。

多Pod网络设计与互联技术解析

7. 多Pod网络互联方式对比

为了更清晰地了解在 spine 层互联和在 leaf 层互联这两种方式的特点，下面通过表格进行对比：
| 互联方式 | 优点 | 缺点 | 适用场景 |
| ---- | ---- | ---- | ---- |
| Spine 层互联 | 当只有两个 pod 时，简单互连 spine 配置相对简单；引入超级 spine 层后可应对网络扩展，且超级 spine 可使用 BGP 保持精简 | 未来扩展到三个及以上 pod 时，全网状连接需要额外链路和配置；直接 spine 背对背互连可能使 spine 配置繁重 | 网络规模较小，未来扩展需求不明确或可通过引入超级 spine 层应对扩展的场景 |
| Leaf 层互联 | 在需要地理分离且相同节点用于多 pod 和外部连接时具有优势 | 在数据中心中多个 pod 在 leaf 层互连可能显得繁琐 | 需要一定地理分离，且对节点复用有需求的场景 |

8. 多Pod网络设计决策流程

在设计多Pod网络时，可以遵循以下决策流程：

graph TD
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(确定网络需求):::process --> B(评估 BUM 流量):::process
    B --> C{选择 BUM 转发方式}:::process
    C -->|组播转发| D(考虑组播相关配置):::process
    C -->|Ingress 复制| E(评估流量增长影响):::process
    D --> F(设计底层路由):::process
    E --> F
    F --> G{选择互联方式}:::process
    G -->|Spine 层互联| H(考虑 spine 配置和扩展):::process
    G -->|Leaf 层互联| I(考虑地理分离和节点复用):::process
    H --> J(完成网络设计):::process
    I --> J

具体步骤如下：
1. 确定网络需求 ：明确网络的规模、扩展性要求、应用程序流量类型和体积等。
2. 评估 BUM 流量 ：分析网络中 BUM 流量的占比和增长趋势。
3. 选择 BUM 转发方式 ：根据 BUM 流量的特点，选择组播转发或 Ingress 复制。
4. 考虑组播相关配置 ：如果选择组播转发，需要考虑组播 OIF 扩展性、PIM Anycast RP 和 MSDP 等配置。
5. 评估流量增长影响 ：如果选择 Ingress 复制，需要评估流量增长对网络的影响。
6. 设计底层路由 ：根据网络需求和 BUM 转发方式，设计底层路由，考虑 VTEP、BGP RR、组播 RP 等地址的可达性信息交换。
7. 选择互联方式 ：根据网络的地理分布、扩展性要求和操作简便性等因素，选择在 spine 层互联或在 leaf 层互联。
8. 考虑 spine 配置和扩展 ：如果选择在 spine 层互联，需要考虑 spine 的配置和未来扩展的需求。
9. 考虑地理分离和节点复用 ：如果选择在 leaf 层互联，需要考虑地理分离和节点复用的需求。
10. 完成网络设计 ：综合以上步骤，完成多 Pod 网络的设计。

9. 多Pod网络的操作与维护要点

多Pod网络的操作与维护需要注意以下要点：
- 监控与故障排查
- 定期监控网络的性能指标，如带宽利用率、丢包率、延迟等，及时发现潜在的问题。
- 建立故障排查流程，当出现网络故障时，能够快速定位问题并进行修复。例如，当某个 pod 出现连接问题时，首先检查该 pod 的底层路由是否正常，然后检查 Overlay 控制协议的状态。
- 配置管理
- 对网络设备的配置进行统一管理，确保所有设备的配置一致且符合设计要求。
- 建立配置变更管理流程，在进行配置变更时，进行充分的测试和验证，避免因配置错误导致网络故障。
- 安全管理
- 加强网络的安全防护，部署防火墙、入侵检测系统等安全设备，防止网络遭受攻击。
- 对网络中的用户和设备进行身份认证和授权管理，确保只有授权的用户和设备能够访问网络资源。

10. 多Pod网络的未来发展趋势

随着数据中心规模的不断扩大和应用程序的不断发展，多Pod网络将呈现以下发展趋势：
- 更高的扩展性 ：未来的多Pod网络需要支持更多的节点和更高的带宽，以满足不断增长的业务需求。通过进一步优化 spine - leaf 拓扑和组播 OIF 扩展性等技术，实现网络的大规模扩展。
- 智能化管理 ：引入人工智能和机器学习技术，实现网络的智能化管理。例如，通过智能算法自动调整网络配置，优化网络性能；实时预测网络故障，提前进行预防和修复。
- 融合与创新 ：多Pod网络将与其他网络技术进行融合，如软件定义网络（SDN）、网络功能虚拟化（NFV）等，实现网络的灵活部署和资源的高效利用。同时，不断探索新的网络架构和技术，推动多Pod网络的创新发展。

总之，多Pod网络设计与互联技术是一个复杂而重要的领域。通过合理选择网络拓扑、控制协议、BUM 流量转发方式和互联方式，以及加强操作与维护管理，能够构建一个高效、稳定、安全的多Pod网络，满足数据中心不断发展的需求。同时，关注多Pod网络的未来发展趋势，积极探索新技术和新应用，将有助于提升网络的竞争力和适应性。