目录
这篇文章主要讲的内容是Google在假设好B4后,从2013年以来到2018年5年时间内对B4的升级改造和技术更新,以及在运维过程中遇到的问题解决问题的经验总结,还有一些有待更进一步研究的开放性问题。因为本人并不是主要学的网络,只是选的课程相关,所以就来研读论文。选课老师说,国内很多互联网企业大多关注上层的应用,而对于这种底层的习以为常的技术研究的并不是很前沿,不过商业利益在那,Google研究B4也是为了私有网络,不过Google的开源分享确实有利于技术的发展,现如今科学技术越来越受到政治等因素的影响了。我在读的过程中也是查阅了好些资料,不好的地方欢迎批评指正。如果想了解更多关于SDN的可以看下“马绍文”大佬的文章(见文末参考文献)。
文章标题:B4 and After: Managing Hierarchy, Partitioning, and Asymmetry for Availability and Scale in Google’s Software-Defined WAN
一、B4的发展与挑战
本篇论文是有关B4[1]发展和挑战经验总结的第二篇,在B4继续发展5年后,谷歌再次发表论文介绍和总结其私有数据中心网络的技术和运维经验。上一篇阅读报告介绍了B4的整体网络架构和运行效果评估。本文将概括介绍B4数据中心网络5年来的主要技术难题及其解决方案和运维方面经验教训。
B4最初的设计是面向跨数据中心索引复制的,对于可用性的要求并没有太高。但随着广域网(WAN)流量的激增以及软件的快速发展,带宽需求每9个月翻一番,对于B4的服务水平目标(SLOs)要求也越来越高,达到了99.99%。因此,需要更加革新的技术方案来解决B4的扩展性和可用性的问题。
1. 扁平拓扑的问题
B4之前的站点物理拓扑为扁平拓扑结构,网络难以扩展,网络流量承载能力难以有效提升与带宽需求指数级增长相矛盾。为此谷歌增加了与现有B4站点临近的站点来提升网络容量。但是这种方法带来了三个问题:第一,站点数量增加导致集中式TE优化算法显著变慢。优化算法在站点级别的拓扑下运行时间超线性增长,这将导致数据平面故障时数据黑洞(数据流向失效链路)的时间也延长,无法满足可用性目标。第二,交换机有限的转发表空间使得站点数量增加较为困难。第三,最为重要的是,这种方法将导致网络容量规划更加复杂化,使得原本只需考虑集群之间的数据交换,变成了还需要理解集群内部单独B4站点的相关映射情况。最终谷歌选择并重新设计了层次化的物理拓扑结构。如图1. B4物理拓扑结构由扁平式第一代Saturn逐渐发展到层级式Stargate。

图1. B4网络物理拓扑结构发展图
Stargate提供了高达81.92Tbps的站点到外部容量,这些容量可以在WAN、集群和旁路间划分,相对简单的拓扑更加容易维护,并且比Saturn的站点容量提升了8倍以上,满足了流量增长的需求。
2. 层次化拓扑拓扑容量不对称
虽然层次化拓扑带来了可扩展性,但是也为TE带来了挑战。由于固有的网络维护、运维和数据平面设备的不稳定,在一定规模下容量不对称问题是不可避免的,主要表现为设计的超级节点(supernode)提供的承载流量的容量都是相同的,但是在具体数据传输过程中,有些超级节点的准入流量(即承载的数据容量)是明显少于设计标准的。

最低0.47元/天 解锁文章
2240





