如何通过网络遥测(Network Telemetry)技术实现精细化网络运维?

随着互联网数据中心技术的升级,网络运维面临新挑战,尤其是高带宽下的微突发流导致的丢包问题。锐捷网络提出,通过Network Telemetry(INT+gRPC)技术,能实现流量可视化,快速定位丢包问题,实时监控Buffer使用和端到端时延,为精细化运维提供解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于AI、大数据的互联网应用推动了互联网数据中心产品、技术的快速升级。

首先,接入带宽从传统的10Gbps升级到25Gbps/100Gbps,需要基础网络提供高转发能力保障业务的高可用。

其次,基于RDMA(Remote Direct Memory Access,远程直接内存访问)无损以太网技术的普遍应用,实现了计算节点到存储节点的微秒级时延,大大优化端到端的业务转发性能,而这也意味着对网络运维提出了更高的挑战——如何在大规模、复杂的HPC(High Performance Computing)网络中实现更加精细的流量可视、可控?如何面向业务实现端到端的秒级故障定位,并为网络的持续优化提供精准的数据支撑?

锐捷网络认为,通过基于交换机硬件芯片的Network Telemetry技术方案(INT+gRPC),可以实现整网的流量可视化,为实现真正的可视化运维提供新的思路。查找了相关资料整了下,以下是锐捷专家的精彩解读。

网络运维新挑战 

为了保证业务的高可靠,基于Scale out方式实现的分布式计算和存储应用(Hadoop/ Map reduce/HDFS)得到了大规模使用,不仅摆脱了单服务器的计算、存储性能的限制,同时可提供更灵活的扩展性,能够快速响应业务需求变化,提高系统的可靠性、可用性和存取效率。

然而业务本身在网络中分布是不可控的,因此在实际网络流量模型中不可避免会出现多对一的通信模式,即 Incast模型。下图即典型的Incast通信模型:

▲ TCP Incast通信模型示意图

例如,当一台Master节点向一组Slave节点发起一个计算任务请求时,所有Slave节点几乎会同时返回计算结果数据,对于Master节点来说就产生了一个“微突发流”。对于合理的“微突发流”,可以依靠接入交换机设备内部的报文缓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值