- 博客(178)
- 收藏
- 关注
原创 软件定义的NPB:构建面向未来的网络可视化基座
传统的基于专用硬件的实现方案,例如使用TAP交换机/分流器等采集设备,其初期购置和维护成本显而易见,并且随着网络规模的扩大,采购和运维费用都将继续增长。NPB 2.0是基于 SONiC 的开放网络技术栈的前沿实践。
2025-11-24 16:40:22
630
原创 800G实现路径:核心技术、挑战与部署策略
800G技术基于400G成熟架构持续演进,延续PAM4编码技术将单通道速率提升至100G,通过8通道实现800G传输。关键技术突破包括QSFP-DD/OSFP封装标准、16芯MTP连接器和相干光学ZR方案。800G模块支持SR8/DR8/FR4/LR4等多种传输方案,应用场景覆盖100米至120公里距离。未来将向1.6T演进,面临16通道或200G单通道的技术选择。当前800G方案已实现与400G基础设施的平滑兼容,为数据中心提供灵活升级路径。
2025-11-17 15:51:09
445
原创 为何需要400G?驱动数据中心升级的关键因素
在当今数字浪潮中,企业数据中心刚刚开始在交换机上行链路中采用100G速率,然而行业标准已经为400G应用铺平道路,相关网络设备也已投入市场。尽管对多数企业而言,实现这一高速率仍需一些时间过度,但超大规模云服务提供商已经加速推进,不仅定义了市场方向,推动技术进步,更将在未来几年内将高速应用渗透至企业领域。
2025-11-14 12:05:10
1025
原创 OpenStack网络架构指南
简单来说,OpenStack 是一个开源的云计算管理平台项目,它允许你使用一套软件来构建和管理你自己的私有云或公有云。你可以把它想象成开源的、可以自己掌控的 Amazon Web Services(AWS) 或 Microsoft Azure。它提供了一系列组件来协调和管理数据中心内大量的计算、存储和网络资源,并将所有这些资源以一个云的形式提供给用户。
2025-11-11 10:19:07
577
原创 为什么说硬件BFD是现代高性能网络的必备能力?
BFD Acceleration(BFD加速)指的是一系列通过硬件卸载或内核优化技术,将BFD报文的处理从设备的中央处理器(CPU)转移到专用硬件或高速处理平面的方法。目标在于:在维持毫秒级检测精度的同时,极大地降低CPU占用率,并支持大规模BFD会话的稳定运行。
2025-11-06 10:52:52
694
原创 BFD 故障检测机制详解
BFD (Bidirectional Forwarding Detection)的是双向转发检测。它是一个用于快速检测两台网络设备之间通信故障的轻量级、低开销的协议。可以把它想象成一个在网络线路上运行的、频率极高的“心跳检测”或“雷达系统”。
2025-11-03 14:27:14
735
原创 告别监控盲区:深度采集RoCE网卡内部数据
当下大规模AI训练成为常态,RoCEv2凭借高性能、低延迟与低CPU开销的优势,已成为构建智算中心的优先选择。然而,RoCE对网络无损的严苛要求,配置不当会放大拥塞,如 PFC、ECN、Buffer滞留等引发的高延迟、性能下降等,而这些问题统一表现为“GPU通信异常”。而逐项排查的操作相当繁琐。
2025-10-29 10:09:25
1021
原创 SONiC控制面 + VPP数据面:AsterNOS-VPP的高性能开放之路
AsterNOS-VPP 是星融元继数据中心和园区网络场景后,面向边缘路由场景推出的开放网络操作系统,其融合了 SONiC 强大的控制面能力以及 VPP 的高性能数据转发能力,实现新一代企业级园区路由器和防火墙等功能,帮助用户构建高性能、灵活性和成本效益的网络环境
2025-10-22 14:10:57
370
原创 基于INT与Flowlet的自适应路由:提升数据中心性能的关键
自适应路由交换是一种智能的网络数据转发技术。它能够让网络设备(如路由器、交换机)实时地根据当前网络的状况(如链路拥堵、故障),自动地、动态地为数据包选择一条最优的传输路径。
2025-10-20 10:34:13
597
原创 AP逃生策略解析:控制器如何构建高可用无线网
在高度依赖无线接入的企业与校园环境中,认证服务器(如 Portal 或 802.1x)一旦故障,往往意味着网络“瘫痪”——终端无法接入,业务被迫中断。有没有一种机制,能够在认证服务不可用时,依然维持基本网络访问,保障关键业务不中断?
2025-10-14 12:14:23
620
原创 DCBX在RoCE组网下的典型应用与部署指南
DCBX(Data Center Bridging Exchange)协议是实现数据中心网络自动化配置的核心技术,能够显著降低运维负担,减少因人工配置错误导致的网络故障。DCBX 为大规模组网中 RoCE 配置的自动同步奠定了技术基础,具体内容将在后续文章中深入介绍。
2025-10-09 14:02:13
571
原创 DHCP:部署方式与典型应用场景详解
DHCP(动态主机配置协议)的部署复杂度不能一概而论,它主要取决于你的网络规模、具体需求以及你对网络管理的熟悉程度。简单来说,小型网络部署DHCP非常直接,而大型企业网络则会复杂得多。
2025-09-29 11:02:01
705
原创 什么是ECN?它是如何解决网络拥塞问题的?
ECN(Explicit Congestion Notification)是一种改进后的拥塞控制方法,它不依赖于丢包来指示拥塞,而是在数据包的头部标记拥塞发生的信号。ECN通过向数据包的 IP 头部添加一个特殊的标记位告知发送方网络发生了拥塞。
2025-09-25 13:58:03
1024
原创 基于Flowlet的ARS(自适应路由切换)技术在RoCE网络负载均衡中的应用与优势
当前主流的负载均衡技术主要包括三种类型:逐流的ECMP负载均衡、逐包负载均衡以及基于子流(Flowlet)的负载均衡。本文将从技术原理、优缺点及适用场景等方面对这三种技术进行系统对比与分析。
2025-09-22 13:55:47
981
2
原创 详解DCQCN和PFC的协同工作机制:从局部制动到全局调速
在现代RDMA数据中心网络中,PFC和DCQCN必须同时部署。PFC为RDMA提供了一个安全的、无损的链路层保障,而DCQCN则在更上层智能地管理流量,防止PFC的负面效应出现并优化全局网络效率。它们一快一慢,一局部一全局,共同构成了RoCE网络的拥塞管理基石。
2025-09-15 11:22:48
800
原创 OLT Stick:替代独立OLT设备,赋能开放云化园区网
PON 是一种基于光纤的网络接入技术。其传输路径中不依赖需要额外供电的设备,而是依靠无源光器件以点对多点的拓扑结构去分发和汇聚信号,即,将信号从单根光纤通过光分路器分配到多个用户端点,并利用WDM技术在单根光纤上实现双向通信。
2025-09-08 13:50:21
730
原创 跨越域冲突:多实例并发与PTP可配置性的融合之道
PTP之所以需要高度可配置的特性,并非出于复杂化的目的,而是为了应对多样化的现实应用场景和网络环境的必然要求。没有一种“一刀切”的配置能在所有网络中同时实现最佳精度、最高稳定性和最低资源消耗。 PTP的可配置性正是为了在这些因素之间取得最佳平衡的方式。
2025-09-05 16:32:56
715
原创 PTP高精度时间同步的核心:E2E与P2P延迟补偿机制
PTP的核心目标是让网络中的所有时钟与最精确的时钟(Grandmaster Clock)同步。为了实现纳秒级的同步精度,PTP必须计算并补偿报文在网络中传输所产生的链路延迟(Link Delay)。
2025-09-01 17:13:28
1094
原创 一文看懂 PTP(精确时间协议)及SONiC上的最新优化实践
PTP 用于为时间同步敏感的系统和应用程序在局域网或广域网上创造高精度时间同步的环境,往往需要通过硬件辅助才能实现。PTP 在 IEEE 1588 标准中定义,目前已发展到的 IEEE 1588 v2 具有双向通道、纳秒级精度、广泛适应不同接入环境。
2025-08-26 10:17:24
1132
原创 自动化+可视化的智算中心多租户网络配置工具
多租户网络(Multi-Tenant Network)是一种在云计算环境中实现网络资源虚拟化的关键技术,其核心目标是通过共享底层物理网络基础设施,为多个独立租户(用户、企业或部门)提供逻辑隔离的专属网络环境,同时还要满足动态性、安全性和服务质量需求。
2025-08-22 10:08:57
637
原创 SONiC开源社区生态背后的开放网络革命引擎
SONiC通过将SAI作为南北向互联的中间件,屏蔽不同ASIC之间的驱动差异,也正是由于SAI的存在,SONiC的网络功能应用才能够支持多个厂家的ASIC。网络软件建立在SAI(交换机抽象接口,SAI接口适配ASIC的工作由各个厂家实现)上,使其可以运行在各种硬件设备中,形成白盒交换机软件生态链。
2025-08-13 16:15:33
993
原创 分布式网关技术 + BGP EVPN,解锁真正的无缝漫游
运用标准化的802.11k/v/r协议实现快速链路层切换,并通过分布式网关架构结合BGP EVPN技术智能处理IP层连续性,最后依托本地化、最优化的流量转发路径——星融元完整的技术方案,成功实现了业界领先的超低漫游时延。
2025-08-05 17:48:38
901
原创 分布式存储性能跃迁指南:RoCE无损网络设计与优化
分布式存储的性能瓶颈往往在于网络。如何构建一个高带宽、超低时延、零丢包的无损网络,是释放分布式存储全部潜力、赋能企业关键业务(如实时数据库、AI训练、高性能计算)的关键挑战。
2025-08-04 10:59:02
680
原创 破解哈希极化:基于主动路径规划的智算网络负载均衡方案
智算集群对网络性能,特别是高吞吐、低延迟和无损特性有着严苛要求,RoCE因此被广泛应用。然而,在主流Clos组网架构下,传统的ECMP路由机制存在天然的局限性,容易引发哈希极化问题,成为制约集群整体性能的瓶颈。本文将探讨哈希极化的成因、影响,并介绍一种通过主动路径规划(PPD)来优化网络配置、提升性能的解决方案。
2025-07-21 16:01:09
997
原创 开放网络的容器化未来:SONiC在AI智算与园区的落地实践
传统封闭式网络设备在灵活性、成本控制和创新速度上的瓶颈日益凸显。全球云服务商率先推动网络软硬件解耦,SONiC应运而生——这一由微软开源、基于Linux的网络操作系统,正以“网络界的Linux”之势重构数据中心基础设施生态。
2025-07-14 16:36:52
985
原创 收藏备查!精要解读超以太网联盟(UEC)1.0 规范(2025Q2)
随着AI与高性能计算(HPC)集群对网络带宽、时延和拥塞管理的要求日益严苛,传统以太网在超大规模场景下面临瓶颈。为此,超以太网联盟(UEC) 在Linux联合开发基金会(JDF)下成立,致力于构建新一代高性能以太网标准。
2025-07-11 17:49:21
1147
原创 边缘计算新底座:基于VPP+DPDK的开放智能网关
VPP 这一开源技术在通用 CPU 的基础上,实现了传统上需要专门的网络硬件设备(如路由器)和专业的网络操作系统才能达到的性能,以极高的性价比为广大用户带来了开放网络技术的红利。VPP 集成了DPDK项目,通过它直接访问硬件网卡资源。
2025-07-07 16:14:13
1043
原创 基于路径质量的AI负载均衡异常路径检测与恢复策略
针对AI流量突发性和高带宽需求导致的网络拥塞问题,本文提出基于路径综合质量的动态WCMP负载均衡机制。该系统通过实时监控路径延迟、丢包率等关键指标,计算综合质量得分并设定阈值,自动剔除异常路径,同时根据健康路径质量动态分配流量权重。被剔除路径在质量恢复后重新加入负载均衡。这种机制有效解决了传统均衡策略在AI场景下的不足,通过智能调度优化网络性能,为AI计算提供稳定高效的基础设施支持。
2025-07-03 15:48:41
782
原创 当千卡集群遭遇RoCE丢包——你的网络规划工具够“智能”吗?
随着AI算力集群规模指数级增长,网络架构复杂度陡增。传统网络规划依赖人工计算与经验判断,存在效率低、易出错、可视化弱三大痛点。尤其在RoCE(RDMA over Converged Ethernet)网络场景中,需协同计算、存储、管理等多类网络,并确保无损传输特性——EasyRoCE-AID 正是为解决这一挑战而生。
2025-06-30 14:20:02
370
原创 从均分到优选:基于BGP扩展的动态智能选路技术实战
传统BGP协议虽能实现路由可达性,但缺乏对路径质量的动态感知能力,导致流量分配不均、高延迟链路未被规避等问题。为提升网络资源利用率,动态智能选路技术应运而生。该技术基于BGP扩展机制,通过实时收集路径质量指标,实现数据流的智能调度,显著优化高吞吐场景(如分布式存储、AI训练)的性能。
2025-06-24 11:46:15
860
原创 动态WCMP+Flowlet ALB:双引擎驱动智算网络负载均衡
人工智能(AI),特别是大规模模型训练和推理,正以前所未有的方式重塑数据中心网络。传统的“尽力而为”网络架构,在处理海量、突发的AI数据洪流时捉襟见肘。AI模型对网络性能的严苛要求——高带宽、低延迟、零丢包——迫使网络必须进行一场深刻的智能进化,从被动的基础设施转变为理解业务、感知状态、智能决策的“AI感知网络”。
2025-06-20 14:50:57
1068
原创 多租户园区网络革命:云化架构+极简运维,破解千企接入难题
新一代云化园区网解决方案,创新性地将数据中心级的Spine/Leaf架构以及“全三层”、“云架构”、“超堆叠”、“云漫游”等设计理念应用于园区场景,显著提升网络服务质量和运维水平。面对多租户场景下更严苛的资源隔离、安全保障和自动化运维需求,本方案提供了系统性解决思路
2025-06-16 16:04:40
1183
原创 突破AI瓶颈:基于实时感知的智能选路实现智算负载均衡优化
为了从根本上优化AI流量的传输效率并最大化集群利用率,我们设计并实践了基于多维度网络状态感知的动态智能选路技术。该技术的核心创新在于,聚焦关键影响因子,摒弃单一指标,精准识别并引入在AI集群网络环境中对性能影响最为显著的动态参数作为核心计算因子…
2025-06-13 15:08:43
944
原创 一机多用,解耦未来!如何一站式搞定中小企业网络、路由、安全
基于开放架构的智能业务处理平台,通过算网融合芯片与模块化设计,实现软硬件解耦,将网络、路由、安全等功能集成于单一设备,为中小企业提供高性能、易维护的一体化解决方案。
2025-06-09 14:17:36
164
原创 破解空口资源困局!云园区网络如何实现无线性能倍增?
无线空口是无线通信系统中,用户设备与基站之间通过无线电波进行信息传输的接口规范的总称。你可以把它理解为移动设备(如手机、平板、物联网设备)和网络基站(如蜂窝基站、Wi-Fi路由器)之间“看不见的数据高速公路”。它定义了信号如何在空中“行走”的规则。
2025-06-03 13:35:19
645
原创 算力革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑
本文将深度解析 AI 智算场景打造的800G AI RoCE交换机,从外部规格的硬件创新到内部架构的芯片级设计,从企业级操作系统的功能突破到实测数据的性能验证,全方位展现其如何通过领先的技术架构破解 AI 训练与推理中的网络效率瓶颈,助力数据中心在高带宽、低延迟、高可靠性的需求下实现算力资源的最优配置。
2025-05-27 18:24:31
966
原创 如何破解GPU集群集合通信路径的“黑盒”难题?
集合通信库(如NCCL、HCCL)的运行细节用户完全无感知,形成“黑盒”状态。EPS通过实时解析集合通信库的底层运行状态,将隐蔽的通信路径、GPU与网卡状态等信息可视化,并提供智能路由推荐,帮助用户快速优化集群性能。
2025-05-22 09:59:47
779
原创 从被动响应到主动防御:云化重构下园区网络运维的范式突围
随着企业数字化转型加速,传统园区网络架构在运维效率、成本控制等方面面临严峻挑战。星融元基于云原生理念打造的园区网络解决方案,通过前两阶段的技术架构革新,已成功实现中大型园区基础网络的云化重构。本文将重点阐述进入运维阶段的三大核心能力体系。
2025-05-19 17:19:59
960
原创 企业网络新选择:软件定义架构下的MPLS
随着现代企业园区网络和运营商级基础设施的不断发展,多协议标签交换 (MPLS) 已成为一项基础技术,这要归功于其高效的数据包转发、高级流量工程功能以及对多租户环境的强大支持。
2025-05-14 18:21:45
800
原创 AI驱动网络范式革新:Smart Switch与智能路由的协同进化
在GPT-4o参数规模突破10万亿、千卡集群成为AI训练标配的今天,全球互联网正经历着前所未有的流量风暴。当单次模型训练可产生相当于YouTube全球三日流量的数据洪流,当分布式推理系统要求微秒级延迟保障,传统网络架构的流量调度机制正面临系统性崩塌。路由技术如何破局AI流量洪峰?
2025-05-12 16:33:56
994
星融元国产高性能DPU智能网卡,即将开源!
2023-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅