自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(131)
  • 收藏
  • 关注

原创 多网卡场景智能路由新思路:批量自动配置?

当传统路由设置方法在智算环境下失效,一个可行的应对方式是提前规划GPU服务器内的路由,借助Linux的多路由表和策略机制实现更加灵活、精细的流量控制和路由管理功能,但也伴随着一定的复杂性和潜在风险。主要表现为流量路径选择错误、默认路由冲突、策略路由配置复杂等问题。

2025-03-31 14:46:42 382

原创 DeepSeek组网的演进与效率提升

近年来,千亿至万亿参数规模的大语言模型(LLM)训练已成为人工智能领域的核心战场。随着模型复杂度的指数级增长, 并行计算与网络拓扑的协同设计逐渐成为突破算力瓶颈的关键挑战。在,全局梯度同步(All-Reduce)对网络带宽提出严苛要求。早期的CLOS架构凭借无阻塞特性支撑了大规模集群的扩展,但其高昂的硬件成本与能效问题催生了Dragonfly等低直径拓扑的兴起,通过自适应路由减少跨节点跳数。与此同时,中的张量切分与流水线编排,则依赖于NVLink域内直连或Torus环形网络的低延迟特性,减少通信开销。

2025-03-24 18:27:58 988

原创 PTP协议赋能高精度时间同步网络

PTP(精确时间协议,Precision Time Protocol)是一种基于IEEE 1588标准的网络时间同步协议,旨在为分布式系统中的设备提供亚微秒级(甚至纳秒级)的高精度时钟同步。其核心目标是通过消除网络传输延迟的不确定性,确保跨设备的动作、数据采集或控制指令在严格统一的时间基准下执行。

2025-03-14 14:50:15 912

原创 从30%丢包到零延迟:DeepSeek大规模集群通信优化的关键技术解析

近年来,生成式人工智能(Generative AI)的突破性发展,将大语言模型(LLM)和深度学习系统的算力需求推向了前所未有的量级。

2025-03-10 12:03:32 794

原创 尝试私有化部署DeepSeek?至少九成工程师会忽略这一点

近期,DeepSeek 已成为各行业关注的焦点。其卓越的语言理解和生成能力使其能够精准处理各种复杂的自然语言任务,无论是文本生成、语义理解还是智能对话,都能轻松应对。随着 DeepSeek 的迅速走红,众多厂商纷纷加入这一技术浪潮,积极接入这一强大的语言模型。从互联网科技巨头到传统制造业企业,从金融行业到教育领域,DeepSeek 的应用范围不断扩大,成为推动企业数字化转型和智能化升级的重要力量。在此趋势下,越来越多的企业开始选择私有化部署 DeepSeek,以更好地满足自身业务需求。

2025-03-05 17:57:59 574

原创 RDMA网络监控攻略!共享开放技术成果

RDMA技术对网络丢包非常敏感,因此,为了充分发挥RDMA的性能,需要构建一个无丢包的网络环境,即无损网络,通过PFC(优先级流量控制)和ECN(显式拥塞通知)等技术,确保网络在高负载情况下仍能保持低延迟和高吞吐量。这种技术显著降低了延迟和CPU开销,提高了数据传输的效率。SNMP监控的应用场景其实相对广泛,比如监控路由器、交换机、防火墙等网络设备的接口流量、CPU利用率、内存使用情况、服务器硬件的硬盘空间、电源状态等,但SNMP监控也存在轮询机制导致的数据收集实时性较弱、可扩展性弱、配置管理繁琐等问题。

2025-03-03 11:29:24 873

原创 园区网破局(一):看云化路由设计如何引领网络升级

在数字化转型的浪潮中,传统园区网络面临着诸多挑战,逐渐难以满足企业日益增长的业务需求。在架构层面,传统园区网络多采用 “接入 - 汇聚 - 核心” 的三层架构,容易产生二层网络广播风暴、网络环路等问题,可靠性、易拓展性也有待提高......在运维方面,网络部署需要网络管理员手工通过命令行或 Web 管理等方式,逐台配置设备。对于规模较大的园区,手工重复工作量大,配置繁琐,新业务上线周期长。一旦网络出现故障,定位和解决问题往往依赖专业人员的运维经验,故障排查时间长,影响业务正常运行......

2025-02-21 14:08:12 1045

原创 最新消息!P4 软件开发环境(Intel P4 Studio SDE)现已开源

Intel P4 Studio 软件开发环境 (SDE)是一套支持用户使用P4语言对P4可编程以太网交换机数据面进行编程的软件包,编译好的数据面程序可以运行在Tofino芯片上或是SDE中的模拟芯片上。该软件包还包含用于构建和安装 SDE 的脚本。

2025-01-24 14:15:48 450

原创 浅谈VPP与DPDK技术以及产业界应用实例

与矢量包处理相对的是传统的“标量(scalar)”处理。在标量处理模式下,系统一次仅处理一个数据包,完成整个包处理流程后再处理下一个包。在这种模式下,每个数据包都需要独立分配计算资源、缓存管理、并经历上下文切换。当网络I/O速度很高时,这些额外的开销与处理单个包的时间相近,导致效率低下。批量处理多个数据包:VPP通过将一组数据包(典型为64个或更多)组合成一个“矢量”,在每个节点中一次性对这些数据包进行处理。

2025-01-21 15:48:24 1012

原创 [A-Lab]部署教程:在VM上进行Soft-RoCE的功能验证与性能测试

本文档主要讲解如何在RHEL的社区发行版Rocky8.5系统上配置部署SoftRoCE,进行TCP/IP模式和SoftRoCE模式的性能对比测试,以及是否可以正常运行MPI应用。

2025-01-17 10:10:00 436

原创 2024星融元年度盘点

更多详细信息,请前往。

2025-01-09 16:41:15 99

原创 SONiC交换机 PK IB交换机,是“越级碰瓷”还是“有点东西”?

聊起AI、HPC或其他无损传输网络场景,RoCE or IB 无疑是个老生常谈的话题了。简言之:RoCE 实际上只是将成熟的IB传输层和RDMA移植到了同样成熟的以太网和IP网络上。IB因其是最早支持RDMA的协议,起步早,技术成熟,在一整套专用软硬件体系加持下,可提供极致的低时延传输性能,但同时也因供应商唯一,导致整体TCO较高。与之相对的,RoCEv2在互操作性和成本上的显著优势被认为更适合大规模部署,例如今年xAI公司在美国孟菲斯建设的十万卡AI集群,便是使用400GbE以太网构建的无损高速网络。

2025-01-09 16:36:41 1022

原创 【A-Lab】部署手册:开源AAA解决方案 —FreeRADIUS

RADIUS(Remote Authentication and Dial-In User Service)是做拨号用户接入认证和服务请求认证的网络协议。RADIUS提供中心式认证、鉴权和计费(AAA)能力,用于管理接入用户使用网络资源。RADIUS允许使用集中式的数据库来保存所有用户的配置信息,以供所有用户共享使用。FreeRADIUS是一个开源的、模块化、高性能并且功能丰富的一套RADIUS程序,包含服务器、客户端、开发库和一些额外的相关RADIUS工具。

2025-01-06 14:06:37 954

原创 【A-Lab】配置指导:开源AAA解决方案 —FreeRADIUS

表1:硬件环境。

2024-12-30 11:57:57 528

原创 一文读懂:企业园区无线网技术及部署指南

无线网络直接影响整体网络性能,在当今企业网环境中,已有超过一半的数据流量通过无线信道传输,随着物联网技术的普及,无线网将承载更多的关键业务流量。企业/园区场景的无线网络值得考虑的关键因素有很多,例如终端移动性,AP 漫游能力和覆盖范围、带宽和吞吐量、延迟、信道、射频干扰等。当然,还有网络安全配置和用户认证等等。无论是新建还是升级无线网络,在采取行动之前回顾并更新有关无线网的关键知识是绝对必要的,我们将从以下几个方面入手,希望这篇文章帮助您做出更好的选择。

2024-12-24 14:36:33 833

原创 【A-Lab】配置指导:CX-N的ZTP功能验证-以MC-LAG场景为例

零配置部署ZTP(Zero Touch Provisioning)是指新出厂或者空配置设备(要求设备的/host/ztp/ztp_data.json不存在以及/etc/sonic/config_db.json没有被改动还是默认配置状态)上电时自动加载开局文件(配置文件、升级文件)的功能,实现设备的免现场配置和部署,从而降低人力成本,提升部署效率(需要提前编辑好设备配置文件)。本文旨在指导使用ZTP方式自动化完成CX-N设备的MC-LAG场景的配置工作。

2024-12-20 14:52:44 724

原创 【A-Lab】分析NCCL-Tests运行日志优化Scale-Out网络拓扑

顾名思义,Ring算法构建了一个环形网络——每个节点的数据会被切分成N份数据在所有GPU之间移动,且每个GPU只和相邻的GPU通信。NVIDIA提供的NCCL是当前面向AI的集合通信事实标准,NCCL-Test 是 NVIDIA 开源的工具,我们可以在官方Github下载来进行不同算法的性能测试(例如:ring,trees…为了优化集合通信性能,业界开发了不同的集合通信库(xCCL),其核心都是实现 All-Reduce,这也是分布式训练最主要的通信方式。

2024-12-12 17:59:04 1223

原创 【A-lab】星融元CX-N下基于REST API方法的VXLAN EVPN场景验证

(以下简称CX308和CX532)搭建的网络上,使用BGP EVPN自动化地创建VXLAN隧道、传递虚拟路由,完成其连接的Server的数据包封装及解封装工作。REST API与Klish命令行不兼容,使用REST API的前提就是修改cli-mode为bash。注:REST API目前无法涵盖所有功能,因此部分功能配置依然依赖命令行进行配置。执行REST API需要登陆对应的交换机后,才能调用其接口。查看VXLAN VTEP。查看VXLAN VTEP。

2024-12-12 17:56:50 638

原创 【A-Lab】Multi-homing验证方案 —基于EVPN的高可靠方案

本文主要描述在CX-N的云区组网中,通过EVPN Multi-homing的方案实现一台Server同时在多台交换机上挂载,提供all-active 冗余机制,实现负载均衡、故障收敛等功能。

2024-12-12 17:49:08 673

原创 【A-Lab】安装指导-基于Proxmox VE的安装部署和性能测试

Proxmox VE (Virtual Environment) 是一个开源的虚拟化平台,它基于 Debian GNU/Linux 发行版,并集成了 KVM (Kernel-based Virtual Machine) 和 LXC (Linux Containers) 两种虚拟化技术,提供了一套完整的虚拟化解决方案。以下为PVE架构图:​图1.1:PVE架构Proxmox VE管理界面:提供了易于使用的Web界面,用于管理虚拟机、容器、存储、网络和集群等。

2024-12-11 15:48:23 1101

原创 【A-Lab】星融元云网扩容方案验证 —扩容Pod和新增Pod方案

新增Pod(共享Border)的扩容方案中,扩容期间,原Pod的Overlay网络(172.16.1.0/24)和Underlay网络(10.0.0.0/24)的通信一切正常,不会受到影响。对于扩容Pod方案,在扩容期间,原Pod的Overlay网络(172.16.1.0/24)下的接入设备的通信一切正常,不会受到影响。no shutdown原Pod设备上的互联口,完成扩容设备的正式接入之后,Server3立即可以分别ping通Server1和Server2。

2024-12-11 15:22:31 581

原创 【A-Lab】基于星融元CX-N产品的MC-LAG应用场景配置

MC-LAG(Multi Chassis Link Aggregation Group,跨设备链路聚合组)是一种实现跨设备链路聚合的机制,通过将一台设备与另外两台设备进行跨设备链路聚合,保留了普通链路聚合的优点,同时提供了设备级别的冗余。

2024-12-11 15:13:21 1092

原创 【预告】星融元参展CDCE:精彩看点不容错过

12月5-7日,星融元将参加2024国际数据中心展(CDCE),扫描下方二维码立即报名。

2024-11-28 17:20:42 206

原创 星融元与焱融科技AI分布式存储软硬件完成兼容性互认证

焱融科技和星融元,分别作为专业、领先的 AI 存储服务提供商和开放网络解决方案提供商,致力于提供高带宽、低延时、高可靠的数据存储与传输解决方案,为 AI 和 HPC 等高性能工作负载提供坚实支撑,保障先进算力的高效释放,加速企业创新成果落地。,面向 AI/ML 智算中心和云计算数据中心提供一站式全开放网络解决方案,以其构建的超低时延无损以太网,通过 RDMA 技术在以太网上的实现,帮助高性能计算方案突破网络瓶颈,为计算集群提供低时延、零丢包、高性能的网络环境。

2024-11-20 16:54:20 654

原创 揭秘超以太网联盟(UEC)1.0 规范最新进展(2024Q4)

近期,由博通、思科、Arista、微软、Meta等国际顶级半导体、设备和云厂商牵头成立的超以太网联盟(UEC)在OCP Global Summit上对外公布其最新进展——UEC规范1.0的预览版本。让我们一睹为快吧!

2024-11-18 18:08:00 1917

原创 案例验证:分析NCCL-Tests运行日志优化Scale-Out网络拓扑

NVIDIA提供的NCCL是当前面向AI的集合通信事实标准,NCCL-Test 是 NVIDIA 开源的工具,我们可以在官方Github下载来进行不同算法的性能测试(例如:ring,trees…)。本次测试使用All reduce的ring算法来进行性能评估。

2024-11-12 18:45:30 928

原创 RoCE与IB对比分析(二):功能应用篇

在拥塞控制方面,RoCE结合了PFC, ECN和DCQCN提供了一套开放的方案,IB则拥有基于Credit的一套高度集成的方案,但在应对大规模集合通信流量时均有所不足。在QoS方面,RoCE可以实现每个优先级的带宽保证,而IB仅能实现高等级的优先转发。在ECMP方面,两者均实现了基于Hash的负载分担。总结来看,IB具备已验证的高性能和低延时优势,RoCEv2则在互操作性、开放性、成本效益方面更胜一筹,且从市场占比及认可度来看,RoCEv2逐渐比肩IB;

2024-11-06 16:44:03 1381

原创 RoCE与IB对比分析(一):协议栈层级篇

RoCE和InfiniBand均是InfiniBand Trade Association(IBTA)定义的网络协议栈,其中Infiniband是一种专为RDMA设计的高性能网络,它从硬件层面确保了数据传输的可靠性,为了进一步发挥RDMA的优势,IBTA在2010年定义了RoCE。RoCE则是Infiniband与以太网技术的融合,它在保持Infiniband核心优势的同时,实现了与现有以太网基础设施的兼容性。

2024-11-06 16:31:49 1842

原创 产品动态 | 星融元 AsterNOS 可用于 Celestica 品牌白盒交换机

经过严格的软硬件兼容性测试和调优,AsterNOS 将可在天弘集团(Celestica,以下简称“天弘”)DS3000(基于Broadcom Trident III 交换芯片的 40GbE/100GbE 白盒交换机)和 DS2000(基于 Broadcom Trident III 交换芯片的 10GbE/25GbE 交换机)上使用,以上两款交换机将加入AsterNOS硬件兼容列表,为数据中心客户提供完整的交换机软硬件一体系统。这一转变不仅是技术上的进步,也是市场对成本效益和灵活性迫切需求的反映。

2024-10-25 09:46:15 419

原创 一文梳理:如何构建并优化GPU云算力中心?

目前最常见的AI算力中心部署的GPU集群大小为 2048、1024、512 和 256,且部署成本随 GPU 数量线性增长。本文将以相对折中的1024 GPU卡(H100)的规模为例展开分析。

2024-10-25 09:45:34 1381

原创 全流程演示:如何从0到1构建分布式GPU计算环境

本文将从硬件选型,到服务器侧的基础配置、GPU驱动安装和集合通讯库配置,以及无损以太网的启用,直至大模型导入和训练测试,带您跑通搭建分布式计算环境的全流程。

2024-10-22 10:34:15 2443 1

原创 传统P4交换芯片停产后的技术支持与替代方案

P4是一种开源的、数据面的高级编程语言。P4和基于P4的芯片平台(Tofino)自诞生以来便引起了学术界与工业界的广泛关注。但就在今年8月,Intel宣布Tofino产品即将停产,最后停产的订单日期截止到10月30日,这将为Tofino产品的生命周期画上一个句号。

2024-10-17 13:45:35 575

原创 算力基础篇:从零开始了解算力

算力即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为算力。比如人类大脑、手机以及各类服务器对接收到的信息处理实际都属于算力的应用。图1:信息处理过程随着信息技术的不断发展,《中国算力白皮书(2022)》中将算力明确定义为数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。

2024-10-16 11:00:20 1773

原创 P4可编程技术详解:从理论到硬件实现

P4网络可编程技术在提升网络性能、降低投资和运维成本以及促进网络创新方面具有显著价值。面对灵活多变的网络需求,P4提供了新的解决方案。在未来三年内,我们仍可使用P4可编程技术来应对不断增长和演变的网络挑战。

2024-10-10 15:49:34 1938

原创 星融元P4交换机:在全球芯片短缺中,为您的网络可编程之路保驾护航

P4语言的编译器设计体现了模块化思想,各个模块通过标准化配置文件进行信息交换。这种设计赋予了P4语言三大关键特性:协议无关性、目标无关性和可重构性。它允许用户自定义数据平面的报文处理逻辑,提高了数据平面的可编程性,使得网络设备能够灵活地支持各种新兴的协议和功能。

2024-10-09 13:54:49 1203

原创 深度剖析800G以太网:优势、挑战与发展

随着AI技术的快速发展,尤其是大模型的训练和推理过程,数据量呈爆炸式增长,这也对底层基础设施提出了更高的要求,网络传输必须朝着更高带宽和更高密度的方向发展以满足需求。800G以太网在400G的基础上进行扩展,提供800Gbps的数据传输速率。

2024-09-30 11:15:09 1068

原创 深入解析:WiFi 6与WiFi 7无线漫游技术及其实施方案

本文详细介绍了WiFi 6基于802.11k/v/r协议实现的无缝漫游技术,并展望了WiFi 7在带宽、时延、多用户性能及链路机制等方面的优势。同时,提出了基于分布式网关和无CAPWAP的VXLAN隧道两种新型无线网架构,旨在解决传统组网方案的局限。

2024-09-11 14:07:07 2003

原创 无线漫游详解:概念、分类及原理

无线漫游是指确保无线终端STA在移动过程中能够保持不间断网络连接的技术。在无线局域网中,每个AP设备的信号覆盖范围都有限,无线终端用户在通信过程中会从一个AP信号覆盖区进入到另一个AP覆盖区域,为了避免用户在不同的AP之间切换时,网络通讯中断,需要借助无线漫游技术。

2024-09-05 18:51:33 2676

原创 技术指南:5分钟零成本实现本地AI知识库搭建

我们想让一些企业内部私有数据也进入到大模型推理分析的过程,让其更好服务于日常业务,但出于信息安全等考量,私有数据显然不可随意上传到第三方平台。针对这种情况,将企业内部知识库和大模型连接起来构建一个本地私有化的专属的AI知识库不失为一种简易的解决方案。

2024-09-02 18:44:06 1505

原创 深度剖析:智算与算力网络及算网融合

智算需求激增催生算力网络,后者目标是实现算网融合,两者为智算提供基础设施。算网融合推动算力和网络深度融合,提升系统性能。智算时代需灵活敏捷、无损安全、感知可视的算力网络,可运用Kubernetes、DCB协议、INT技术等打造。

2024-08-30 10:54:08 1597

星融元国产高性能DPU智能网卡,即将开源!

星融元HeliumDPU智能网卡,卸载原本跑在服务器CPU上的业务,帮助分担业务负载。秉承开源开放的理念,现已将Helium DPU智能网卡的产品资料和相关代码开放给生态内广大客户和合作伙伴,Helium DPU 智能网卡上已经完成了多种场景的功能验证,包括OVS、NVMe-oF(TCP)、LVS、5G UPF、SSL卸载等

2023-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除