自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

转载 什么是InfiniBand(IB)网络

InfiniBand(IB)是一种高性能网络通信标准,采用RDMA技术,具有高吞吐量、低延迟和高可靠性,广泛应用于数据中心、HPC和AI领域。其发展始于2000年,由IBTA联盟推动,以色列公司Mellanox成为技术领导者(2019年被英伟达收购)。IB协议采用分层架构(物理层至传输层),支持无损传输和动态流控技术。带宽从SDR演进至XDR(800G),光模块也同步升级至800G。主要产品包括交换机(如NVIDIA Quantum-2)、网卡(ConnectX-7)及专用线缆(DAC/AOC)。IB网络现

2025-12-15 23:45:15 67

转载 什么是RDMA技术及其三个协议

本文介绍了DMA和RDMA两种内存访问技术。DMA(直接内存访问)通过专用控制器使外设直接访问内存,减少CPU负担。RDMA(远程直接内存访问)进一步实现跨计算机的直接内存访问,绕过操作系统内核,提高传输效率。文章分析了RDMA的三种实现协议:InfiniBand(高性能但成本高)、RoCE(基于以太网的成本优化方案)和iWARP(基于TCP/IP,可靠性高但性能较低)。这些技术通过减少CPU参与数据传输,显著提升了系统性能,但各有适用场景和优缺点。

2025-12-15 23:32:13 86

转载 什么是RoCE网络

RoCE网络技术解析:以太网上的高性能RDMA解决方案 RoCE(RDMA over Converged Ethernet)是一种基于以太网的远程直接内存访问技术,通过优化以太网协议实现低延迟和高吞吐量数据传输。文章详细介绍了RoCE的发展历程,包括RoCEv1(仅支持L2网络)和RoCEv2(支持L3路由)两种版本的技术特点。实现RoCE网络需要RoCE网卡、支持PFC的交换机以及智能无损网络架构。文章还对比了RoCEv2与InfiniBand网络的优缺点:RoCE具有成本优势和兼容性,适合大规模成熟数据

2025-12-15 23:18:52 59

转载 Meta 的DDC网络架构案例分享

Meta研发的DSF网络架构专为AI训练优化,通过物理隔离与三级解耦拓扑实现高性能。核心创新包括:双域架构分离协议处理与数据转发;信元喷射技术解决负载均衡;基于信用的硬件级无损流控;分布式故障自愈机制。DSF将万卡集群网络延迟降至微秒级,但存在专用硬件依赖、扩展性受限等局限。该架构为超大规模AI训练提供了新范式,其技术理念将影响下一代网络设计方向。

2025-12-15 00:17:48 46

转载 英伟达NVL576正交架构解析&国内正交架构超节点差异对比

英伟达最新发布的NVL576正交架构采用革命性设计,通过中置背板实现计算节点与交换节点的正交互联,相比前代NVL72显著提升了系统可靠性和可维护性。该架构单机柜推理算力达15EFLOPS,配备4.6PB/s带宽的HBM4e显存,NVLink互连带宽达1.5PB/s。与国内海光scaleX640、阿里磐久AL128相比,NVL576在互联拓扑复杂度上更为激进,保留了关键的中置背板设计。正交架构正成为下一代GPU整机柜的主流方向,其技术突破将推动AI算力规模持续扩展。

2025-12-15 00:06:16 131

原创 AI大模型中的TP、EP、DP、PP指什么?25年智算组网的三张网分别跑什么?

摘要:AI大模型分布式训练采用四种并行策略:数据并行(DP)拆分训练数据,张量并行(TP)分解大矩阵运算,流水线并行(PP)切分模型层,专家并行(EP)分配MoE专家。实际训练常混合使用,如DP+TP+PP组合处理数据和模型维度。节点间网络承载梯度同步、计算结果传递等通信,节点内网络优化张量并行和流水线并行的设备间数据传输。集群网络则分为控制平面、数据平面、服务发现等流量类型,共同保障分布式系统的高可用性和弹性伸缩能力。(149字)

2025-12-09 02:27:42 547

原创 华为CloudMatrix384 超节点的网络架构设计

CloudMatrix384 被设计为一个 AI 超级节点,集成了 384 个昇腾 910C 算力芯片(华为称为:NPU),和 192 个鲲鹏CPU。

2025-12-04 01:49:00 1091

转载 智算数据中心的参数面组网多平面网络设计

本文重点介绍了智算中心ScaleOut组网架构及其发展趋势。主要分析了CLOS胖树架构及其变种(如Rail-only、Rail-optimized等),并详细阐述了阿里云双平面架构和DeepSeek多平面架构的创新特点。其中,多平面组网通过将GPU连接到独立网络平面,在降低成本40%的同时支持16,384个GPU扩展,且具备流量隔离优势。文章指出,未来ScaleOut组网将向二层万卡/十万卡、多端口多平面方向发展,同时对网卡提出了支持多平面通信和乱序处理的新要求,英伟达最新CX-8网卡已实现相关功能。

2025-11-25 22:41:44 134

原创 Atlas 900 A3 SuperPoD

前面板后面板Atlas 900 A3 SuperPoD 计算节点Atlas 900 A3 SuperPoD 计算节点是基于华为自研鲲鹏920高性能版处理器、昇腾910 AI处理器、交换芯片和CDR芯片的AI计算节点,满足行业智算中心、大企业和华为云等高性能、高能效液冷训练集群的需求,提供业界AI最佳集群方案,以算力、网络和集成度业界领先为目标,结合工程优势持续构筑AI集群硬件竞争力。

2025-11-14 00:23:49 293

转载 什么是网络虚拟化?一文读懂其原理与核心价值

这个定义听起来有点绕?整个过程中,Underlay网络只负责运输快递箱,根本看不到里面的原始数据,也不知道这是Overlay网络的流量,从而实现了虚拟网络与物理网络的隔离,以及虚拟网络内部的独立通信。另一方面,网络虚拟化将支撑“分布式云”场景,无论是公有云、私有云还是边缘云,都能通过统一的虚拟网络平面连通,让业务流量在不同云环境间无缝流转,真正实现“业务在哪,网络就在哪”。同时,SDN还支持网络的自动化部署,通过编写脚本或调用API,能够快速完成网络设备的配置和业务的上线,大大提高了网络部署的效率。

2025-11-14 00:19:57 55

转载 数据中心与智算网络负载均衡技术

在AI/ML的应用中,GPU或其他类型的AI/ML计算单元之间他们有着非常简单的通讯关系(流的数量非常少),并且由于他们有着极高的计算能力,导致一对通讯单元间的数据吞吐极高(单个流很大,所需的网络带宽极大),这就导致在这样的应用中存在极端的负载分担不均衡,而且这种不均衡一旦引发网络丢包,就会对整体AI/ML的任务完成时间带来显著的负面影响。RPS的优点在于简单易实施,通过细粒度的负载均衡,可以在多条并行路径之间实现较为均衡的路由选择,提升端到端的网络吞吐率,可以将并行链路利用率提高到90%以上。

2025-11-11 13:07:42 37

原创 BGP协议中什么情况下RR不反射路由?

或者,如果路由的`CLUSTER_LIST`中已经包含本RR的Cluster ID,**则不反射**,以防止环路。- RR遵循IBGP水平分割规则:从非客户端(即普通IBGP对等体)收到的路由,**不会反射给其他非客户端**。- 如果RR收到一条路由,其`ORIGINATOR_ID`(发起者ID)是它自己,**则不反射也不使用**。- 如果一条路由是从某个客户端学习到的,RR **不会将该路由再反射回该客户端**。### 1. **从非客户端(Non-Client)收到的路由,不反射给其他非客户端**

2025-08-25 15:41:28 304

原创 什么是STP

配置BPDU的长度至少要35个字节,包含了桥ID、路径开销和端口ID等参数,即{根桥ID,累计根路径开销,发送者BID,发送端口PID}。网络初始化时,网络中所有的STP设备都认为自己是“根桥”,根桥ID为自身的设备ID。存在环路的网络环境中,对于链路速率值相对较小的端口,建议将其路径开销值配置相对较大,以使其在生成树算法中被选举成为阻塞端口,阻塞其所在链路。与局域网LAN相连的有两台设备:S2和S3,如果S2负责向LAN转发配置消息,则LAN的指定桥就是S2,指定端口就是S2的BP2。

2025-08-12 23:38:33 977

原创 RoCE网络

**科学计算**:在气象预测、基因测序、流体力学等领域,需要处理大量的数据和复杂的计算任务,RoCE网络可以提供高性能的数据传输支持。- **物联网(IoT)**:在物联网场景中,RoCE网络可以提供高性能、低延迟的数据传输,支持大规模的物联网应用。- **云服务**:在云服务提供商的数据中心中,RoCE网络可以提供高性能的网络连接,支持大规模的云服务部署。- **存储系统**:在分布式存储系统中,RoCE网络可以提供低延迟、高带宽的数据访问,提高存储系统的性能。

2025-07-07 22:19:15 776

原创 如何进行产品类项目管理?

**时间规划**:制定项目进度计划,确定各项任务的开始和结束时间,关键里程碑,使用甘特图等工具进行可视化。- **资源分配**:根据任务需求,合理分配人力、物力、财力资源,明确团队成员的职责和角色。- **经验总结**:组织项目总结会议,回顾项目过程,总结经验教训,为未来项目提供参考。- **定期召开会议**:组织项目例会、评审会等,汇报项目进展,讨论问题,调整计划。- **定义项目范围**:明确产品的功能、性能要求,以及项目边界,避免范围蔓延。

2025-06-23 00:27:43 428

原创 项目管理计划书

**具体目标**:从时间、成本、质量、范围等方面细化总体目标。- 明确关键角色如需求分析师、设计师、开发工程师、测试工程师等。- 列出可能面临的风险,如技术风险、市场风险、人员风险等。- 制定针对不同风险的应对措施(规避、减轻、转移、接受)。- 列出项目所需的各项成本(人力、物资、设备、差旅费等)。- 将项目划分为启动、规划、执行、监控和收尾阶段。- 包括项目章程、合同、工作说明书、风险登记册等。- 描述项目变更的申请、评估、批准和实施的流程。- 简述项目发起的原因、市场需求、业务痛点等。

2025-06-23 00:24:59 1039

原创 常用的项目管理方法

**特点**:通过分析项目任务之间的依赖关系,确定关键路径,优化项目工期。- **特点**:通过分析项目任务之间的依赖关系,确定关键路径,优化项目工期。- **适用场景**:各种类型的项目,特别适合需要优化流程和提高效率的团队。- **缺点**:对任务依赖关系的准确性要求高,不适用于需求频繁变化的项目。- **适用场景**:各种类型的项目,特别适合需要优化流程和提高效率的团队。- **缺点**:对任务依赖关系的准确性要求高,不适用于需求频繁变化的项目。

2025-06-20 00:26:33 408

原创 博通Jericho 系列 芯片介绍

如需具体型号的功耗或协议支持细节,可进一步探讨!,适用于骨干网、城域网和5G核心网场景。是博通(Broadcom)面向。设计的高性能芯片系列,主打。

2025-06-19 01:16:12 1601

原创 博通Trident 系列芯片介绍

适用于需要复杂策略(如SDN、安全策略)的场景。Trident 是博通(Broadcom)面向。如需具体型号的功耗或部署案例,可提供更多细节!设计的交换机芯片系列,主打。

2025-06-19 01:10:59 1953

原创 博通Tomahawk 系列芯片介绍

广泛应用于Spine-Leaf架构、AI集群和超算网络。Tomahawk 是博通(Broadcom)面向。如需具体型号的功耗、成本或部署案例,可进一步探讨!博通Tomahawk 系列芯片介绍。推出的交换机芯片系列,主打。

2025-06-19 01:02:34 1898

原创 什么是静默丢包

*静默丢包**(Silent Packet Loss)是指在网络通信中,数据包在传输过程中丢失,但发送方和接收方**没有通过协议或机制感知到丢包的存在**,也没有触发重传或错误提示的现象。- **应用层未实现检测**:即使使用TCP,若应用层未正确处理丢包(如未解析乱序或重复数据包),也可能表现为静默丢包。- **IoT设备通信**:传感器数据通过UDP上报,若丢包未被检测,可能导致监控数据缺失,影响决策。- 在应用层实现**序列号**或**时间戳**,通过分析接收端的序列号间隙判断丢包。

2025-06-19 00:41:34 796

原创 Tomahawk 3和Trident4交换机芯片的对比

**Trident 4**:采用7nm制程技术,提供更高的集成度和能效。- **Trident 4**:采用7nm制程技术,提供更高的集成度和能效。- **Trident 4**:同样支持最高12.8 Tbps的交换容量。- **Trident 4**:同样支持最高12.8 Tbps的交换容量。- **Tomahawk 3**:最高支持12.8 Tbps的交换容量。- **Tomahawk 3**:最高支持12.8 Tbps的交换容量。- **Tomahawk 3**:采用16nm或7nm制程技术。

2025-06-18 10:56:42 777

原创 TD4交换机芯片

**带内遥测(In-band Telemetry)**:支持灵活的带内和流式遥测,包括IFA 2.0(In-band Flow Analyzer version 2),提供对网络流量和性能的实时监控和分析。- **带内遥测(In-band Telemetry)**:支持灵活的带内和流式遥测,包括IFA 2.0(In-band Flow Analyzer version 2),提供对网络流量和性能的实时监控和分析。

2025-06-18 10:47:40 853

原创 AI组网中单轨接入优势好还是双轨接入优势好?

**满足基本需求**:对于数据传输量不大、带宽要求不高的AI应用,如小型数据中心或边缘计算场景,单轨接入已足够满足需求。- **高带宽支持**:双轨接入能够提供更高的带宽,满足大数据量、高并发的AI应用需求,如高清视频分析、大规模模型训练等。- **冗余备份**:双轨接入提供两条独立的网络路径,当一条路径出现故障时,可自动切换到另一条路径,保障业务的连续性。- **适应复杂环境**:在大型企业、数据中心或需要高可用性的场景中,双轨接入能够更好地适应复杂的网络环境和业务变化。2. **提升网络性能**

2025-06-17 00:26:27 390

原创 AI组网中接入层为什么选择基于源端口hash?

**确保连接一致性**:对于需要保持会话状态的应用,如AI训练和推理过程中的长连接,源端口哈希可以根据客户端的源IP地址和源端口号将同一会话的请求始终分配到同一服务器。- **无需复杂状态跟踪**:与基于内容或应用的负载均衡算法相比,源端口哈希的实现相对简单,不需要维护复杂的会话状态或应用层信息,降低了网络配置的复杂性和管理成本。- **缓存数据一致性**:对于使用缓存的AI应用,源端口哈希确保同一客户端的请求始终访问相同的缓存服务器,提高缓存命中率,减少缓存失效和数据不一致的问题。

2025-06-16 13:02:40 482

原创 BGP协议的选路原则

**说明**:优先选择本地始发的路由,包括通过`network`、`import`命令引入的路由,以及手动或自动聚合路由。- **优选Router ID最小的路由**:选择由Router ID最小的路由器发布的路由。- **优选BGP邻居地址最小的路由**:在极少数情况下,选择来自BGP邻居地址最小的路由。- **优选最老的路由**:在某些情况下,优先选择最先学习到的路由,以减少路由波动。- **说明**:选择MED值最低的路由,仅在来自同一AS的路由间比较。

2025-06-13 15:11:58 664

原创 BGP协议的基础知识(报文,状态机,路由属性)

BGP作为互联网核心的路由协议,通过可靠的TCP连接和丰富的路由策略,实现了AS之间的路由信息交换,保证了网络的稳定性和可扩展性。- BGP是EGP,用于AS之间的路由选择,不同于IGP(如OSPF、RIP)在AS内部工作。- **AS间**:通过AS路径属性记录经过的AS,防止路由环路。- 提供丰富的路由策略,可灵活过滤和选择路由,满足不同网络需求。- 每个AS被分配一个唯一的AS号,用于标识不同的AS。- 记录路由经过的AS列表,用于避免环路和选择路由。

2025-06-13 15:09:20 369

原创 数据中心组网中接入层的收敛比来自于服务侧还是物理网络侧?

**时延和带宽敏感型应用**:对网络性能要求高的应用可能需要更小的收敛比,甚至1:1的无阻塞设计。在数据中心组网中,接入层的收敛比主要来自于**物理网络侧的设计**,而非单纯的服务侧需求。- **流量模式**:服务器的流量模式(如东西向流量、南北向流量)和峰值带宽需求会影响收敛比的选择。- **设备成本**:高带宽上联端口和设备成本较高,为控制成本,通常会在接入层设计一定的收敛比。- **资源利用率**:通过合理的收敛比设计,提高网络资源的整体利用率。1. **服务器流量需求**

2025-06-12 12:19:04 482

原创 堆叠设备配置monitor link和不配置monitor link的区别

**快速触发链路切换**:下游设备感知到下行链路的变化后,迅速触发拓扑协议(如 STP、RSTP 等)进行链路切换,将流量切换到备用链路,减少业务中断时间。- **快速感知上行故障**:当堆叠设备的上行链路出现故障时,Monitor Link 会实时监控并立即检测到上行接口的状态变化。- **增强冗余机制**:与堆叠设备的冗余机制相结合,确保在网络出现故障时能够快速恢复,增强网络的容错能力。- **提高可靠性**:通过快速感知和响应上行链路故障,减少流量丢失,提高网络的可靠性和稳定性。

2025-06-12 12:08:44 438

原创 BGP组网中为什么同层设备使用相同ASN?

**减少路由震荡**:当网络中的设备具有相同的ASN时,可以减少由于路由更新引起的路由震荡。这有助于网络的互操作性和与其他网络的连接。- **支持网络合并**:当需要合并两个或多个网络时,如果同层设备使用相同的ASN,可以简化合并过程,减少因网络架构不同而导致的问题。- **提高互操作性**:在与不同运营商或组织的网络进行互联时,相同的ASN可以提高互操作性,减少因配置差异导致的连接问题。- **精细化路由策略**:不同ASN允许在同层设备间实施更精细的路由策略和过滤,便于控制路由的传播和接收。

2025-06-09 22:58:14 436

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除