- 博客(128)
- 收藏
- 关注
原创 QCN(Quantized Congestion Notification,量化拥塞通知)
摘要:QCN(量化拥塞通知)是IEEE 802.1Qau标准定义的二层拥塞控制协议,专为RDMA网络设计。它通过交换机(MP/NP)检测拥塞并发送CNM报文,触发源端RNIC(RP)精准调整速率,实现微秒级响应的无损传输。核心机制包括:量化拥塞检测、硬件加速处理、四阶段速率调整算法(快速降速→平滑收敛→主动探测→超主动恢复)。QCN需与PFC协同工作,并与DCQCN形成互补(前者依赖交换机反馈,后者结合ECN标记)。典型部署要求交换机、RNIC硬件支持,并统一配置阈值参数。该技术广泛应用于高性能计算和分布式
2025-12-24 08:45:00
734
原创 Random Early Detection,随机早期检测
参数含义作用min_th(最小阈值)队列长度的下限值当队列长度 < min_th 时,不丢弃任何数据包,全部转发max_th(最大阈值)队列长度的上限值当队列长度 > max_th 时,丢弃所有新到达的数据包(等同于尾部丢弃)max_p(最大丢弃概率)队列长度达到 max_th 时的丢弃概率当队列长度在 [min_th, max_th] 区间时,丢弃概率随队列长度线性增长,从 0 升至 max_p。
2025-12-23 09:00:00
655
原创 RDMA的功能模块
RDMA技术通过硬件卸载和内核旁路实现高性能远程内存访问,其架构分为硬件层(RNIC网卡)、协议层(分层协议栈)和软件层(用户态API)。硬件层提供DMA访问和队列管理,协议层支持多种传输协议(RoCEv2/iWARP),软件层提供标准接口。RoCEv2适用于数据中心低延迟场景,iWARP兼容普通IP网络。各模块协同工作实现零拷贝、低延迟的数据传输,典型应用于分布式存储和高性能计算领域。
2025-12-22 13:15:00
1246
原创 流级流量整形
流级流量整形是一种精细化的流量管控技术,针对单条数据流(通过IP五元组或RoCE QPN标识)独立控制发送速率和突发特性。其核心价值在于实现多租户隔离、保障RoCE流质量及关键业务优先。通过硬件流表识别、单流令牌桶管控和队列调度联动,实现线速处理。典型实现方式包括硬件原生支持(高端交换机)和软件辅助方案(低端设备)。相比端口级和队列级整形,流级整形管控粒度更细,适用于数据中心RoCE网络、多租户隔离等场景,能在不损失转发性能的前提下实现精准带宽控制。
2025-12-21 11:00:00
754
原创 数据中心RoCE网络拥塞控制协议部署清单
摘要:本文提供数据中心RoCEv2无损网络的部署清单,按入口/出口划分配置模块,涵盖PFC、ECN/WRED、ETS等核心协议。重点包括:RoCE数据流量映射CoS3(DSCP26),CNP流量映射CoS7(DSCP48);入口配置流量分类、PFC流控和拥塞标记;出口配置队列整形、拥塞反馈和调度策略;端侧需启用RoCEv2和DCQCN参数调优。强调全网PFC优先级、DSCP映射一致性,并提供典型场景调优建议,确保实现无损传输与高效拥塞控制。
2025-12-20 12:45:00
1408
原创 交换机的入口队列拥塞控制和出口队列拥塞控制
摘要:交换机拥塞控制分为入口队列和出口队列两种类型,主要区别在于控制位置和目标。入口队列控制针对入端口到交换结构的瓶颈,通过限速、优先级丢弃等技术防止交换结构过载;出口队列控制则针对交换结构到出端口的瓶颈,采用队列调度、ECN/RED标记等方法优化端到端性能。入口控制更激进,以丢弃为主;出口控制更精细,兼顾调度与标记。实际应用中,二者协同工作形成双层防护,保障网络稳定高效运行。
2025-12-19 10:54:18
772
原创 融合以太网的RDMA(RDMA Over Converged Ethernet)
RoCE(RDMA over Converged Ethernet)是以太网实现RDMA技术的网络方案,兼具高性能与兼容性。其核心是通过智能网卡硬件实现零拷贝、内核旁路操作,提供微秒级延迟和高吞吐量。RoCEv2支持IP路由,适用于大规模数据中心场景,通过ECN/PFC实现无损传输。关键特性包括:低延迟(1-3μs)、高带宽(400Gbps+)、低CPU开销。典型应用于GPU集群互联、分布式存储等场景。RoCEv2采用UDP/IP封装,支持CNP拥塞通知机制,通过BTH头精准控制流量,是当前主流的高速网络技
2025-12-18 09:30:00
604
原创 交换机基础拥塞处理机制(Tail Drop 、RED、ECN)
TailDrop是网络设备处理拥塞的最简单方式,当队列满时直接丢弃新数据包。它虽然实现简单,但会导致TCP全局同步和流量雪崩问题,引发网络性能波动。RED通过随机提前丢弃少量数据包避免集中丢包,ECN则采用标记拥塞通知的方式实现无损控制。相比TailDrop的被动丢弃,RED和ECN能主动预防拥塞,分别适用于普通TCP网络和对丢包敏感的高端场景(如RDMA、GPU集群)。在数据中心等要求高性能的网络中,RED和ECN已逐步取代TailDrop成为主流拥塞控制方案。
2025-12-17 10:41:10
774
原创 ToR 交换机及交换机全维度解析:定义、分类、特性、调试控制
本文系统阐述了ToR交换机的核心定义、分类及调试方法。ToR交换机作为数据中心/智算中心的关键网络设备,采用"一机柜一ToR"部署方式,支持RoCEv2、PFC等特性。文章详细分析了交换机按部署位置、传输技术和功能特性的分类维度,并重点介绍了CLI命令、图形化平台和API编程三种调试控制方法。针对智算中心场景,特别强调了PFC/ECN配置、INT遥测和拥塞定位等核心调试要点,同时提出权限管控、配置验证等注意事项,为数据中心网络设备的部署与运维提供了实用指南。
2025-12-16 09:10:36
1014
原创 交换机和网卡的 PFC 机制工作原理与实例解析
摘要:PFC(基于优先级的流控)是数据中心以太网的关键技术,通过8个优先级划分实现链路层精准流量控制。其核心机制包括:独立队列管理、拥塞时发送指定优先级的暂停/恢复帧,确保RDMA等高优先级业务零丢包传输。典型应用如智算中心GPU集群的梯度同步场景,当交换机队列达到阈值时仅暂停对应优先级流量,其他业务不受影响。PFC优势在于优先级隔离和链路级控制,但也存在死锁风险,需结合ECN等技术协同优化。该技术完美适配RDMA网络对低延迟、零丢包的严苛需求。
2025-12-15 20:40:09
1014
原创 显式拥塞通知(ECN)机制
显式拥塞通知(ECN)是一种通过标记而非丢弃数据包来实现拥塞控制的网络机制。它利用IP头部的2个标志位(ECT和CE)传递拥塞信号,接收端通过反馈机制通知发送端降速。ECN需端到端支持,适用于RoCE网络、数据中心等低延迟场景,其核心优势是避免重传延迟。ECN常与PFC协同部署,遵循"ECN预警+PFC兜底"原则,通过合理配置水位线阈值和标记比例实现精准控制。配置时需考虑网络设备缓冲区、链路带宽、业务特性等因素,并通过动态监控持续优化参数。
2025-12-11 15:45:00
705
原创 INT(In-band Network Telemetry,带内网络遥测)技术
INT技术通过数据报文嵌入实时网络状态信息,实现精准细粒度的网络监测。其核心优势在于微秒级延迟感知、<1%带宽开销,并能精确定位拥塞节点。概率性INT(PINT)通过概率采样和分布式协作进一步降低开销,同时保持监控精度。该技术结合AI分析,可支撑智算中心从被动拥塞处理转向主动流量适配,解决多场景流量动态切换难题。
2025-12-11 10:13:43
656
原创 面向RDMA网络的Swift协议
Swift是针对RDMA网络在弹性计算场景中的控制面优化方案。通过缓存优化和进程资源共享技术,Swift解决了RDMA与无服务器架构融合时的连接建立慢、资源共享难问题。其针对冷启动、热启动和fork启动三种任务场景,分别采用缓存预配置、资源复用和fork共享机制进行优化。实际测试显示,在AI推理集群中,Swift将控制面开销降至6.5%,吞吐量提升30%-46%,显著改善了RDMA在短生命周期任务场景中的性能表现。
2025-12-10 15:30:00
420
原创 智算中心RDMA网络传输控制技术
本文分析了智算中心RDMA网络的三种主流传输控制技术:DCQCN基于交换机ECN标记实现队列管理,TIMELY利用RTT延迟信号动态调整速率,HPCC则采用INT遥测实现精准控制。三种技术各具优势:DCQCN稳定性强但响应慢,TIMELY部署简单但依赖高精度硬件,HPCC控制精准但成本较高。当前RDMA传输控制仍面临动态适应性不足、跨场景兼容性有限等挑战,需进一步优化以满足智算中心高性能网络需求。
2025-12-10 09:45:00
862
原创 网络传输控制技术2-算力网传输技术(1)
DCTCP 的工作原理可概括为“ECN 早感知 + 平滑窗口调整 + 低队列控制”通过 ECN 机制实现 “不丢包的拥塞预判”,解决传统 TCP 反应滞后的问题;以拥塞标记比例(F)为核心,实现窗口的平滑调整,平衡吞吐量与延迟;最终将网络队列长度控制在极低水平,完美适配智算中心 “长流高吞吐、短流低延迟” 的混合需求,成为数据中心 / 智算中心传输控制的基础优化方案。
2025-12-09 14:00:00
1187
原创 网络传输控制技术1-互联网传输技术
本文系统阐述了网络传输控制技术的核心机制与应用场景。第一部分解析TCP/UDP协议的本质差异:TCP通过连接管理、确认重传等机制确保可靠传输,适用于文件下载等场景;UDP则凭借无连接特性实现低延迟,适配视频通话等实时业务。第二部分重点剖析TCP拥塞控制的四阶段动态调节机制:慢启动快速探测带宽、拥塞避免线性增长、快速重传及时补包、快速恢复平稳过渡,并通过CUBIC/BBR等优化算法适配不同网络环境。特别指出智算中心通过"UDP+RDMA硬件卸载"实现"低延迟+零丢包"的
2025-12-09 13:00:00
1868
原创 智算中心与RDMA网络
智算中心作为AI和数字经济的"超级大脑",通过分布式架构和高速网络整合算力资源,支撑深度学习等高性能计算需求。RDMA技术凭借零拷贝、低延迟特性成为核心传输方案,其中RoCEv2因兼容性和成本优势成为主流。国内外应用显示,该技术能显著提升GPU集群训练效率,但面临拥塞敏感等挑战。未来需优化传输控制技术,以支撑更大规模部署。智算中心建设正加速推进,为"东数西算"提供关键基础设施保障。
2025-12-09 07:00:00
673
原创 RDMA 操作中 PCIe TLP 数据包交互示例(以 RoCE 协议远程读操作为例)
摘要:RDMA通过三种PCIe事务层数据包(TLP)实现高效数据传输:读请求TLP(MRd)用于获取主机内存数据,读完成包TLP(CplD)返回读取结果,写请求TLP(MWr)直接写入内存且无需事务层响应。典型应用场景中,本地RNIC通过TLP读取配置信息,远程RNIC获取目标数据后通过网络传输,最终直接写入应用内存并更新完成队列。整个过程利用PCIe链路层保障可靠性,避免CPU干预,实现微秒级延迟的零拷贝传输,使其成为高性能计算和分布式存储的关键技术。
2025-12-08 14:30:00
756
原创 DMA(Direct Memory Access)技术解析:定义、原理、应用与核心价值
DMA(直接内存访问)是一种通过独立控制器实现外设与内存直接数据传输的硬件技术,能显著提升系统性能。其核心优势包括:1)解放CPU算力,仅需指令下发和中断响应;2)降低传输延迟至微秒级;3)提高总线利用率。典型应用场景涵盖网络设备(100G网卡)、存储设备(NVMe SSD)、显卡/AI加速卡等高频数据传输场景。与中断驱动I/O相比,DMA吞吐量可提升10倍以上,是现代高性能计算、网络通信和AI训练的关键支撑技术。
2025-12-08 09:45:00
1050
原创 RFC8211:资源公钥基础设施(RPKI)中认证机构(CA)或存储库管理器的不良行为
RFC8211(2017年发布)从INR持有者视角分析了RPKI系统中6类不利行为(删除、抑制、破坏、修改、撤销、注入)对6种核心对象(CA证书、清单、CRL、ROA等)的影响。研究显示,外包CA与仓库的部署场景风险最高,可能引发路由劫持等安全问题。文档为RPKI安全机制设计提供了威胁模型参考,指出不利行为会导致路由验证错误或安全机制失效,但强调RPKI仍优于传统IRR技术。关键发现包括:CA证书影响范围最广,竞争ROA可能导致未授权路由,外包场景需加强安全审计和冗余设计。
2025-12-07 07:15:00
787
原创 对RPKI中验证的重新评估(2014)
摘要:本文重新评估了RPKI(资源公钥基础设施)验证机制,指出当前"资源完全包含"的层级验证模型存在严重脆弱性——上级证书资源不一致会导致下级所有证书失效,可能引发大规模路由故障。研究提出资源可分离验证方案,将证书资源视为独立单元进行验证,而非证书整体,同时探讨允许不同资源通过不同验证路径生效的扩展思路。该方案在保留RPKI核心框架前提下,将资源不一致的影响范围限定在单个资源,显著提升了系统鲁棒性,降低了运营风险,为RPKI部署提供了更优的验证机制。
2025-12-06 16:00:00
830
原创 RFC6811:BGP前缀源验证
RFC 6811定义了BGP前缀起源验证机制,基于RPKI体系的ROA数据转换为VRP(验证ROA负载),通过判断路由前缀是否被VRP覆盖及AS号匹配,将路由划分为Valid、Invalid、NotFound三种状态。该标准仅验证路由起源合法性(不涉及路径验证),支持四字节AS号,验证结果可用于路由策略过滤或优先级调整。核心局限包括依赖数据库安全性、无法防御中间人攻击等。文档详细说明了验证流程、状态定义、策略应用及安全考量,为防范BGP前缀误宣告提供了标准化解决方案。
2025-12-06 15:00:00
1457
原创 RFC 8210: 资源公钥基础设施(RPKI)到路由器协议,版本 1
术语定义新增数据类 PDU,用于传输路由器密钥,含 ASN、Subject Key Identifier(SKI,20 字节)、Subject Public Key Info(ASN.1 DER 编码)统称数据类 PDU(前缀 PDU+Router Key PDU),区别于控制类 PDU定时参数(3 个)
2025-12-06 14:00:00
1246
原创 RFC6810: 资源公钥基础设施(RPKI)到路由器协议
术语定义全球 RPKI(Global RPKI)由 IANA、RIRs、NIRs、ISPs 等部署的分布式服务器发布的权威 RPKI 数据,含证书、ROA 等(RFC 6481)本地缓存(Cache)聚合并验证后的 RPKI 数据副本,通过 rsync 协议从全球 RPKI 或上级缓存定期同步,为路由器提供数据服务Serial Number(序列号)32 位严格递增无符号整数,标识缓存数据版本,更新完成后递增,支持从 2³²-1 回绕至 0Session ID(会话 ID)
2025-12-06 13:30:00
1367
原创 RFC 6480: RPKI(资源公钥基础设施)的核心架构文档
RFC6480定义了支持安全互联网路由的基础设施RPKI,包含三大核心组件:1)资源PKI体系,通过X.509证书绑定IP/AS号权属;2)路由源授权(ROA)机制,由地址持有者授权AS号发起特定前缀路由;3)分布式存储库系统,通过清单(Manifest)校验对象完整性。该架构采用分层设计匹配IP分配体系,支持BGP路由起源验证,同时复用现有标准(如CMS签名)降低部署成本。关键特性包括:EE证书单次使用、强制rsync协议同步、多宿主场景灵活授权,并为IPv4/IPv6提供统一安全框架。
2025-12-06 13:00:00
1026
原创 使用argus检测互联网中的前缀劫持(2012)
本文提出Argus系统,通过控制平面与数据平面深度关联实现前缀劫持精准检测。系统监控三类路由异常(起源、邻接、策略),结合分布式探测点的可达性测试,计算指纹相关性系数进行判定。经1年互联网实测验证,从4万条异常中识别220起劫持事件,误报率仅0.2%,检测延迟数秒。研究揭示了劫持事件的关键特征:20%持续时间<10分钟、部分2分钟内污染90%互联网,91%针对最具体前缀。该系统无需修改现有基础设施即可部署,具有低误报、实时检测等优势,已提供公共在线服务。
2025-12-06 08:45:00
1464
原创 使用多代理间 AS 诊断系统检测和恢复前缀劫持(2010)
本文提出一种基于多代理的域间诊断系统,用于检测和恢复前缀劫持。系统通过跨AS ping测试(基于向量相似度)和AS_PATH变更验证(结合邻居关系与IRR数据)两种方法提升检测准确性。恢复方案包括劫持回夺(利用BGP路径优选规则)和前缀隔离(使用NO_EXPORT标签)。实验表明,ping测试能有效区分劫持与合法MOAS行为,AS_PATH验证检测到17次告警(含1起确认劫持),两种恢复方案均可快速缓解劫持影响。该系统无需修改BGP协议,兼顾检测准确性和恢复时效性。
2025-12-05 16:15:00
751
原创 准确实时识别IP前缀劫持(2007)
摘要:该研究提出一种实时检测IP前缀劫持的混合方案,结合控制平面异常检测与数据平面指纹验证。通过分析MOAS/subMOAS冲突及AS路径约束识别可疑路由更新,并利用OS指纹、IPID等特征进行主动探测验证。创新性地采用反射扫描技术解决子网劫持探测难题。实验表明,该系统能在4分钟内完成检测,将MOAS冲突误报率从100%降至8.9%,有效覆盖5类劫持中的4类。部署无需修改现有协议,实测2周处理3685个冲突案例,最终筛选出332个高置信度劫持事件,验证了方案的实用性与准确性。主要局限是无法检测未触发路由更新
2025-12-05 08:00:00
1789
原创 iSPY:自行检测IP前缀劫持(2008)
本文提出iSPY系统,一种基于前缀所有者视角的IP前缀劫持实时检测方案。系统创新性地利用劫持事件会导致拓扑分散的AS污染并产生独特不可达签名(多切割点)的特性,通过轻量级主动探测(仅针对3742个中转AS)获取AS级路径,对比路径切割点数量区分劫持与正常路由故障。实验表明,该系统在25天互联网部署(88个AS、108个前缀)和15次可控劫持测试中,误报率仅0.17%、漏报率0.45%,检测延迟1.4-3.1分钟,满足实时性、准确性等六大核心需求,且无需修改现有协议即可部署。
2025-12-05 04:00:00
536
原创 针对BGP前缀劫持的实用防御(2007)
本文提出一种增量部署的BGP前缀劫持防御方案,包含反应式防御(虚假路由清除+有效路由提升)和主动式防御(客户路由过滤)。实验表明:20个高连通度AS参与反应式防御可使网络污染率从50%降至15%;客户路由过滤单独部署效果有限(80个AS仅降至9%),但与反应式防御组合可显著提升防护效果。研究还发现0.2%的AS对可能规避检测系统,但整体风险可控。该方案通过少量AS参与即可实现显著防御效果,兼具实用性与部署可行性。
2025-12-04 19:00:00
945
原创 检测虚假BGP路由信息:超越前缀劫持(2007)
核心问题:BGP 协议缺乏路由认证机制,攻击者可注入虚假路由(前缀劫持、路径欺骗),用于流量劫持、垃圾邮件、钓鱼等恶意行为;现有防护依赖临时路由过滤或未广泛部署的安全扩展(如 S-BGP),实时检测工具存在检测范围窄、误报率高等问题。研究创新:提出基于 “路由信息对象稳定性” 的检测思路,无需依赖不完整的 WHOIS 数据库或复杂的 AS 关系推断,可覆盖各类虚假路由,兼顾检测精度与部署可行性。核心贡献系统支持检测所有类型虚假路由,包括 4 类前缀劫持和 2 类路径欺骗。
2025-12-04 09:45:00
681
原创 互联网中前缀劫持与拦截的研究(2007)
研究聚焦互联网前缀劫持与拦截问题,提出拦截方法论并基于Route-Views数据量化其影响。研究发现:一级AS可劫持/拦截52%-79%流量,三级以上AS能力显著降低(劫持13%-31%,拦截7%-17%)。实验验证拦截实施与劫持同样简单,仅需修改BGP策略。检测方面,结合控制与数据平面信息的方法因合法路由配置干扰无法明确识别拦截行为。研究揭示了前缀拦截的普遍威胁与检测挑战,为路由安全提供了重要参考。
2025-12-03 15:00:00
1620
原创 BGP前缀劫持在互联网上有多普遍(2006)
摘要:前缀劫持是利用BGP协议漏洞的网络攻击,攻击者通过宣布非自有IP地址块获取不可追踪IP。研究显示,2005年6月存在约90起恶意劫持事件,而配置错误导致的无效路由宣布高达4000余起。恶意劫持多针对子块且持续时间短,而配置错误对BGP层的威胁更大。研究表明,优化路由器配置管理比防范恶意攻击更为紧迫,配置错误是当前互联网路由异常的主因。
2025-12-03 04:45:00
645
原创 集群调度系统(Slurm/K8s):定义、核心功能与主流工具解析
集群调度系统是大规模集群(尤其是多 GPU / 超算集群)的 “必备基础设施”,核心价值是 “统一管理资源、有序调度任务”,避免冲突、提升利用率、保障稳定性。若在科研机构 / 超算中心,主要做长时大规模计算(如大模型训练、科学模拟),Slurm 是首选 —— 稳定、适配 HPC 场景,是科研界的 “标准工具”;若在互联网公司 / 云厂商,主要做 AI 推理、快速迭代的训练任务,或需要容器化部署,K8s 是首选 —— 弹性强、生态完善,适配云原生场景;
2025-12-02 15:15:00
799
原创 集合通信的底层逻辑全解析
集合通信通过"逻辑节点"和"逻辑链路"抽象物理硬件,屏蔽GPU/服务器等底层差异,使通信算法更具通用性。逻辑节点为虚拟参与方(rank标识),逻辑链路为虚拟通信通道,两者共同简化通信管理。集合通信库(如NCCL)负责算法实施和资源调度,集群调度系统(如Slurm)管理物理资源分配,AI框架(如PyTorch)提供高层接口。这种分层协作使开发者无需关注底层细节,只需调用简单接口即可完成高效通信。典型场景如64卡GPU集群的AllReduce操作,各层自动协同完成最优通信
2025-12-02 08:45:00
1196
原创 集合通信(Collective Communication):定义、核心组成与实现逻辑
集合通信是多节点协同的全局数据交互模式,区别于点对点通信,它通过标准化的通信原语(如AllReduce、Broadcast)、优化的网络拓扑(全互联/树形/环形)、同步机制和底层传输协议(RDMA/TCP),实现高效的多节点数据协同。这种通信范式是分布式AI训练和超算的核心技术,支持千亿参数模型的梯度同步等关键操作。通信库(如NCCL)自动优化传输路径,开发者只需调用封装接口即可实现高性能通信,无需关注底层细节。集合通信通过原子化操作和硬件感知优化,比手动组合点对点通信效率提升10-100倍,成为大规模分布
2025-12-01 16:30:00
1041
原创 RDMA 存在的核心问题(附技术痛点 + 解决方案思路)
RDMA技术应用面临五大挑战及解决方案:1.高成本问题,建议短期采用RoCE复用现有网络,长期等待低成本设备普及;2.兼容性难题,通过标准化配置和自动化工具解决;3.编程复杂度高,使用封装库简化接口并配合专业调试工具;4.可靠性风险,采用软件层容错机制和严格权限管理;5.性能优化难,需调整内存布局、网络参数并升级硬件。整体解决方案强调软硬件协同优化,平衡性能与成本。
2025-12-01 11:38:28
1204
原创 NUMA 节点:定义、原理、作用及对 RDMA/GPU 集群的影响
NUMA(非统一内存访问)架构是多CPU服务器的核心设计,将CPU核心、本地内存和PCIe设备打包为独立节点。本地访问速度快,跨节点访问延迟高。在AI/超算场景中,NUMA拓扑直接影响RDMA和GPU性能:设备与内存同节点时效率最高,跨节点时性能显著下降。优化方法包括:使用numactl绑定CPU核心与节点、合理分配PCIe设备、关闭NUMA平衡等。科研中需注意程序调度与节点匹配,避免跨节点访问导致的性能损失。
2025-12-01 07:45:00
742
原创 RDMA(Remote Direct Memory Access):定义、实现协议、优缺点全解析
RDMA 的本质是 “用硬件成本换性能”,核心价值在于解决传统网络的 “延迟高、CPU 占用高、带宽瓶颈” 问题,是超大规模 AI 集群、高性能计算的 “刚需技术”—— 比如鹏城实验室的 GPU 集群用 InfiniBand RDMA,实现万卡 GPU 间的梯度同步延迟低至微秒级,让千亿参数大模型训练周期从数年压缩到数月。
2025-11-30 16:30:00
1055
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅