阿里云基础网络技术5篇论文入选全球网络顶会NSDI

近日,在全球顶级网络系统会议NSDI 2025上,阿里云基础网络技术5篇论文被主会录用,论文研究成果涵盖多个领域,包括面向大模型训练的网络故障诊断、大模型训练网络仿真、容器网络性能问题诊断、基于AI推理的CDN流控算法智能选择,以及GPU解耦型推理场景的性能优化等五个重要领域。

图片

在此次入选的文章中,阿里云主创论文《Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production》总结了近一年多以来阿里云在支持大模型训练过程中的实践与经验。

在研究中,阿里云网络、灵骏、PAI等技术共同打造了端+网+任务协同的系统性智算网络诊断体系,将网络故障诊断耗时降低97%,顺利支持通义千问完成了多次模型版本的训练发布。

传统的云计算诊断系统是针对通用计算场景设计的,在大模型场景下并不完全适用。由于大模型训练存在很多独特的执行特性,如大范围的集合通信等,会导致诸多经典诊断手段误报,无法精准完成问题定位。虽然头部大模型公司有针对大模型训练场景专门设计的故障诊断系统,但相对来说,方案对于提供公共云服务的解决方案来说有所局限。

图片

Aegis与已有诊断系统对比与演进

因此,在论文研究中,Aegis选择了一条增强已有体系+训练过程感知的两阶段演进路线。在增强已有体系阶段(Phase-1),Aegis将大量人工定位问题的经验进行梳理总结,形成了一套在线日志分析+定点隔离诊断的问题定位体系,帮助降低了71%的任务中断问题定位耗时。在训练过程感知阶段(Phase-2),Aegis找到了集合通信库这一桥接计算过程和通信过程的通用组件,并进行针对性的诊断能力增强,实现了基于集合通信信息的全面在线的故障诊断,进一步降低了91%的问题定位耗时。

在诊断训练任务失败这类问题之外,Aegis还进一步覆盖了性能回退场景的问题定位以及交付前问题的前置检查。最终模型训练过程中的性能回退比例以及任务重启次数都得到了大幅降低,全方位地为阿里云上大模型训练任务的稳定运行保驾护航。

此外,本次入选的其他4篇论文也有突出表现:

论文《SimAI: Unifying Architecture Design and Performance Tuning for Large-Scale Large Language Model Training with Scalability and Precision》中,SimAI作为业界首个全栈的高精度大模型集群训练模拟器,通过最大程度还原实际训练框架、集合通信、GPU算子等的执行流程和开销,实现了小于5%端到端仿真误差的高仿真精度,在阿里云智算集群新机型、新架构的评估中发挥了重要作用。

图片

SimAI整体框架

论文《Learning Production-Optimized Congestion Control Selection for Alibaba Cloud CDN》中,阿里云研发了一个基于深度学习的智能CDN拥塞控制选择系统AliCCS,它突破了单一拥塞控制算法难以适应多变网络环境的难题。在阿里云CDN大规模部署后,AliCCS在阿里云CDN大规模部署后,降低视频卡顿率9.31%,降低重传率25.51%以上,显著降低CDN运营成本并改善短视频用户体验。

图片

AliCCS工作流程

论文《GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale Prism》介绍了阿里云GPU解耦型推理场景的全新方案设计,它彻底消除了GPU资源碎片问题。在大促等流量高峰期间,Prism能高效实现从训练集群向推理集群的资源“借调”,节省超过90%的GPU资源。

图片

Prism核心设计

论文《Mitigating Scalability Walls of RDMA-based Container Networks》中,针对容器化RDMA场景在表项卸载中存在的性能问题,ScalaCN提出了一种组合因果测试方法,用于高效建模RNIC架构、有效逼近其性能模型;提供了系统性的异常发现、根因定位与优化能力;实际高卸载压力场景下的网络吞吐提升高达40%。

图片

ScalaCN核心设计

阿里云智能研发副总裁、基础网络负责人蔡德忠表示:“从智算网络集群异常诊断到大模型训练仿真系统,从CDN智能控制到云原生网络创新,阿里云持续将产业级技术难题和学术创新融合,为AI大模型时代下云计算基础设施发展做出贡献。”

图片

NSDI学术会议

NSDI是美国高等计算系统协会 (USENIX协会) 举办的顶级学术会议,与ACM SIGCOMM并列为计算机网络和系统研究领域最高水平的两大会议,被中国计算机学会(CCF)评为A类推荐会议,Core Conference Ranking也给予其A级别评价,代表了最前沿的科研水平和影响力。此次会议共收到666篇投稿,录用83篇论文,录取率不到12.5%,是NSDI历史录取率最低一次。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值