大语言模型推理分论坛:
随着大语言模型在各类应用中展现出强大的能力,如何高效、低成本地将其部署到实际业务,成为业界关注的焦点。本次分享既涉及推理框架 TensorRT-LLM 在 DeepSeek-V3/R1 模型进行大规模专家并行部署的优化经验,也涵盖了 Blackwell 系列 GPU 通过 NVFP4 低精度进行推理部署来实现吞吐与模型精度兼顾的优化方案,以及针对面向中国市场的 Blackwell 架构 GPU 进行部署最佳实践指南。我们将通过案例分享、技术解析和现场交流,帮助开发者掌握前沿工具与优化方法,推动大模型在实际场景中的高效落地。欢迎大家积极参与,共同探索 LLM 推理的未来可能。
https://www.bilibili.com/video/BV1LxyEBWEEN/
https://www.bilibili.com/video/BV1tkyEBkEX7/
https://www.bilibili.com/video/BV1tkyEBkEN1/
辅助驾驶和机器人分论坛:
高级辅助驾驶汽车是 AI 领域新的热点。在这部分,我们将介绍视频模型训练和优化技术,以及 IsaacSim 和 IsaacLab 的性能优化。面向高级自动辅助驾驶的高效落地,我们将聚焦三大方向:发布面向 ADAS 的训练加速库,结合按需视频解码与 DALI 流水线大幅提升数据加载与预处理效率;系统化剖析并优化 IsaacSim/IsaacLab(含 MobilityGen、PhysX、Navila-Bench)性能;利用 nvComp 压缩元信息,显著节省存储与内存,强化端到端可扩展性。
https://www.bilibili.com/video/BV14yyEB3EVc/
https://www.bilibili.com/video/BV14yyEB3E5B/
https://www.bilibili.com/video/BV14yyEB3EeZ/
https://www.bilibili.com/video/BV1TyyEB3Eut/
大语言模型训练分论坛
以 DeepSeek-V3 为代表的超大规模 MoE 模型正掀起人工智能领域的新浪潮,其训练效率对现有大模型框架提出了前所未有的挑战。本分论坛将基于 Megatron-Core 训练框架,结合热点模型 Qwen3-Next 介绍在 Blackwell 框架上的最新进展与实践。此外,我们还将基于 DeepSeek-V3 模型训练案例带来创新性的 Megatron-FSDP 框架分享。特别针对 Grace Blackwell 架构带来从内核与显存优化到 CUDA Graphs,HybridEP 通信优化的全链路加速方案;同时对于 Muon 等一系列新型类二阶优化器的在 Mcore 中的实现集成也进行了系统的分析对比。并以 verl 驱动的视觉语言模型强化学习为案例,为大家带来贯穿并行配置,内存估算到时序分析的强化学习工程方法论,展示我们在这一前沿领域的突破性成果。
https://www.bilibili.com/video/BV1bZy7BkE7R/
https://www.bilibili.com/video/BV1MZy7BrE7g/
https://www.bilibili.com/video/BV18Zy7BCEtm/
https://www.bilibili.com/video/BV1bZy7BkEnd/
https://www.bilibili.com/video/BV1SZy7BkEbX/
CUDA分论坛:
聚焦 GPU CUDA 优化核心技术,从最大化计算性能、显存带宽利用率及降低延迟角度出发,通过分享GPU 硬件与 CUDA 软件编程的协同演进路线与优化背后的第一性原理,展示硬件架构与算法设计的高效协同机制。最终结合 CUTLASS 等高性能框架工具实战案例,助力开发者加速 AI 训练/推理热点场景(如 DeepSeek V3/R1 大模型优化),释放 GPU 的极致性能。本次分享聚焦 GPU 软件开发与硬件协同的实战经验,系统梳理 CuTeDSL 的设计演进与落地经验。串联 DeepGEMM 2.0 在 Blackwell 上的内核优化,调度策略,JIT 机制以及新特性的应用。针对主流 Attention 在 Blackwell 结构新特性下的算子融合与稀疏/线性变体加速优化经验,助力训练与推理释放 GPU 极致性能。 另外此次 CUDA 论坛还带了特别彩蛋分享: 针对多 GPU 场景下的性能分析与故障定位方法介绍,从而保证了大规模集群训练推理的稳定和持续高效。
https://www.bilibili.com/video/BV1JjyEB8EUK/
https://www.bilibili.com/video/BV1cjyEBhEPu/
https://www.bilibili.com/video/BV17nyEBoExk/
207

被折叠的 条评论
为什么被折叠?



