大模型显存优化系列
文章平均质量分 93
蚂蚁数据智能技术
蚂蚁数据部依托蚂蚁集团在大数据、数据库、多媒体领域领先的技术创新能力与多年的行业实践,致力于通过长期的技术布局与持续的技术创新,打造全球一流的数据技术与产品,让企业能够在人工智能时代下获得先机,让开发者加速创新迭代,让人人都能享受普惠便捷的数字生活及服务。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型推理显存优化系列(4):eLLM-大模型推理中的弹性显存管理和优化
本文将介绍eLLM相关技术挑战、总体设计和初步性能评估原创 2025-08-26 17:22:53 · 992 阅读 · 0 评论 -
大模型推理显存优化系列(3):FlowMLA——面向高吞吐的DP MLA零冗余显存优化
本文将介绍蚂蚁集团ASystem团队在推理显存优化上的新工作FlowMLA原创 2025-07-04 10:15:25 · 1321 阅读 · 0 评论 -
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。多通道并发传输:聚合NVLink,PCIe,RDMA网卡等多个物理上独立的传输通道,将一次大的通信传输操作,拆分到多个链路并发执行,以提高总带宽。这种模式虽简洁高效,却。原创 2025-08-28 15:04:25 · 1280 阅读 · 0 评论
分享