EFFICIENT LONG-CONTEXT LANGUAGE MODEL TRAINING BY Core Attention Disaggregation

在这里插入图片描述

一、文章主要内容

本文针对长上下文大语言模型(LLM)训练中的负载不均衡问题,提出核心注意力解耦(CAD)技术及对应的DistCA系统。核心痛点是核心注意力(CA)计算量随序列长度呈二次增长,而其他组件呈近线性增长,导致数据并行(DP)和管道并行(PP)中出现“掉队者”,严重影响训练吞吐量。CAD通过将无状态、可组合的CA计算与其他模型组件分离,调度到独立的注意力服务器,动态分片并重批处理CA任务,实现负载均衡;DistCA进一步优化通信与内存利用,最终在512个H200 GPU、512K上下文长度下,端到端训练吞吐量提升最高1.35倍,同时消除DP/PP掉队者,保持计算与内存平衡。

二、核心创新点

  1. 核心注意力解耦(CAD)技术:首次将CA计算从Transformer其他组件中分离,独立调度到专用注意力服务器,解决二次增长的CA与线性增长组件的负载不匹配问题。
  2. 利用CA的关键特性:基于CA无状态性(无训练参数、暂态状态少)和可组合性(支持任意长度令牌分片的融合批处理),实现高效分片与重批,不损失内核效率。
  3. DistCA系统优化:设计乒乓执行方案,完全重叠通信与计算;采用原地注意力服务器,提升内存利用率;提出通信感知贪心调度器,平衡负载与通信开销。

<

# docker-compose.yml version: '3.8' services: sgl-prefill: image: 6.111.16.24:5000/sglang:v0.4.9.post2-cu126-nccl2276 container_name: sgl-prefill restart: unless-stopped devices: - /dev/nvidia4 - /dev/nvidia5 - /dev/nvidia6 - /dev/nvidia7 deploy: resources: reservations: devices: - driver: nvidia device_ids: ['4','5','6','7'] capabilities: [gpu] networks: - sgl-net ports: - "20000:20000" shm_size: 16g volumes: - /models/Qwen3-30B-A3B-Instruct-2507:/models/Qwen3-30B-A3B-Instruct-2507 - /dev/shm:/dev/shm environment: - PYTHONPATH=/root/sglang/python command: - python3 - -m - sglang.launch_server - --model-path - /models/Qwen3-30B-A3B-Instruct-2507 - --tp - "4" - --port - "20000" - --host - "0.0.0.0" - --disaggregation-mode - prefill - --attention-backend - fa3 - --disaggregation-bootstrap-port - "9000" - --chunked-prefill-size - "8192" - --max-prefill-tokens - "16384" - --enable-dp-attention - --data-parallel-size - "4" - --mem-fraction-static - "0.9" sgl-decode: image: 6.111.16.24:5000/sglang:v0.4.9.post2-cu126-nccl2276 container_name: sgl-decode restart: unless-stopped devices: - /dev/nvidia0 - /dev/nvidia1 - /dev/nvidia2 - /dev/nvidia3 deploy: resources: reservations: devices: - driver: nvidia device_ids: ['0','1','2','3'] capabilities: [gpu] networks: - sgl-net ports: - "20001:20001" shm_size: 16g volumes: - /models/Qwen3-30B-A3B-Instruct-2507:/models/Qwen3-30B-A3B-Instruct-2507 - /dev/shm:/dev/shm environment: - PYTHONPATH=/root/sglang/python command: - python3 - -m - sglang.launch_server - --model-path - /models/Qwen3-30B-A3B-Instruct-2507 - --tp - "4" - --port - "20001" - --host - "0.0.0.0" - --disaggregation-mode - decode - --max-running-requests - "256" - --enable-dp-attention - --disaggregation-bootstrap-port - "9000" - --attention-backend - fa3 - --data-parallel-size - "4" mini-lb: image: 6.111.16.24:5000/sglang:v0.4.9.post2-cu126-nccl2276 container_name: mini-lb restart: unless-stopped networks: - sgl-net ports: - "8003:8003" volumes: - /root/sglang/python:/root/sglang/python environment: - PYTHONPATH=/root/sglang/python command: - env - PYTHONPATH=/root/sglang/python - python3 - -m - sglang.srt.disaggregation.mini_lb - --prefill - http://sgl-prefill:20000 - --decode - http://sgl-decode:20001 - --host - "0.0.0.0" - --port - "8003" networks: sgl-net: driver: bridge 检查是否有问题
08-21
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值