
一、论文核心内容总结
1. 研究背景与问题
- 强化学习(RL)是提升大语言模型(LLMs)推理能力的关键技术,但存在两大痛点:资源消耗极高(需多模型并行运行,GPU内存占用大)、训练速度慢(尤其是rollout阶段,需处理长序列采样)。
- 现有解决方案存在局限:LoRA虽减少可训练参数,但未解决rollout速度瓶颈;FlashRL用量化模型加速rollout,却因精度不匹配需同时运行多精度模型,增加内存负担;QLoRA(NF4量化)则因格式特性使rollout速度降低1.5-2倍。
2. 核心创新点
- 发现量化噪声的正向作用:与监督微调(SFT)中量化噪声有害不同,RL场景下,可控的量化噪声能提升策略熵,增强模型探索能力,帮助发现更优策略(类似参数噪声的探索效果)。
- 提出QeRL框架:结合NVFP4量化与LoRA,在rollout和prefilling阶段集成Marlin内核,既降低内存占用,又提升训练速度,同时通过LoRA支持梯度反向传播。
- 设计自适应量化噪声(AQN)机制:通过通道级随机噪声注入和指数衰减调度器,动态调整训

订阅专栏 解锁全文
411

被折叠的 条评论
为什么被折叠?



