文章总结与翻译
一、主要内容总结
- 研究背景:强化学习(RL)是预训练后提升语言模型(LMs)复杂推理能力的有效工具,但现有分布式RL方法依赖大规模GPU集群同步,存在成本高昂、通信瓶颈及基础设施脆弱等问题。
- 核心方案:提出Swarm sAmpling Policy Optimization(SAPO) ——一种完全去中心化、异步的RL后训练算法,适用于异构计算节点组成的"集群(swarm)"。每个节点独立管理自身政策模型,通过共享解码后的轨迹(rollouts)实现经验交换,无需假设延迟、模型同质性或硬件统一性。
- 研究重点:聚焦参数量小于10B的小型语言模型(SLMs),因这类模型更适配集群常见的本地或边缘设备(如消费级硬件)。
- 实验设计:
- 受控实验:基于8个0.5B参数的Qwen2.5模型,采用ReasoningGYM数据集(涵盖代数、逻辑等9类推理任务),对比不同"本地轨迹/外部轨迹"比例的训练效果。
- 开源演示:依托Gensyn社区数千个异构节点(多样硬件与模型)开展大规模测试,分析集群训练与孤立训练的性能差异。
- 关键发现:
- 受控实验中,"4本地/4外部"的轨迹比例配置性能最优,较无共享的基线模型累积奖励提升94%。
- 过度依赖外部轨迹(如2

订阅专栏 解锁全文
3963

被折叠的 条评论
为什么被折叠?



