别再错过！SimpleVLA-RL颠覆VLA训练范式，RL实现端到端进化，收藏这篇就够了！

原创于 2025-10-05 09:45:00 发布 · 1.8k 阅读

55 ·

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #人工智能 #apache #java #服务器

想让机器人灵活干活，视觉-语言-动作（VLA）模型是关键，但现在的训练方法太 “娇气” 了！靠监督微调（SFT）训练，不仅要海量人类操控轨迹数据（采集贵到离谱还难扩规模），遇到没见过的任务或环境，性能直接 “翻车”。

好在大推理模型领域给了新灵感——强化学习（RL）光靠任务结果就能提升推理能力，那能不能用在 VLA 模型上？可难题也不少：传统机器人 RL 要手工调奖励，没法大规模用；VLA 还得和环境反复交互，比 LLM 生成文本麻烦多了。

别慌，SimpleVLA-RL 框架来救场了！它基于 veRL 优化，专门适配 VLA 的轨迹采样、并行训练，效果直接拉满：在 LIBERO、RoboTwin 等基准测试里拿了 SOTA，少数据也能训出强模型，甚至让机器人自己琢磨出 “推代替抓” 的新操作（也就是 “Pushcut” 现象），彻底给 VLA 训练打开新路子！

研究背景与核心问题

视觉-语言-动作（VLA）模型是机器人操控领域的关键范式，能整合视觉感知、语言理解与动作生成，实现复杂物理环境中的任务执行。当前主流训练流程为 “大规模预训练 + 监督微调”，但该范式存在两大核心瓶颈：

数据稀缺性：SFT 需大规模人类操作机器人轨迹数据，而这类数据的采集需精心设计实验场景、多样化操控对象及专业操作员，成本极高且规模受限，严重制约模型 scalability。
泛化能力弱：SFT 依赖场景与任务特定数据，面对分布偏移（如未见过的任务、环境或对象）时性能大幅下降，尤其在长时序、组合型任务中表现突出。

同时，大推理模型领域的突破（如 DeepSeek-R1）证明，强化学习（RL）仅通过结果奖励就能显著提升逐步推理能力。这引发核心疑问：RL 能否同样增强 VLA 模型的长时序逐步动作规划能力？ 但 VLA 应用 RL 面临独特挑战——传统机器人 RL 依赖手工设计的过程奖励（扩展性差），且 VLA 需与环境多轮交互，比 LLM 的文本生成更慢、成本更高。

图1｜SimpleVLA-RL 概述。

SimpleVLA-RL 是一种用于视觉语言动作（VLA）的高效强化学习框架，它在数据稀缺的情况下改进了长期规划，在模拟和现实世界任务中超越了从示例中学习（SFT），揭示了一种“推切”新动作现象，并增强了空间/对象/目标的泛化能力。

主要贡献

构建 VLA 专属高效 RL 框架：基于 veRL 扩展，加入 VLA 交互式轨迹采样、多环境并行渲染及 “训练 - 推理 - 渲染” 一体化设计，解决 VLA 与环境交互慢、成本高的问题，支持规模化训练。

刷新多基准 SOTA 性能：结合探索增强策略，在 LIBERO、RoboTwin 1.0&2.0 上均超越现有基线，如 LIBERO 平均成功率从 91.0% 提至 99.1%，RoboTwin 2.0 从 38.3% 提至 68.8%，长时序任务表现突出。

突破数据与泛化瓶颈：单条任务演示数据下，LIBERO 平均成功率从 48.9% 提至 96.9%；在空间、对象、任务泛化测试中，避免 SFT 的 “灾难性遗忘”，未见任务性能提升。

实现高效 Sim-to-Real 迁移：仅用仿真数据训练，真实世界机械臂任务平均成功率从 17.5% 提至 38.5%，验证真实部署能力。

发现 “Pushcut” 新现象：RL 训练使模型自主探索出 “推” 等超越人类演示的新策略，为 VLA 行为创新提供方向。

核心方案：SimpleVLA-RL 框架设计

SimpleVLA-RL 基于Volcano Engine Reinforcement Learning框架扩展，针对 VLA 模型特点优化，实现端到端在线规则化 RL 训练，核心设计包含四部分：

交互式 VLA 轨迹采样（解决 VLA 与 LLM 的轨迹生成差异）

VLA 与 LLM 的轨迹生成逻辑存在本质不同：LLM 通过文本 token 随机采样生成多样性，且无需环境交互；VLA 需动态更新视觉观测与机器人状态，依赖闭环交互。为此，SimpleVLA-RL 采用：

动作 token 化策略：选择与 PPO 类 RL 算法兼容性最好的 “动作 token 分布生成” 方案，VLA 模型输出动作 token 概率分布，通过随机采样生成多样化轨迹。
环境交互逻辑：每一步生成长度为 k 的 “动作块”（, ,…, ），机器人执行后环境返回新状态，模型基于新状态生成下一个动作块，直至任务完成或达到最大步数。

结果奖励建模（简化奖励设计，提升扩展性）

摒弃传统 RL 复杂的过程奖励（如 “距离目标的距离”），采用二元结果奖励：任务成功则整个轨迹奖励为 1，失败则为 0；梯度计算时，奖励均匀分配到轨迹中的每个动作 token。该设计的优势在于：

无需任务特定奖励调参，可跨环境通用；
避免过程奖励的 “非迁移性” 问题，聚焦任务最终目标。

探索增强策略（解决 VLA 模型探索不足问题）

VLA 模型易因训练轨迹同质化收敛到狭窄的解决方案，SimpleVLA-RL 通过三项修改提升探索效率：

动态采样：排除所有轨迹全成功或全失败的样本组，仅保留 “混合结果组”（0 < 成功轨迹数 < 组内总轨迹数），确保优势估计非零，避免梯度消失。
调整 GRPO 裁剪范围：将传统 GRPO 的裁剪区间 [0.8,1.2] 扩展为 [0.8,1.28]，允许低概率但潜在有效的动作 token 概率提升，减少探索限制。
提高采样温度：将 rollout 阶段的温度参数从 1.0 提升至 1.6，鼓励模型生成更多样化轨迹。

训练目标（基于 GRPO 优化，降低复杂度）

采用修改后的 Group Relative Policy Optimization（GRPO）目标函数，核心优化：

移除 KL 散度正则项：无需参考模型，减少内存消耗并避免限制新行为探索；
目标函数公式：其中，为重要性采样比，为归一化优势（基于组内轨迹奖励的均值和标准差计算），确保训练稳定且探索有效。

图2｜SimpleVLA-RL概述。

实验验证：性能与优势证明

SimpleVLA-RL 基于 OpenVLA-OFT（ autoregressive VLA 模型）实现，在三大基准测试（LIBERO、RoboTwin1.0、RoboTwin2.0）及真实世界任务中验证，核心结果如下：

基准测试性能：刷新 SOTA

LIBERO（单臂操控基准）：在 Spatial、Object、Goal、Long 四个任务集上，SimpleVLA-RL 将 OpenVLA-OFT 的平均成功率从 91.0% 提升至 99.1%，其中长时序任务 LIBERO-Long 提升 12.0 个百分点（86.5%→98.5%），超越 π₀（85.2%）、UniVLA（92.0%）等 SOTA 模型。

RoboTwin1.0（双臂操控基准）：四个任务平均成功率从 39.8% 提升至 70.4%，其中 “Blocks Stack” 任务提升 33.1 个百分点（7.1%→40.2%）。

RoboTwin2.0（高多样性双臂基准）：覆盖短 / 中 / 长 / 超长时序 12 个任务，平均成功率从 38.3% 提升至 68.8%，超越 π₀（49.2%）和 RDT（33.3%）；即使是需多轮交互的超长时序任务（如 “Put Bottles Dustbin”），也提升 18.7 个百分点。

数据效率：突破数据稀缺瓶颈

在 “单轨迹 SFT”（每个任务仅 1 条演示数据）场景下：

OpenVLA-OFT 的 LIBERO 平均成功率仅 48.9%，长时序任务 LIBERO-Long 仅 17.3%；
应用 SimpleVLA-RL 后，平均成功率提升至 96.9%（超过 “全轨迹 SFT” 的 91.0%），LIBERO-Long 提升至 91.7%；
与 “全轨迹 SFT+RL”（99.1%）的差距仅 2.2 个百分点，证明 RL 可大幅降低对大规模演示数据的依赖。

泛化能力：跨场景 / 对象 / 任务的鲁棒性

在 LIBERO 的 “9 个已见任务训练 + 1 个未见任务测试” 实验中，SimpleVLA-RL 与 SFT 表现出显著差异：

SFT：在已见任务成功率达 90% 以上时，未见任务出现 “灾难性遗忘”，部分任务成功率降至 0%（如 LIBERO-Goal 的 3 个未见任务）；
SimpleVLA-RL：所有未见任务成功率均提升，其中 LIBERO-Object 的 “Unseen Task 2” 提升 36.5 个百分点，LIBERO-Spatial 的 “Unseen Task 1” 从 43.3% 提升至 71.8%，证明 RL 能学习通用技能而非过拟合特定数据。

图3｜LIBERO的泛化分析：goal不可见（上），object不可见（中），空间不可见(底部)。

真实世界部署：高效 Sim-to-Real 迁移

仅使用仿真数据训练（无真实数据），在 AgileX Piper 机械臂上测试 4 个真实任务：

OpenVLA-OFT 的平均成功率仅 17.5%，“Pick Bottle” 任务完全失败；
SimpleVLA-RL 将平均成功率提升至 38.5%，“Stack Bowls” 提升 32 个百分点（38.0%→70.0%），“Pick Bottle” 实现 14% 成功率，证明 RL 能增强仿真模型的真实环境适配性。

关键发现：“Pushcut” 现象与失败模式

“Pushcut”：RL 诱导的新行为发现

在 RoboTwin2.0 的 “Move Can Pot” 和 “Place A2B Right” 任务中，SFT 模型仅复现演示数据中的 “抓取 - 移动 - 放置” 策略，而 SimpleVLA-RL 训练后的模型自主发现更高效的 “推” 策略（如直接将罐子推到目标位置）——这种 “突破演示数据模式” 的现象被定义为 “Pushcut”。其本质是：结果奖励允许模型探索所有能完成任务的路径，而非局限于人类演示的单一方式。

图4｜“pushcut”的图示。通过RL在RoboTwin2.0任务中的紧急推送行为。

失败模式：初始模型能力的阈值效应

实验表明，SimpleVLA-RL 的有效性依赖初始模型能力：

初始成功率为 0：即使施加 RL，性能仍维持 0%（如 “0 轨迹 SFT” 的所有任务），因无成功轨迹生成，奖励全为 0，无法更新梯度；
初始成功率低（<10%）：RL 提升有限，如 “100 轨迹 SFT” 的 “Pick Dual Bottles” 任务，仅从 1.2% 提升至 4.3%；
初始成功率较高（>28%）：RL 提升显著，如 “1000 轨迹 SFT” 的平均成功率从 28.2% 提升至 50.4%。这说明：VLA 模型需具备 “基础任务能力”（阈值以上），RL 才能通过探索进一步优化性能。

分析与总结

1. 与现有工作的差异

LLM RL：现有工作聚焦推理任务（如数学、代码），依赖文本 token 生成；SimpleVLA-RL 针对机器人交互场景，需环境动态反馈与连续动作生成。
VLA 模型：主流 VLA 采用 “预训练 + SFT” 的模仿学习范式，依赖大规模轨迹数据；SimpleVLA-RL 是早期系统性探索 VLA 在线 RL 的工作，且首次验证 RL 在真实机器人任务中的有效性。
VLA RL 相关工作：现有工作（如 GRAPE、ConRFT）多依赖人类偏好或密集奖励，SimpleVLA-RL 采用简单规则化结果奖励，更易扩展且无需额外标注。

2. 研究结论

SimpleVLA-RL 通过 “交互式轨迹采样 + 结果奖励 + 探索增强” 的设计，解决了 VLA 模型训练的三大核心问题：

降低对大规模演示数据的依赖，提升数据效率；
增强模型在分布偏移场景下的泛化能力；
实现高效的 Sim-to-Real 迁移，提升真实世界任务性能。同时，“Pushcut” 现象证明 RL 能让 VLA 模型超越人类演示的局限，探索更优策略，为未来自主、自适应机器人模型的研发提供了新范式。

决了 VLA 模型训练的三大核心问题：

降低对大规模演示数据的依赖，提升数据效率；
增强模型在分布偏移场景下的泛化能力；
实现高效的 Sim-to-Real 迁移，提升真实世界任务性能。同时，“Pushcut” 现象证明 RL 能让 VLA 模型超越人类演示的局限，探索更优策略，为未来自主、自适应机器人模型的研发提供了新范式。

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。