在机器人技术飞速发展的今天,真实世界环境中的自主学习仍面临两大核心挑战:稀疏奖励信号导致的学习效率低下,以及手工设计奖励函数带来的泛化能力不足。2025年9月19日,由Shaopeng Zhai、Qi Zhang等学者联合发表于arXiv的最新研究(论文编号:2509.15937)提出了视觉-语言-动作-评估器(VLAC)模型,通过整合多模态感知与过程化奖励机制,成功将机器人真实世界任务成功率从30%提升至90%,为通用机器人智能的落地提供了突破性解决方案。
【免费下载链接】VLAC 项目地址: https://ai.gitcode.com/hf_mirrors/InternRobotics/VLAC
多模态融合架构:VLAC模型的技术突破
VLAC模型构建于InternVL基础架构之上,创新性地融合视觉-语言-动作(VLA)三元组信息,形成闭环学习系统。该模型的核心优势在于其通用过程奖励机制——给定实时观测图像与自然语言任务描述,系统能够动态输出密集进度增量与任务完成信号,彻底摆脱传统强化学习对特定任务奖励函数的依赖。这种设计使得机器人在装配、分拣、导航等多样化任务中,无需人工干预即可自主评估动作价值,实现从"试错探索"到"定向优化"的范式转变。
为实现这一目标,研究团队采用异构数据融合策略:在视觉语言数据集(如COCO、WebLI)上预训练以强化场景理解与语义推理能力;在机器人轨迹数据集(包含7种机械臂、23类环境交互数据)上进行微调以约束动作空间;特别构建了包含30万组负样本的对抗数据集,通过语义冲突训练增强模型对无效动作(如回归操作、停滞行为)的识别能力。这种三层训练架构使VLAC在保持感知泛化性的同时,获得精确的动作评估能力。
统一决策框架:Policy与Critic的协同优化
传统强化学习中,策略网络(Policy)与价值网络(Critic)通常独立训练,导致决策与评估存在系统性偏差。VLAC模型通过提示控制机制实现双功能统一:在推理阶段,单个模型通过不同提示前缀交替生成动作序列("ACT:"前缀)与奖励分数("EVAL:"前缀),使决策过程与价值评估共享同一表征空间。这种设计不仅减少了参数冗余(模型参数量控制在8.3B,较传统双网络架构降低40%),更通过联合优化消除了策略-价值错位问题。
在异步强化学习循环中,研究团队创新性地引入分级人机协作协议,构建三级加速机制:离线阶段通过演示回放(Demonstration Replay)初始化策略分布;在线学习阶段采用回报引导探索(Return-Guided Exploration)优先选择高价值动作序列;关键瓶颈期触发人类引导探索(Human-In-the-Loop Guidance),通过专家示范突破局部最优。实验数据显示,该协议使样本效率提升50%,在复杂装配任务中尤为显著——从随机探索需800回合收敛,降至仅需320回合即可达到95%成功率。
真实世界验证:跨场景任务的性能跃升
为验证VLAC模型的通用性,研究团队在四种典型真实环境任务中进行了系统性测试:精密零件装配(0.1mm精度要求)、动态物体分拣(3种形状/2种材质混合目标)、家庭环境导航(包含动态障碍物)、柔性物体操作(布料折叠与绳索打结)。实验结果显示,在无任何任务定制的情况下,VLAC模型在200次真实交互回合内,将平均成功率从基线水平的30.7%提升至89.2%;引入人机协作协议后,最终成功率突破90%,且在未见任务(如突发障碍物规避)中保持85%以上的适应性。
特别值得注意的是模型的零样本迁移能力:在仅提供单段语言描述(如"将红色积木堆叠成金字塔")的情况下,VLAC能够自主解析任务目标,规划动作序列,并在陌生环境(如光照变化、背景干扰场景)中保持72%的成功率,较现有元学习方法(如MAML)提升35个百分点。这种泛化能力为机器人在动态非结构化环境中的部署奠定了基础。
行业影响与未来展望
VLAC模型的提出标志着机器人强化学习进入数据驱动通用智能的新阶段。其技术价值体现在三个维度:对学术研究而言,该模型开创了多模态过程奖励的新方向,为解决稀疏奖励问题提供了通用框架;对产业应用而言,90%的真实世界成功率已满足工业级部署要求,目前团队已与KUKA机器人达成合作,计划2026年Q1在汽车装配线进行试点应用;对安全伦理而言,内置的风险评估模块(通过负样本训练获得)能够识别危险动作,使机器人在碰撞预警、电力安全等场景中实现主动规避。
未来研究将聚焦三个方向:扩展触觉-力觉等多模态输入以提升操作精度;开发轻量化版本(目标参数量1.3B)以适配边缘计算设备;构建跨机器人平台的迁移学习机制。随着VLAC模型的开源发布(仓库地址:https://gitcode.com/hf_mirrors/InternRobotics/VLAC),业界有望加速通用机器人智能的技术迭代,推动服务机器人、工业自动化、智能家居等领域的智能化转型。
在人工智能与机器人技术深度融合的浪潮中,VLAC模型以其"感知-决策-评估"集成一体的架构设计,为突破莫拉维克悖论提供了新的技术路径。当机器人能够像人类一样理解任务意图、评估动作价值、自主优化行为时,真正的通用智能机器人已不再是科幻想象。这项研究不仅是技术创新的里程碑,更预示着人机协作新纪元的加速到来。
【免费下载链接】VLAC 项目地址: https://ai.gitcode.com/hf_mirrors/InternRobotics/VLAC
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



