一、文章主要内容总结
该研究聚焦于机器人交互中的“可用性接地”(Affordance Grounding)问题,即预测物体上与机器人待执行动作相关的特定区域,这一问题在人机交互、具身操作等领域至关重要。现有模型因缺乏“思维链”(Chain-of-Thought, CoT)推理能力,常忽视不同物体间共享的可用性,导致域外(OOD)泛化能力和显式推理能力受限。
为解决上述挑战,研究提出Affordance-R1——首个将认知性思维链引导的“组相对策略优化”(Group Relative Policy Optimization, GRPO)融入强化学习范式的统一可用性接地框架。具体而言,研究设计了包含格式奖励、感知奖励和认知奖励的复杂可用性奖励函数,以有效引导模型优化方向;同时构建了高质量的可用性推理数据集ReasonAff,用于支撑模型训练。
实验结果显示,仅通过GRPO强化学习训练(无需显式推理数据)的Affordance-R1,具备稳健的零样本泛化能力和涌现的测试时推理能力,在ReasonAff(域内)、UMD和AGD20K(域外)数据集上均超越现有主流方法(如LISA-7B、Qwen2.5VL-7B等),且在真实网页图像(如厨房、家庭场景)中仍能保持强大的可用性推理性能。
二、文章创新点
- 框架创新:提出首个融合GRPO强化学习与思维链推理的可用性推理框架Affordance-R1,无需监督微调(SFT),通过强化学习激活多模态大语言模型(MLLM)的内在推理能力,实现感知与认知层面的全面推理。

订阅专栏 解锁全文
638

被折叠的 条评论
为什么被折叠?



