Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal

一、文章主要内容总结

该研究聚焦于机器人交互中的“可用性接地”(Affordance Grounding)问题,即预测物体上与机器人待执行动作相关的特定区域,这一问题在人机交互、具身操作等领域至关重要。现有模型因缺乏“思维链”(Chain-of-Thought, CoT)推理能力,常忽视不同物体间共享的可用性,导致域外(OOD)泛化能力和显式推理能力受限。

为解决上述挑战,研究提出Affordance-R1——首个将认知性思维链引导的“组相对策略优化”(Group Relative Policy Optimization, GRPO)融入强化学习范式的统一可用性接地框架。具体而言,研究设计了包含格式奖励、感知奖励和认知奖励的复杂可用性奖励函数,以有效引导模型优化方向;同时构建了高质量的可用性推理数据集ReasonAff,用于支撑模型训练。

实验结果显示,仅通过GRPO强化学习训练(无需显式推理数据)的Affordance-R1,具备稳健的零样本泛化能力和涌现的测试时推理能力,在ReasonAff(域内)、UMD和AGD20K(域外)数据集上均超越现有主流方法(如LISA-7B、Qwen2.5VL-7B等),且在真实网页图像(如厨房、家庭场景)中仍能保持强大的可用性推理性能。

二、文章创新点

  1. 框架创新:提出首个融合GRPO强化学习与思维链推理的可用性推理框架Affordance-R1,无需监督微调(SFT),通过强化学习激活多模态大语言模型(MLLM)的内在推理能力,实现感知与认知层面的全面推理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值