SayCan：Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

Ming_Chs

已于 2024-08-12 17:08:31 修改

阅读量865

点赞数 10

CC 4.0 BY-SA版权

分类专栏：具身智能文章文章标签：算法

于 2024-08-12 17:07:37 首次发布

本文链接：https://blog.youkuaiyun.com/s_m_c/article/details/141136734

具身智能文章专栏收录该内容

43 篇文章

订阅专栏

发表时间：16 Aug 2022

作者单位：Robotics at Google

Motivation：motivation是LLM有长程规划的知识，但是很难把它应用到物理世界，机器人自带的抓取、感知等低级任务又很难做任务的自动规划。

解决方法：

这篇论文聚焦于如何解决LLM与物理交互之间如何连接的问题，也就是grounding问题，具体来说有这几个方面：

LLM给出的方案不是合法的planning，即使是合理的。如：可乐撒了，你能帮帮我吗？回复：你可以用扫地机器人。
LLM给出的方案可以作为planning，理论上可以通过这些步骤的组合去解决问题，但是现实中无法完成。如：帮我把苹果拿过来。回复：我要捡起苹果。但是此时robot看到的画面中没有苹果，那这件事就是无法完成的，也许首要目标是先找到苹果在哪里。

针对这两点，算法的大致思路就有了。当决定下一步的决策时，首先让 LLM 根据task给出一些可能的步骤（只有文本，无环境交互）和他们的概率，然后使用另一个模型给出当前状况下每个动作可以完成的概率（文中叫affordance，有文本，有环境交互），两个概率乘起来就是下一步planning最优的选择。后者的模型是一个RL模型。

具体来说，他们有一个预先定义的决策空间，也就是每步可执行的task都是定义好的（比如，寻找苹果，寻找相交，抓取苹果，走到桌前），也就是说LLM每次只是对于特定的一些类别给出概率，RL也是只训练了特定task。

大概就是这个样子，每一步估俩概率，乘一下

实现方式：

总体流程：The LLM (Say) provides a task-grounding to determine useful actions for a high-level goal and the learned affordance functions (Can) provide a world-grounding to determine what is possible to execute upon the plan. We use reinforcement learning (RL) as a way to learn language conditioned value functions that provide affordances of what is possible in the world.（Say是LLM，Can是强化学习）

每一步决策，遍历所有task，计算他们的概率=LLM认为的概率*RL认为可执行的概率，最后取max，然后执行。

LLM部分很简单，他的任务就是对于n条自然语言描述给出概率，这里他的方法是直接把一句话对应的token概率累乘。按道理来说这个对于task序列长度比较敏感，毕竟auto regressive模型会有误差累计。但是他skill的language描述都不长，所以问题不是很大。LLM是不做finetune的。

文章的重点我认为还是第二部分的训练。这里采用的Q-learning去学习这个affordance概率。