PaLM-E: An Embodied Multimodal Language Model

原创

于 2024-08-09 15:46:07 发布 · 1.1k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#palm #语言模型 #人工智能

发表时间：arXiv 6 Mar 2023

作者单位：Robotics at Google

Motivation：大型语言模型已被证明可以执行复杂的任务。然而，在现实世界中启用一般推理，例如对于机器人问题，提出了落地的挑战。

解决方法：提出了具身语言模型PaLM-E，将现实世界的连续传感器模式直接合并到语言模型中，从而建立单词和感知之间的联系。

实现方式：具身语言模型的输入是多模态句子，交织视觉、连续状态估计和文本输入编码。端到端地训练这些编码，以及预训练的大型语言模型，用于包括顺序机器人操作规划、视觉问答和字幕在内的多个具身任务。

输入：PaLM-E 对多模态句子进行操作，即来自任意模态（例如图像、神经 3D 表示或状态，绿色和蓝色）的输入与文本标记（橙色）一起插入作为 LLM 的输入，端到端训练。

图像和状态估计等输入被嵌入到与语言标记相同的潜在嵌入中，并由基于 Transformer 的 LLM 的自注意力层以与文本相同的方式进行处理。

把各个模态的数据，都转化为与 language tokens 相同维度的embedding。

对不同模态数据的处理：

对状态估计向量。状态向量，例如来自机器人或对象的状态估计，可能是输入到 PaLM-E 的最简单。设 s ∈ RS 是一个描述场景中对象状态的向量。例如，s 可以包含这些对象的姿势、大小、

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

KKdlg 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。