
具身智能
文章平均质量分 90
JackCrum
这个作者很懒,什么都没留下…
展开
-
【具身智能】论文系列解读-RL-ViGen & ArrayBot & USEEK
视觉强化学习(Visual RL)与高维观察相结合,一直面临着分布外泛化的长期挑战。尽管重点关注旨在解决视觉泛化问题的算法,但我们认为现有的基准测试存在问题,因为它们仅限于孤立的任务和泛化类别,从而破坏了对智能体视觉泛化能力的综合评估。为了弥补这一差距,我们引入了 RL-ViGen:一种新颖的视觉泛化强化学习基准,它包含不同的任务和广泛的泛化类型,从而有助于得出更可靠的结论。此外,RL-ViGen 将最新的泛化视觉 RL 算法纳入统一的框架中,实验结果表明,没有任何一种现有算法能够跨任务通用。原创 2023-08-28 20:02:20 · 1231 阅读 · 0 评论 -
【具身智能】前沿思考与总结(DALL-E-Bot & TinyBot)
DALL-E-Bot:将网络规模的扩散模型引入机器人探索机器人网络规模的工作。DALL-E-Bot 使机器人能够,首先推断这些对象的文本描述,然后生成代表这些对象的自然、类人排列的图像,最后根据该图像对对象进行物理排列目标图像。我们证明,使用 DALL-E 可以实现,无需任何进一步的示例安排、数据收集或训练。由于 DALL-E 的网络规模预训练,DALL-E-Bot 是完全自主的,并且不限于一组预定义的对象或场景。原创 2023-08-06 12:30:57 · 608 阅读 · 0 评论 -
【具身智能】前沿思考与总结(谷歌&微软)
只需要告诉机器人它要做的任务是什么,机器人就会理解需要做的事情,拆分任务动作,生成应用层控制指令,并根据任务过程反馈修正动作,最终完成人类交给的任务。整个过程基本不需要或者仅需少量人类的介入和确认,基本实现了机器人自主化运行,无需掌握机器人专业操作知识的机器人应用工程师介入。原创 2023-08-06 11:24:10 · 716 阅读 · 0 评论 -
【具身智能】系列论文解读(CoWs on PASTURE & VoxPoser & Relational Pose Diffusion)
为了使机器人普遍有用,即使没有对域内数据进行昂贵的导航训练(即执行零样本推理),它们也必须能够找到人们描述的任意对象(即由语言驱动)。我们在统一的环境中探索这些功能:语言驱动的零样本对象导航(L-ZSON)。受到图像分类开放词汇模型最近成功的启发,我们研究了一个简单的框架,CLIP on Wheels (CoW),使开放词汇模型无需微调即可适应此任务。为了更好地评估 L-ZSON,我们引入了 PASTURE 基准,该基准考虑寻找不常见的对象、由空间和外观属性描述的对象以及相对于可见对象描述的隐藏对象。原创 2023-08-06 10:58:54 · 1137 阅读 · 0 评论