
具身智能
文章平均质量分 94
CVHub
专注多模态视觉语言AI全栈知识分享,提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案
展开
-
具身智能之RT-H
例如,如果机器人在拿起一个物体时动作不正确,人类可以输入新的指令,如“向左移动手臂”或“更慢地旋转手腕”,以纠正机器人的动作。RT-H在高层次任务描述(task descriptions)和低层次动作(action)之间引入一个中间层,即语言动作(language motions),这些语言动作是用更细粒度的短语来描述机器人的低级动作,例如“向前移动手臂”或“向右旋转手臂”。RT-H模型不仅可以响应人类的纠正,还可以从这些纠正中学习,以改进其未来的行为。当人类提供纠正时,这些纠正被视为额外的训练数据。原创 2024-04-16 21:00:08 · 750 阅读 · 0 评论 -
具身智能之RT2
做的事情和大致的思路其实和以前的RT-1, VIMA等模型没啥区别,本质上就是一种将预训练的 PaLM-E 等预训练的 VLM 大模型如何加进这些模型中,不过从VLM finetune、action token对齐text token是比较新的点限制:RT-2可以执行更加复杂的指令,这是因为从自然语言到动作能更容易被理解;但是不能泛化到新的行为上,因为网络上获取的数据只能帮助模型学会更多的视觉语义信息,无法学会新的行为由于机器人数据集总体量级很少,并且无法搜集机器人没有做过的行为。原创 2024-04-07 20:44:29 · 1144 阅读 · 0 评论 -
具身智能之RT1
RT-1是一个由Google开发的机器人学习模型,专注于提升机器人在真实世界任务中的泛化和实时控制能力。它结合了高效的Transformer架构和大规模数据集,能够处理多样化的任务并适应新环境。实验表明,RT-1在执行任务、泛化到新任务以及鲁棒性方面均优于现有模型,展现了其在机器人学习领域的潜力。最后,诚邀对具身智能和多模态大模型等前沿AI技术感兴趣的同学加入CVHub官方知识星球,获取每日最新相关技术进展,共同探讨和推动人工智能领域的创新发展。原创 2024-04-07 20:40:56 · 985 阅读 · 0 评论 -
具身智能开篇
扯了这么多,那到底啥是机器人具身智能?是不是机器人长成人样的就是具身智能?回答是:否!具身具身,不是人形就表示具身,具身智能不是一定是人形机器人!!!只能说人形机器人是具身智能一个比较好的载体。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。按照上海交大卢策吾的举例,上图右上角有两只猫,一直猫被绑起来,只能看这个世界;另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的猫是具身的智能。到最后,这只旁观的猫失去了行走能力。原创 2024-04-07 20:33:25 · 1776 阅读 · 0 评论