
大模型
文章平均质量分 93
视言
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型时代的具身智能系列专题(二十二)
在获得场景描述和选定的视觉资产后,系统首先生成任务定义,如图2的第二项所示。我们提供场景信息、图像和资产描述,以生成符合上下文的机器人任务。为适应多种潜在任务,我们允许任务使用观测到的部分资产。我们专注于生成对机器人系统既实用又具有挑战性的任务,这些任务通常涉及特定方式操作场景中的目标,例如堆叠特定物品或按类别分组目标。例如,系统可能生成如下任务:“将所有红色方块堆叠在蓝色圆柱上”或“按大小顺序从左到右在桌子上排列目标。原创 2024-12-02 20:00:00 · 1664 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十四)
本文使用大型视觉语言模型(VLMs)解决了从人类演示视频中提取机器人任务计划的挑战,提出的 SeeDo 方法在时间理解、空间关系推理和对象区分方面有显著提升,在不同类别长周期取放任务上性能优于现有视频 VLMs。但现有研究仍有些局限性,具体如下:动作空间有限:当前实验仅限于取放动作,下一步需扩展到更复杂行为逻辑或更多样行为的动作空间。空间智能有限:视觉感知模块虽提高了区分左右空间关系的能力,但在需要更精确空间推理的任务(如木块堆叠)中仍会出错,需要未来 VLMs 有更强的空间智能。原创 2024-11-22 20:00:00 · 737 阅读 · 0 评论