VLM规划下加约束:SayCan、ReKep等
文章平均质量分 96
直接提示VLM规划的更细
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Manual2Skill——让VLM从装配手册中提取装配步骤,随后做姿态估计,最终完成IKEA家具的自动组装(含IKEA-Manuals的详解)
Manual2Skill:基于视觉语言模型的家具自动装配框架 摘要:新加坡国立大学等机构提出的Manual2Skill框架,通过视觉语言模型(VLM)理解家具装配手册,实现自主机器人装配。该框架首先利用GPT-4o解析手册中的抽象示意图,生成分层装配图;然后结合部件点云和手册图像预测6D装配位姿;最后通过运动规划生成无碰撞装配轨迹。实验表明,该方法能有效处理复杂的长时序装配任务,显著减少对示范数据的依赖。相比传统方法局限于简单桌面任务,Manual2Skill突破了复杂家具装配的挑战,为智能制造提供了新思路原创 2025-08-02 01:14:51 · 4031 阅读 · 7 评论 -
基于人类视频的模仿学习与VLM推理规划:从DexMV、MimicPlay、SeeDo到人形OKAMI、Harmon(含R3M的详解)
在此文《》的1.1节开头有提到机器人收集训练数据一般有多种方式,比如Dexmv物理本体,有的翻译为embodiment38-Dexmv即embodiment-agnostic keypoint,49考虑到「从人类视频中学习」早已成为机器人的主流训练方法之一,故打算系统阐述以下这个课题,不然很多朋友可能只是理解其字面意思,但到底具体怎么个模仿学习,则不一定知其里,而通过本文系统的阐述,可以让大家更深刻的理解模仿学习背后更深的细节。原创 2024-10-20 22:57:24 · 9196 阅读 · 3 评论 -
VLM驱动机器狗——从UMI on Legs到Helpful DoggyBot:分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里
今年十一7天假期期间,一半的时间都在改本博客内的上一篇文章《从Fast-UMI到Diff-Control:分别改进UMI的硬件及其所用的Diffusion policy(含ControlNet详解)》,改完之后,接下来计划要写的博客包括且不限于。然10.7日晚,又无意中看到了「UMI on Legs和Helpful DoggyBot」这两个工作,前者把UMI机械臂放到机器狗背上(适合我司之前去一个客户机房的场景),后者把夹爪放到机器狗嘴里。原创 2024-10-08 23:24:42 · 6302 阅读 · 0 评论 -
ReKep——李飞飞团队提出的让机器人具备空间智能:基于VLM模型GPT-4o和关系关键点约束(含源码解析)
ReKep 的一个实例是一个函数,它将关键点数组(记作 k)映射到一个无界的成本,其中表示约束已满足函数实现为一个无状态的 Python 函数,包含对关键点进行的 NumPy [123] 操作,这些操作可能是非线性和非凸的本质上,ReKep 的一个实例编码了关键点之间的一种期望的空间关系,这些关键点可能属于机器人手臂、物体部件和其他代理然而,一个操作任务通常涉及多个空间关系,并且可能具有多个时间上相互依赖的阶段,每个阶段都包含不同的空间关系。原创 2024-09-18 23:48:37 · 11415 阅读 · 0 评论 -
让VLM充当机器的指路人——VLM规划下加约束:从SayCan、VoxPoser到ViLA、CoPa、ReKep
Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作,具体则如下Figure 的机载摄像头以 10hz 的频率拍摄图像。原创 2024-03-17 00:12:26 · 15401 阅读 · 0 评论
分享