
ALOHA/umi/dexcap中的模仿学习与动作预测
文章平均质量分 96
涉及mobile aloha、umi、dexcap,与其背后对应的动作策略ACT/Diffusion策略/RL等
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
LeRobot源码剖析——对机器人各个动作策略的统一封装:包含ALOHA ACT、Diffusion Policy、VLA模型π0
过去2年多的深入超过此前7年,全靠夜以继日的勤奋,一天当两天用,抠论文 抠代码 和大模型及具身同事讨论,是目前日常而具身库里,idp3 π0 lerobot值得反复研究,故,近期我一直在抠π0及lerobot的源码本文一开始是此文《LeRobot——Hugging Face打造的机器人开源库:包含对顶层script、与底层基础层dataset的源码分析》的第四部分,考虑到为避免该文的篇幅过长,故把该文的第四部分独立出来,成本文该模块包含以下策略该模块主要包含以下组件可能马上就有同学疑问了,那这个模块和π0的原创 2025-03-17 00:15:54 · 2795 阅读 · 0 评论 -
斯坦福UMI代码解析:刷盘机器人Universal Manipulation Interface代码的整体解读
本文一开始是属于此文《UMI——斯坦福刷盘机器人:通过手持夹爪革新数据收集方式,且使用Diffusion Policy预测动作》的第四部分,但为了把原理部分和代码解析更好的解耦,故把代码解析抽取出来了,独立成本文本解读基本来自我司大模型项目组的远根同学,之前之所以分享其中的部分出来,当时是想招纳可以针对UMI共同做二次开发的朋友。原创 2025-02-02 21:32:39 · 3914 阅读 · 0 评论 -
一次性总结数十个具身模型(2024-2025):从训练数据、动作预测、训练方法到Robotics VLM、VLA(如π0等)
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。原创 2025-02-01 15:20:33 · 7504 阅读 · 0 评论 -
Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)
本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立成本文在ViT之前,图像领域基本是CNN的天下,包括扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替2022年12月,William Peebles(原创 2024-12-29 00:20:05 · 8257 阅读 · 1 评论 -
YAY Robot——斯坦福和UC伯克利开源的:人类直接口头喊话从而实时纠正机器人行为(含FiLM详解)
复杂的机器人任务可能需要多个单独的基础动作的序列。例如,如图1所示将多个物品装入袋子中需要依次抓取每个物体,将其移动到袋口附近,然后插入解决此类多阶段任务的一个常用框架是通过分层抽象,其中高级策略指挥具体行为,然后由低级策略执行这些行为 [36,68,69,18]原创 2024-12-24 14:46:24 · 3769 阅读 · 0 评论 -
斯坦福泡茶机器人DexCap源码解析:涵盖收集数据、处理数据、模型训练三大阶段
它可以捕捉颜色图像、深度图像、姿态数据以及手部关节数据,并将这些数据保存到指定的目录中首先,导入库"""示例用法"""import argparse # 用于解析命令行参数import copy # 用于复制对象import numpy as np # 用于数值计算import open3d as o3d # 用于3D数据处理import os # 用于操作系统相关功能。原创 2024-11-10 00:10:38 · 4732 阅读 · 0 评论 -
Diffusion Policy——斯坦福UMI所用的动作预测算法:基于扩散模型的扩散策略(从原理到其编码实现)
所谓扩散策略,是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法,如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数,并优化能够最小化能量景观的动作c)通过“条件去噪扩散过程在机器人行动空间上生成行为”,即该扩散策略策略不直接输出一个动作,而是推断出「基于视觉观察的动作-评分梯度」,进行K次去噪迭代。原创 2024-11-09 21:53:57 · 12039 阅读 · 0 评论 -
机器人领域中的scaling law:清华高阳团队通过复现斯坦福UMI——探讨数据规模化定律(含UMI的复现关键)
且在和丁老师沟通中,还聊到清华高阳团队也复现了UMI,不过他们是完全用的国外比较昂贵的硬件(Franka机械臂、WSG50夹爪),且即便如此,竟然也没达到UMI原始论文中的效果,至于原论文中的效果不好复现的原因,则众说纷纭了..此外,我还特地邀请了针对UMI做了改进工作的fastumi作者之一丁老师给大家在线分享,毕竟UMI本身有不少局限性,比如耦合性太强、原装硬件的成本太高(比如UR5e、WSG50夹爪)且不方便换成国产硬件、复杂的SLAM算法。至于高阳团队的复现UMI的工作对应的论文为《原创 2024-10-29 18:38:55 · 5817 阅读 · 1 评论 -
Fast-UMI——改进斯坦福UMI的硬件:用RealSense T265替代SLAM且实现机械臂的迁移与平替(含归类好的全部硬件清单)
24年9.28日下午,微信上的好友丁研究员和我说我当时(周六)和家人在李自健美术馆,故回复之:帅气,我晚上到家后看下我个人确实准备 这几天仔细研究下,毕竟我们之前也在基于umi/dexcap做二次开发,有很多契合点我深知这种感觉,因为当我司做出一个大模型应用或机器人解决方案,哪怕只是一篇博客时,都渴望和同行做各种深入交流而且正如技术合伙人姚博士所说,“fastumi数据采集方式的改进强,因为我们当时也考虑过t265,但确实是人手不足”原创 2024-10-01 15:32:54 · 6261 阅读 · 0 评论 -
SRT——基于模仿学习的手术机器人:来自约翰霍普金斯大学和斯坦福ALOHA团队
7.17,我司七月九周年司庆之际,我机器人方向的技术合伙人姚博士发我一篇文章,这篇文章提道:“约翰霍普金斯大学、斯坦福大学合作的手术机器人 Transformer(Surgical Robot Transformer ,SRT),通过端到端模仿学习实现手术任务自动化。在时间落地时,这个研究基于达芬奇机器人上,实现了自动化:打结、针头操作、软组织操作”姚博士当时评论道:他们的策略就是我july博客内介绍过的ACT和diffusion policy,说明只要数据集足够,很多功能都能实现。原创 2024-07-28 13:16:24 · 5736 阅读 · 3 评论 -
LeRobot——Hugging Face打造的机器人开源库:包含对顶层script、与底层基础层dataset的源码分析
5月6日,Hugging Face的机器人项目负责人雷米·卡德内Remi Cadene宣布推出LeRobot开源代码库,并形容它对于机器人的意义就如同“Transformer架构之于NLP”Remi Cadene在推文中表示,LeRobot之于机器人就像Transformer架构之于NLP——它提供带有预训练检查点的高级AI模型的简洁实现。他们还复现了来自学术界的 31 个数据集和一些模拟环境,无需实体机器人即可开始使用原创 2024-06-15 00:47:28 · 6105 阅读 · 0 评论 -
DexCap——斯坦福李飞飞团队泡茶机器人:带灵巧手和动作捕捉的数据收集系统(含硬件改进VIVE)
2023年7月,我司组建大模型项目开发团队,从一开始的论文审稿,演变成目前的两大产品线论文方面,除了论文审稿之外,目前正在逐一开发论文翻译、论文对话、论文idea提炼、论文修订/润色/语法纠错、论文检索机器人方面,我们1月份开始攻机器人、Q1组建队伍、5月份成功复现UMI和DexCap后,本月(即6月)总算要开始为工厂赋能了(目前已经谈好三个工厂的合作意向)原创 2024-06-03 12:28:31 · 10269 阅读 · 0 评论 -
逐行解读ALOHA ACT的实现:机器人动作分块算法ACT的代码剖析、训练部署
本文最早是属于《斯坦福Mobile ALOHA背后的关键技术:动作分块ACT算法的原理解析》的第二、第三部分,涉及到动作分块ACT的代码剖析与部署训练,但因为想把ACT的代码逐行剖析的更细致些,加之为避免上一篇文章太过于长,故把动作分块ACT的代码剖析与部署实践这块独立出来成本文。原创 2024-01-13 11:06:53 · 19189 阅读 · 28 评论 -
UMI——斯坦福刷盘机器人:通过手持夹爪革新数据收集方式,且使用Diffusion Policy预测动作
如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数,并对最小化能量景观的动作进行优化(c)扩散策略通过学习的梯度场将噪声细化为动作。这种表述提供了稳定的训练,允许学习到的策略准确地建模为多模态动作分布,并容纳高维动作序列进一步,所谓扩散策略,是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法扩散策略学习动作-分布评分函数的梯度即该策略不是直接输出一个动作,而是以视觉观察为条件,对K次去噪迭代推断“动作-得分梯度”(原创 2024-01-10 23:59:28 · 18667 阅读 · 21 评论 -
一文通透动作分块算法ACT:斯坦福ALOHA团队推出的动作序列预测算法(Action Chunking with Transformers)
根据上一篇文章《大模型机器人发展史:从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人》可知,斯坦福Mobile ALOHA在其发布的论文中提到相当于Mobile ALOHA涉及到了这三大关键技术:ACT、Diffusion Policy、VINN,故本文分三个部分一一阐述。原创 2024-01-08 15:52:50 · 28646 阅读 · 30 评论 -
以Mobile ALOHA为代表的模仿学习的爆发:从Dobb·E、Gello到ALOHA、OK-Robot、UMI、DexCap、伯克利FMB
且一年前,因为对ChatGPT背后技术原理巨大的「好奇心」,加之极高的「分享热情」、以及想写一篇关于其原理最全面 最深入 最细致文章的「决心」,彻底改变了过去一年的轨迹博客证明了技术研究能力,课程证明了教学教研能力,项目证明了带队开发能力说干就干。原创 2024-01-07 12:02:12 · 14296 阅读 · 0 评论 -
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等16大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.youkuaiyun.com/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...原创 2020-01-05 20:42:56 · 763062 阅读 · 0 评论