人形manipulation:iDP3/GR00T/Tele
文章平均质量分 96
包含斯坦福的iDP3系列,包含全套代码的解析,以及宇树等人形的二次开发
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)
本文最开始是属于此文《一文通透GR00T N1和N1.5——英伟达开源的人形VLA:VLM Eagle-2慢思考、动作专家DiT快反应,且可类似LAPA利用海量的无标注视频做训练》的然因为我司于25年9 20/21在长沙举办的人形二次开发线下营上午讲openpi微调全流程下午先把『数采、格式转换、ACT和gr00t训练』的全套流程全部封装在了仿真中,可以快速在仿真中采数据,然后验证模型执行几个任务再之后,我们把gr00t的真机部署流程全程细讲最后再演示下面这个纸巾抓取,完美收尾,明天原创 2025-09-21 00:43:09 · 4906 阅读 · 6 评论 -
EgoVLA——根据第一视角的人类视频中训练的VLA模型:助力家具组装等人形灵巧操作任务的攻克(利用可穿戴手部追踪)
摘要:七月在线公司聚焦人形机器人和机械臂两大应用场景,重点研究灵巧操作、展厅讲解、智能装配和精密插拔技术。EgoVLA模型通过人类第一视角视频学习操作技能,将人类动作转化为机器人指令,大幅降低对机器人硬件数据的依赖。该模型采用NVILA-2B架构,结合手腕姿态和手部参数预测未来动作,仅需少量机器人演示数据微调即可实现跨域迁移。研究构建了包含50万样本的第一人称操作数据集,并开发了仿人双臂操作基准测试,验证了该方法的有效性。原创 2025-08-15 00:45:49 · 3377 阅读 · 0 评论 -
一文通透GR00T N1——英伟达开源的人形VLA:VLM Eagle-2慢思考、动作专家DiT快反应,且可类似LAPA利用海量的无标注视频做训练
就在今天3.19日的凌晨,英伟达发布的GR00T N1还是很有含金量的(上午已有好几个朋友私我了),由此可以看到很多相关工作的影子,比如helix π0 LAPA,具体而言,其具有双系统架构至于昨晚计划的fourier-lerobot对idp3的封装解读,则作为这两天的第二篇顺便说个事,随着我司「七月在线」接的B端大客户具身订单越来越多了,非常缺人。原创 2025-03-20 00:28:26 · 10491 阅读 · 8 评论 -
GO1——继AgiBot World之后,智元发布GO1及其背后基于潜在动作的VLA架构ViLLA:利用海量的无标注视频做训练(含LAPA、Moto的详解)
AgiBot World Colosseo,这是一个全栈式大规模机器人学习平台,旨在推动可扩展和智能化的体感系统中的双手操作研究。他们建造了一个总面积达4000平方米的设施,涵盖五个主要领域——家庭、零售、工业、餐厅和办公室环境——专用于在真实的日常场景中进行高保真数据收集AgiBot World从100个真实机器人收集了超过100万条轨迹,提供了前所未有的多样性和复杂性。它涵盖了超过100个现实场景,解决了诸如细粒度操作、工具使用和多机器人协同合作等具有挑战性的任务。原创 2025-03-11 17:32:14 · 9653 阅读 · 0 评论 -
Helix——Figure 02上的人形VLA:不用微调即可做多个任务的快与慢双系统,让两个机器人协作干活(含清华HiRT详解)
过去一周,我花了很大的心思、力气,把deepseek的GRPO、MLA算法的代码解析通透,比如GRPO与PPO的详细对比,再比如MLA中,图片 公式 代码的一一对应2.20日晚,无意中刷到figure 02发布Helix的一个演示视频,再次大为震撼当时在朋友圈感叹到,我司在具身落地中,基本围绕:模仿学习 RL vla三条线,下面这个figure 02分门别类收纳进冰箱,应该vla的贡献程度最大(后来看了下技术报告,确实如此)原创 2025-02-21 14:22:48 · 11488 阅读 · 0 评论 -
宇树VR遥操与IL——从遥操程序xr_teleoperate到unitree_IL_lerobot:如何基于G1进行manipulation开发
如之前的文章所述,我司「七月在线」正在并行开发多个订单,目前正在全力做好每一个订单,因为保密协议的原因,暂时没法拿出太多细节出来分享但可以持续解读我们所创新改造或二次开发的对象,即解读paper和开源库「当然 有些paper/库还没开始用,但也可以提前解读,作为关注了解而对于我司人形开发的订单,背后的机器人多半基于这三家:宇树、傅利叶、乐聚且无论咱们是用傅利叶集成的lerobot——,还是宇树集成的lerobot——,都是可以用的摇操代码avp_teleoperate「其基于此文《原创 2025-04-14 11:48:55 · 10044 阅读 · 7 评论 -
Open-TeleVision源码解析——宇树摇操方案的重要参考:VR控制人形机器人采集数据
本来针对Open-TeleVision的源码解析,是打算放在此文《从宇树摇操avp_teleoperate到unitree_IL_lerobot:如何基于宇树人形进行二次开发》中的,但考虑到为避免篇幅过长,故独立成此文。原创 2025-04-13 10:45:44 · 5127 阅读 · 0 评论 -
UC San Diego的三大机器人:AnyTeleop、Open-TeleVision、Bunny-VisionPro——从RGB相机到VR远程控制机器人
这篇论文的链接,我当时快速看了一遍,还是有价值的一个工作(其应该有受humanplus工作的其他),一直想做下解读来着,无奈过去一周一直在弄mamba2的解读,所以没来得及弄。码器捕捉图像和本体感觉标记的关系,Transformer解码器输出特定块大小的动作序列。手腕的姿态流式传输到服务器。服务器将人类姿态重新定向到机器人,并将关节位置目标。如下图所示,便是TeleVision的远程操作数据收集和学习设置。7.3日,我司大模型机器人(具身智能)线下营群里的一学员发了《左:我们的远程操作系统。原创 2024-07-12 23:11:20 · 13734 阅读 · 0 评论 -
Fourier-Lerobot——把斯坦福人形动作策略iDP3封装进了Lerobot(含我司七月的idp3落地实践)
近期在抠lerobot源码时,看到其封装了ALOHA ACT、diffusion policy、π0时,我就在想,lerobot其实可以再封装下idp3我甚至考虑是否从我联合带的那十几个具身研究生中选几个同学做下这事,对他们也是很好的历练截止到,25年3.18日晚上,我把lerobot抠的差不多了,然后刚看到傅利叶fork了lerobot,并在fork的fourier-lerobot中,把idp3封装了进去,实在是卷啊..再加之工厂机械臂开发订单之外,我司近期接到的B端。原创 2025-03-22 23:58:46 · 5494 阅读 · 3 评论 -
iDP3的人形遥操代码分析:数据收集、数据转换到人形机器人VR遥控(含动作重定向)
如此文《》的第三部分开头所说跑iDP3的整个流程分为:数据采集、数据转换、数据预处理,然后做训练、部署、可视化,具体而言,iDP3开源了两个代码仓库,一个是学习,一个是摇操作,其中对于后者,已经在这两篇文章里「」进行了详尽细致的分析,对于前者,则是本文。原创 2025-01-25 21:24:58 · 5667 阅读 · 1 评论 -
iDP3的训练与部署代码解析:从数据可视化vis_dataset.py、训练脚本train.py到部署脚本deploy.py
如此文《UMI——斯坦福刷盘机器人:通过手持夹爪革新数据收集方式,且使用DiffusionPolicy预测动作(含代码解读)》的开头所说,我司正在借助iDP3做通用化改写,使得一套策略控制各种机器人更改通讯脚本避免每来一套机械臂,就得比较费劲的写对应的通讯脚本至于的介绍详见此文实际改写时目标是去适配iDP3,从而借助iDP3达到对外通用化的目的相当于而关于iDP3的介绍,以及iDP3的learning代码在之前的文章都详细分析过了「前者详见,后者详见」,故本文侧重介绍iDP3的部署、训练、预处理。原创 2025-01-20 15:31:30 · 4297 阅读 · 3 评论 -
iDP3的Learning代码解析:逐步分解iDP3的数据集、模型、动作预测策略代码(包含2D和3D两个版本)
前言今25年1.14日起,我和同事孙老师连续出差苏州、无锡、南京、上海我们连连感慨,绝大部分工厂都将在今2025年开始做一系列智能升级、智能改造,包括且不限于线缆插拔、智能装配、打螺钉,而背后用的策略方法,也将从传统的深度学习方法,往大模型+模仿学习RL方面迁移,这是一股势不可挡的浪潮本想着这几天出差完后把ipd3的源码也做下解读,想了下,只要有时间空闲,我便开始解读吧,于此,今天便有了本文。原创 2025-01-16 16:54:46 · 4829 阅读 · 3 评论 -
斯坦福通用人形策略iDP3——同一套策略控制各种机器人:改进3D扩散策略,不再依赖相机校准和点云分割
问题表述作者将人形操作任务表述为一个离散时间马尔可夫决策过程,由一个元组定义:,其中是状态空间,是动作空间,是转移概率,是奖励函数,是折扣因子,是初始状态分布在他们的背景下,S是捕捉机器人和物体状态的原始RGB-D观测空间,A是人形机器人运动指令的空间,R是稀疏奖励函数,当任务完成时返回1解决任务的目标是找到一个策略π,以最大化从µ中抽取的广泛初始配置在测试时的预期任务成功率那又什么叫做开放世界呢。原创 2024-10-23 17:25:32 · 11662 阅读 · 7 评论
分享