ALOHA ACT系列:mobile aloha为代表的IL
文章平均质量分 95
涉及mobile aloha与其背后对应的动作策略ACT
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Q-chunking——带有动作分块的强化学习:基于人类演示,进行一定的连贯探索(且可做到无偏的n步价值回溯)
UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论文已在GitHub和arXiv公开。原创 2025-07-16 16:05:39 · 4008 阅读 · 0 评论 -
实时动作分块RTC——为解决高延迟,让π0.5也可以点燃火柴、插入网线:执行当前动作分块时生成下一个分块,且已执行的冻结 未执行的则补全
摘要 Physical Intelligence公司提出了一种实时动作分块技术(RTC),解决了视觉-语言-动作模型(VLA)在高精度任务中的延迟问题。该技术将异步动作分块建模为修补问题,在执行前一个动作块的同时生成下一个兼容的动作块,有效避免了传统分块方法在切换点产生的不连续性。RTC适用于基于扩散或流的可变长度动作模型,无需改变现有训练流程。实验表明,该方法能实现连续稳定的控制信号,支持如点燃火柴、插入网线等高精度操作任务,突破了VLA在实时控制中的性能瓶颈。该成果发表于2025年6月,为VLA在具身智原创 2025-07-15 16:43:07 · 5314 阅读 · 4 评论 -
一次性总结数十个具身模型(24-25年Q1):从训练数据、动作预测、RL应用到Robotics VLM、VLA等(含模型架构、训练方法)
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。原创 2025-02-01 15:20:33 · 19641 阅读 · 6 评论 -
YAY Robot——斯坦福和UC伯克利开源的:人类直接口头喊话从而实时纠正机器人行为(含FiLM详解)
复杂的机器人任务可能需要多个单独的基础动作的序列。例如,如图1所示将多个物品装入袋子中需要依次抓取每个物体,将其移动到袋口附近,然后插入解决此类多阶段任务的一个常用框架是通过分层抽象,其中高级策略指挥具体行为,然后由低级策略执行这些行为 [36,68,69,18]原创 2024-12-24 14:46:24 · 4629 阅读 · 0 评论 -
机器人领域中的scaling law:清华高阳团队通过复现斯坦福UMI——探讨数据规模化定律(含UMI的复现关键)
且在和丁老师沟通中,还聊到清华高阳团队也复现了UMI,不过他们是完全用的国外比较昂贵的硬件(Franka机械臂、WSG50夹爪),且即便如此,竟然也没达到UMI原始论文中的效果,至于原论文中的效果不好复现的原因,则众说纷纭了..此外,我还特地邀请了针对UMI做了改进工作的fastumi作者之一丁老师给大家在线分享,毕竟UMI本身有不少局限性,比如耦合性太强、原装硬件的成本太高(比如UR5e、WSG50夹爪)且不方便换成国产硬件、复杂的SLAM算法。至于高阳团队的复现UMI的工作对应的论文为《原创 2024-10-29 18:38:55 · 7077 阅读 · 1 评论 -
SRT——基于模仿学习的手术机器人:来自约翰霍普金斯大学和斯坦福ALOHA团队
7.17,我司七月九周年司庆之际,我机器人方向的技术合伙人姚博士发我一篇文章,这篇文章提道:“约翰霍普金斯大学、斯坦福大学合作的手术机器人 Transformer(Surgical Robot Transformer ,SRT),通过端到端模仿学习实现手术任务自动化。在时间落地时,这个研究基于达芬奇机器人上,实现了自动化:打结、针头操作、软组织操作”姚博士当时评论道:他们的策略就是我july博客内介绍过的ACT和diffusion policy,说明只要数据集足够,很多功能都能实现。原创 2024-07-28 13:16:24 · 6948 阅读 · 5 评论 -
逐行解读ALOHA ACT的实现:动作分块算法ACT的代码剖析、模型训练、真机部署
本文最早是属于《斯坦福Mobile ALOHA背后的关键技术:动作分块ACT算法的原理解析》的第二、第三部分,涉及到动作分块ACT的代码剖析与部署训练,但因为想把ACT的代码逐行剖析的更细致些,加之为避免上一篇文章太过于长,故把动作分块ACT的代码剖析与部署实践这块独立出来成本文。原创 2024-01-13 11:06:53 · 27221 阅读 · 35 评论 -
一文通透ACT——斯坦福ALOHA团队推出的动作分块算法:基于CVAE一次生成K个动作且做时间集成
根据上一篇文章《大模型机器人发展史:从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人》可知,斯坦福Mobile ALOHA在其发布的论文中提到相当于Mobile ALOHA涉及到了这三大关键技术:ACT、Diffusion Policy、VINN,故本文分三个部分一一阐述。原创 2024-01-08 15:52:50 · 46490 阅读 · 36 评论 -
以Mobile ALOHA为代表的模仿学习的爆发:从Dobb·E、Gello到ALOHA、OK-Robot、UMI、DexCap、伯克利FMB
且一年前,因为对ChatGPT背后技术原理巨大的「好奇心」,加之极高的「分享热情」、以及想写一篇关于其原理最全面 最深入 最细致文章的「决心」,彻底改变了过去一年的轨迹博客证明了技术研究能力,课程证明了教学教研能力,项目证明了带队开发能力说干就干。原创 2024-01-07 12:02:12 · 18419 阅读 · 0 评论 -
RDT——清华开源的双臂机器人“扩散动作大模型”(基于DiT改造而成):先预训练后微调,支持语言、图像、动作多种输入
此外,在实践中,我们倾向于一次性预测一系列动作,即一个动作块,以促进时间一致性(Chi等,2023),并通过减少任务中的决策次数来缓解错误累积(Zhao等,2023)这可能导致分布外的动作,例如多个模式的算术平均值,这可能完全不可行(Pearce等,2023),相反,作者选择建模连续条件分布。幸运的是,对于作者的设置来说,这一缺点很小,因为。此外,值得强调的是,他们的目标是利用多机器人数据来增强模型在双手操作中的普适性,而不是开发用于各种机器人的跨实体模型。的维度比图像低得多,只需要最小的采样开销。原创 2024-11-02 00:31:03 · 19389 阅读 · 0 评论 -
字节GR2——在大规模视频数据集上预训练且机器人数据上微调,随后预测动作轨迹和视频(含GR1详解)
上个月的24年10.9日,我在朋友圈看到字节发了个机器人大模型GR2,立马去看了下其论文(当然了,本质是个技术报告)这次也是我头一次看paper,不看正文,而是直奔其References,看有没有我预想中的文献,说明咱看paper的能力相比去年强很多了那天之后,我就一直想解读这个GR2来着然,意外来了,如此文开头所说。原创 2024-11-01 19:20:34 · 6821 阅读 · 0 评论
分享