VLA风向标之π0系列(含π0.5和π0.6):复现/微调
文章平均质量分 96
VLA π0系列:含其复现、微调,及后续新版π0.5
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作
摘要:本文提出一种训练时实时分块(training-time RTC)方法,通过模拟推理延迟直接调节动作前缀,有效解决了视觉语言动作模型(VLA)在实时控制中的延迟问题。相比需要推理时图像修复的传统RTC方法,新方案完全消除了推理阶段的计算开销,仅需微调现有模型即可实现。实验表明,该方法在高延迟场景下性能优于推理时RTC,在箱体构建和咖啡制作等复杂任务中,既能保持执行速度和任务性能,又显著降低了计算成本。原创 2025-12-13 22:52:40 · 1632 阅读 · 3 评论 -
π∗0.6——RL微调流式VLA π0.6:先基于演示数据做离线RL预训练,再在线RL后训练(与环境自主交互,从经验数据中学习,且必要时人工干预)
摘要: π0.6是PI公司提出的新一代视觉-语言-动作(VLA)模型,通过强化学习(RL)从自主经验中提升性能。其核心框架RECAP结合了离线RL预训练、在线数据采集与专家干预,利用分布式价值函数评估任务进展,并通过优势条件策略优化动作选择。实验表明,该方法在复杂任务(如折叠衣物、制作咖啡)中使吞吐量提升2倍以上,失败率降低50%,实现了长时间稳定运行。相比传统模仿学习或策略梯度方法,π0.6通过端到端优势条件化处理异构数据,解决了VLA模型在真实场景中强化学习的可扩展性与稳定性问题,为通用机器人学习提供了原创 2025-11-18 23:13:09 · 6147 阅读 · 4 评论 -
πRL——首个在线RL微调流式VLA π0/π0.5的框架:通过Flow-Noise和Flow-SDE实现精确对数似然估计,全面提升性能
本文探讨了工业机械臂智能化改造的最新方法,重点介绍了首个在线强化学习(RL)微调流式视觉语言代理(VLA)的框架πRL。针对传统自回归VLA在连续动作控制上的局限性,πRL创新性地提出了Flow-Noise和Flow-SDE两种解决方案,克服了流匹配中对数似然估计的难题。该框架通过将强化学习与基于流的VLA架构(如π0和π0.5)相结合,实现了高精度且泛化的机械臂控制能力,为工厂智能化改造提供了新的技术路径。研究表明,RL微调VLA的方法正在成为工业机械臂智能化的主流方向。原创 2025-11-10 13:08:11 · 3870 阅读 · 1 评论 -
实时动作分块RTC——为解决高延迟,让π0.5也可以点燃火柴、插入网线:执行当前动作分块时生成下一个分块,且已执行的冻结并通过“图像修复”引导新块的生成
摘要 Physical Intelligence公司提出了一种实时动作分块技术(RTC),解决了视觉-语言-动作模型(VLA)在高精度任务中的延迟问题。该技术将异步动作分块建模为修补问题,在执行前一个动作块的同时生成下一个兼容的动作块,有效避免了传统分块方法在切换点产生的不连续性。RTC适用于基于扩散或流的可变长度动作模型,无需改变现有训练流程。实验表明,该方法能实现连续稳定的控制信号,支持如点燃火柴、插入网线等高精度操作任务,突破了VLA在实时控制中的性能瓶颈。该成果发表于2025年6月,为VLA在具身智原创 2025-07-15 16:43:07 · 5928 阅读 · 7 评论 -
π0.5的KI改进版(已部分开源)——知识隔离:让VLM在不受动作专家负反馈的同时,输出离散动作token,并根据反馈做微调,而非冻结VLM
本文解读π0公司提出的VLA(视觉-语言-动作)模型改进方法。针对传统VLA模型在引入连续控制模块(如动作专家)时易破坏预训练视觉语言模型(VLM)知识的问题,研究者提出"知识隔离"技术:通过切断动作专家梯度对VLM主干的传播,既保护预训练语义知识,又允许VLM通过离散动作token微调适配机器人任务。该方法兼具训练高效、推理实时(支持高频连续动作输出)和知识保留优势,相较混合自回归-扩散方案显著提升性能。文章还对比了动作分块表示、状态编码等关键技术原创 2025-07-10 12:18:12 · 4254 阅读 · 4 评论 -
π0.5——推理加强的统一模型:先高层预训练离散化token自回归预测子任务、后低层执行子任务(实时去噪生成连续动作)
今天一早,朋友圈刷到π0出0.5版本了,之后,我组建的「七月具身:π0复现微调交流群」群中,也在讨论这事,并说:七月老师要更新博客了这不就来了现在具身模型的发展 还不如大语言模型那样成熟π0 发新版了,意味着和Google的RT(大概率是不更了),以及figure(没开源过)等等——还有别的一些模型 没列举全,进入了少数迭代型的具身模型的行列。原创 2025-04-24 00:19:38 · 9767 阅读 · 2 评论 -
Hi Robot——大脑加强版的π0:基于「VLM的高层推理+ VLA低层任务执行」的复杂指令跟随及交互式反馈
自从ChatGPT火爆之后,大语言模型对具身智能的赋能、推动便一日千里,然大语言模型和人类对话上的交互是限定在一个文字世界里的,不需要考虑实体与其所处环境的物理交互毕竟在虚拟世界中,大语言模型给的答案没有实体或现实世界的限制,但到了现实世界中,人让实体的机器人干活时,则一切大不一样了机器人需要考虑现实世界中 各种限制,比如各种行为在现实中是否可执行如Hi Robot原论文所说的当你对机器人说,“如果你有火腿或烤牛肉,能不能为我的朋友做一个包含其中一种的单独三明治?原创 2025-04-09 17:06:38 · 5448 阅读 · 3 评论 -
自回归版π0-FAST——打造高效Tokenizer:比扩散π0的训练速度快5倍但效果相当(含π0-FAST源码剖析)
最近,多项研究开发了通用机器人策略[这些策略是在越来越大的机器人学习数据集,比如52-Open-X上进行训练的训练通用策略的一种有前途的方法是视觉-语言-动作模型VLAs,包括且不限于10Rt-239-Openvla7-π063-Tinyvla11-GR-2这些模型是在互联网上规模庞大的图像和文本数据上预训练的,用于机器人控制使用具有数十亿参数的大型视觉-语言模型骨干,为拟合大型机器人数据集提供了必要的表达能力。原创 2025-02-06 21:25:22 · 16496 阅读 · 7 评论 -
π0的微调——如何基于各种开源数据集、以及私有数据集微调openpi(含我司七月的微调实践及openpi在国产臂上的部署)
25年2.4日,几个月前推出π0的公司Physical Intelligence (π)宣布正式开源π0及π0-FAST,如之前所介绍的,他们对用超过 10,000 小时的机器人数据进行了预训练该GitHub代码仓库包括4个方面:简言之,就是π0本身的代码和权重、特定平台上特定任务的微调checkpoint、推理代码、微调代码。原创 2025-03-09 00:14:26 · 22837 阅读 · 32 评论 -
π0源码(openpi)剖析——从π0模型架构的实现:如何基于PaLI-Gemma和扩散策略去噪生成动作,到基于C/S架构下的模型训练与部署
ChatGPT出来后的两年多,也是疯狂写博的两年多,年初deepseek更引爆了下从曾经15年创业后每年2-6篇的,干到23年30篇、24年65篇,25年前两月18篇,成了我在大模型和具身的原始技术积累如今一转眼已到25年3月初,纪念这两年多,然近期和团队接了好几个大客户订单,使得3月起 不得不全力加速落地,自己也得每天抠paper、搞代码,今年可能没法像去年那样干65篇,不过,我还是争取保持月月更新。原创 2025-03-06 18:27:01 · 24525 阅读 · 28 评论 -
LeRobot pi0——LeRobot对VLA策略π0的封装:含其源码剖析与真机部署(效果上逊于官方openpi)
本文详细剖析了LeRobot框架中π0模型的实现与优化。π0是一个结合视觉-语言-动作的多模态模型,用于通用机器人控制,核心包括: 架构设计 基于PaliGemma视觉语言模型与Gemma专家模型的融合 采用流匹配技术生成机器人动作序列 支持分组查询注意力(GQA)优化推理效率 关键实现 转换工具:将JAX实现的模型转换为PyTorch格式 配置系统:统一管理输入/输出结构、归一化策略和训练参数 注意力优化:提供三种实现(eager/fa2/flex)适配不同硬件 训练流程:通过噪声插值和向量场预测学习动作原创 2025-06-02 00:04:13 · 9269 阅读 · 4 评论 -
π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)
在此文之前,我花了一天半,详细解读了清华这个机器人扩散大模型RDT,包括其每一个附录,并在上文中预告说:下一篇是一个3B的机器人大模型打通7种不同品牌的机械臂,这几个工作宣告机器人真正进入大模型时代故,本文来了。原创 2024-11-04 00:11:59 · 44188 阅读 · 25 评论
分享