精密插拔与装配:从RL、VLA(含力/触)到RL微调VLA
文章平均质量分 95
RL与VLA下的精密插拔与装配:含HIL-SERL
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
π∗0.6——RL微调流式VLA π0.6:先基于演示数据做离线RL预训练,再在线RL后训练(与环境自主交互,从经验数据中学习,且必要时人工干预)
摘要: π0.6是PI公司提出的新一代视觉-语言-动作(VLA)模型,通过强化学习(RL)从自主经验中提升性能。其核心框架RECAP结合了离线RL预训练、在线数据采集与专家干预,利用分布式价值函数评估任务进展,并通过优势条件策略优化动作选择。实验表明,该方法在复杂任务(如折叠衣物、制作咖啡)中使吞吐量提升2倍以上,失败率降低50%,实现了长时间稳定运行。相比传统模仿学习或策略梯度方法,π0.6通过端到端优势条件化处理异构数据,解决了VLA模型在真实场景中强化学习的可扩展性与稳定性问题,为通用机器人学习提供了原创 2025-11-18 23:13:09 · 2502 阅读 · 3 评论 -
πRL——首个在线RL微调流式VLA π0/π0.5的框架:通过Flow-Noise和Flow-SDE实现精确对数似然估计,全面提升性能
本文探讨了工业机械臂智能化改造的最新方法,重点介绍了首个在线强化学习(RL)微调流式视觉语言代理(VLA)的框架πRL。针对传统自回归VLA在连续动作控制上的局限性,πRL创新性地提出了Flow-Noise和Flow-SDE两种解决方案,克服了流匹配中对数似然估计的难题。该框架通过将强化学习与基于流的VLA架构(如π0和π0.5)相结合,实现了高精度且泛化的机械臂控制能力,为工厂智能化改造提供了新的技术路径。研究表明,RL微调VLA的方法正在成为工业机械臂智能化的主流方向。原创 2025-11-10 13:08:11 · 2173 阅读 · 1 评论 -
ConRFT——Consistency Policy下RL微调VLA的方法:离线通过演示数据微调(结合Q损失和BC损失),后在线RL微调,且引入人工干预
本文探讨了具身智能中模仿学习(IL)、视觉语言模型(VLA)和强化学习(RL)的融合趋势。研究表明,单纯IL学习速度快但精准度不足,单纯VLA泛化性强但缺乏精准控制,单纯RL精准度高但样本效率低。作者提出ConRFT方法,通过两阶段一致性策略强化微调:先利用少量演示数据离线微调(Cal-ConRFT),再结合人机协同(HIL)在线微调(HIL-ConRFT)。该方法在保持VLA通用能力的同时,通过统一训练目标整合BC损失和Q学习,有效解决了接触丰富任务中的样本效率和安全探索问题,为工业机械臂智能化提供原创 2025-09-10 00:32:23 · 4250 阅读 · 0 评论 -
知识蒸馏RLDG:先基于精密任务训练RL策略(HIL-SERL),得到的RL数据去微调OpenVLA,最终效果超越人类演示数据
论文《RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning》提出通过强化学习生成高质量训练数据,以提升通用机器人策略(如OpenVLA/Octo)在精密操作任务中的性能。传统基于人类演示的微调存在精度不足、数据不一致等问题,而RLDG先训练任务专用RL策略生成优化轨迹,再蒸馏至通用模型,实验显示其成功率比人类演示高30%,泛化能力提升50%。该方法结合了RL的精确控制与基础模型的泛化优势,尤其在接触密集型任务原创 2025-08-30 12:09:49 · 3963 阅读 · 0 评论 -
RaC——挂衬衫且打包外卖盒:如果机器人将失败,则人类让其先回退后纠正,以减缓IL中的误差累积(让数据的增长对任务促进的效率更高)
《RaC:通过恢复与纠正扩展机器人长时任务学习能力》摘要 CMU研究者提出RaC训练范式,针对模仿学习在长时任务中的局限性。该方法在预训练基础上引入人类干预数据收集:当策略即将失败时,操作员首先回滚机器人至安全状态,再提供纠正片段。这种结构化干预包含两种关键行为:(1)恢复至分布内状态;(2)执行子任务纠正。实验表明,RaC能显著提升策略鲁棒性,在接触丰富的灵巧操作任务中实现10倍效率提升。该方法创新性地将恢复行为视为可学习技能,无需修改基础模仿学习框架,仅通过优化数据构成即可突破传统模仿学习的性能瓶颈。研原创 2025-10-05 00:43:33 · 3642 阅读 · 1 评论 -
iRe-VLA——RL微调VLA:先SFT、后在线RL,最后结合“离线演示和在线成功数据”对VLA做SFT(含GRAPE的详解)
过去的这两年,工作之余,我狂写大模型与具身的文章,加之具身大火,每周都有各种朋友通过优快云私我帮忙:要么是做科研想复现,要么是工厂想做自动化生产线的智能升级,要么是想通过机械臂/人形解决各种业务场景问题让我感慨:二零一一年,因为算法,首次有「天下无人不识君」的感觉,过去这两年,因为大模型和具身机器人,再次有了这感觉具身的论文解读过很多之后,便会发现整个具身的技能图谱大概如下所示(建议按照从下至上的顺序看)其中,action head有基于LSTM的基于diffusion model的。原创 2024-12-31 00:02:11 · 10247 阅读 · 0 评论 -
TA-VLA——将关节力矩反馈融入VLA中:无需外部力传感器,即可完成汽车充电器插入(且可多次自主尝试)
本文探讨了具身智能开发的前景,重点解读了TA-VLA模型在机械臂精密操作中的应用。研究表明,通过将关节力矩信号集成到视觉-语言-动作模型中,可显著提升机械臂对物理接触的感知能力。作者系统分析了力矩信号在模型中的三种集成维度(时序、位置、方式),发现将历史力矩编码为解码器的单一token效果最佳。实验证明,这种设计在10项任务中优于传统VLA方法,特别是在充电器插拔等精细操作任务中,能准确区分接触状态。该研究为工业智能化提供了重要技术支撑,推动机器人从自动化向智能化的升级原创 2025-09-13 23:36:30 · 4449 阅读 · 5 评论 -
Tactile-VLA——将触觉作为原生模态引入VLA:触觉参与动作生成,且根据触觉推理出合适的力度大小,以高成功率搞定充电器和USB插拔
摘要: Tactile-VLA是一种融合视觉、语言与触觉的多模态机器人操作框架,通过触觉感知提升接触丰富任务的执行精度。该模型基于π0架构改进,引入触觉编码器和混合力控机制,将语言指令(如"轻柔地")直接映射为物理力目标。通过端到端流匹配训练,模型展现了零样本泛化能力,包括力控指令迁移、物体自适应抓握及基于触觉反馈的自主纠错。实验表明,Tactile-VLA在插拔、装配等需精细力控的场景中优于传统视觉-语言模型,实现了语义理解与物理交互的深度结合。原创 2025-08-18 17:25:38 · 3207 阅读 · 0 评论 -
ForceVLA——将具备力感知的MoE整合进π0的动作专家中:从而融合“视觉 语言 力反馈”实现精密插拔(非夕集成了六维力传感器)
摘要:ForceVLA是一种新型视觉-语言-动作(VLA)模型,通过引入力感知专家混合(MoE)模块,将6D力反馈与视觉语言信息融合,显著提升了机器人在精密插拔等接触密集型任务中的表现。相比现有主要依赖视觉的VLA模型,ForceVLA能动态感知任务各阶段的力变化,实现更精确的物理交互。该模型在π0框架基础上,通过SigLIP视觉语言编码器处理多摄像头输入,并结合本体感知和力觉信息,利用条件流匹配生成动作轨迹。实验表明,ForceVLA能有效应对视觉模糊场景,在多种插拔任务中展现出更强的鲁棒性和适应性。原创 2025-08-13 00:00:46 · 3100 阅读 · 1 评论 -
实时动作分块RTC——为解决高延迟,让π0.5也可以点燃火柴、插入网线:执行当前动作分块时生成下一个分块,且已执行的冻结 未执行的则补全
摘要 Physical Intelligence公司提出了一种实时动作分块技术(RTC),解决了视觉-语言-动作模型(VLA)在高精度任务中的延迟问题。该技术将异步动作分块建模为修补问题,在执行前一个动作块的同时生成下一个兼容的动作块,有效避免了传统分块方法在切换点产生的不连续性。RTC适用于基于扩散或流的可变长度动作模型,无需改变现有训练流程。实验表明,该方法能实现连续稳定的控制信号,支持如点燃火柴、插入网线等高精度操作任务,突破了VLA在实时控制中的性能瓶颈。该成果发表于2025年6月,为VLA在具身智原创 2025-07-15 16:43:07 · 5314 阅读 · 4 评论 -
Manual2Skill——让VLM从装配手册中提取装配步骤,随后做姿态估计,最终完成IKEA家具的自动组装(含IKEA-Manuals的详解)
Manual2Skill:基于视觉语言模型的家具自动装配框架 摘要:新加坡国立大学等机构提出的Manual2Skill框架,通过视觉语言模型(VLM)理解家具装配手册,实现自主机器人装配。该框架首先利用GPT-4o解析手册中的抽象示意图,生成分层装配图;然后结合部件点云和手册图像预测6D装配位姿;最后通过运动规划生成无碰撞装配轨迹。实验表明,该方法能有效处理复杂的长时序装配任务,显著减少对示范数据的依赖。相比传统方法局限于简单桌面任务,Manual2Skill突破了复杂家具装配的挑战,为智能制造提供了新思路原创 2025-08-02 01:14:51 · 3848 阅读 · 5 评论 -
VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)
摘要:VITAL框架通过两阶段策略(全局视觉定位+局部触觉操作)解决精密操作任务泛化难题。第一阶段利用视觉语言模型进行目标定位,第二阶段复用自中心视觉与触觉的局部策略完成毫米级操作。该方案结合模仿学习(32次演示)与强化学习微调(45分钟),通过语义数据增强保持泛化性,显著降低对场景变化的敏感性。实验显示,该方法在USB插入等任务中兼顾精度与跨环境适应性,为机器人精细操作提供新思路。(149字)原创 2025-07-03 17:01:43 · 4330 阅读 · 0 评论 -
Q-chunking——带有动作分块的强化学习:基于人类演示,进行一定的连贯探索(且可做到无偏的n步价值回溯)
UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论文已在GitHub和arXiv公开。原创 2025-07-16 16:05:39 · 4008 阅读 · 0 评论 -
WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调
毕竟未来一两月,我司长沙分部的规划是对于机械臂,考虑IL + RL结合下的方法,继续优化USB插拔、电源插拔等各种插拔场景对于人形,继续unitree_IL_lerobot,以及全身遥操、跳舞、展厅讲解针对各种插拔场景,7.4日下午,我司长沙分部同事文弱发我了一个介绍WSRL的X链接,我一看,挺不错,很有价值,也很有意义,后续准备试下,故本文先解读下一为指导将来的实践,二为分享,与更多有志于在线RL方向的同仁多交流(欢迎私我一两句的简介,邀你加入:七月:HIL-SERL/WSRL/VITAL交流原创 2025-07-06 23:23:58 · 3689 阅读 · 3 评论 -
HIL-SERL——结合“人类离线演示、在线策略数据、人工在线干预”的RL方法:直接真实环境中RL开训,可组装电脑主板和插拔USB
机器人强化学习任务可以通过一个来定义,其中是状态观测(例如,结合机器人的本体状态信息的图像)是动作(例如,期望的末端执行器扭转)是初始状态的分布,是依赖于系统动态的未知且可能是随机的转移概率而是奖励函数,编码任务最优策略是最大化奖励的累计期望值的策略,即,其中期望是通过关于初始状态分布、转换概率和策略在实践中,策略通常建模为由神经网络参数化的高斯分布为了实现机器人任务的强化学习算法,必须仔细选择合适的状态观察空间和动作空间。原创 2024-10-31 17:09:18 · 10392 阅读 · 10 评论 -
SERL——针对真机高效采样的RL系统:基于图像观测和RLPD算法等,开启少量演示下的RL精密插拔之路(含插入基准FMB的详解)
本文系统梳理了机器人强化学习框架SERL及其相关技术发展脉络。研究始于RLDG复现需求,回溯至其基础HIL-SERL框架,进而解析其核心算法RLPD(2023),并延伸至SERL(2024)前身工作。文章重点分析了SERL框架的创新性:1)整合了高样本效率的RLPD算法;2)提供图像观测兼容的奖励指定方法;3)实现自动任务重置机制;4)开发通用机器人适配接口。研究特别强调,SERL通过精心设计的实现细节(如阻抗控制器、高UTD比训练)在15-60分钟内完成复杂操作任务训练,验证了现有算法经优化后可达实用效率原创 2025-09-01 12:39:10 · 3476 阅读 · 0 评论 -
RLPD——利用离线数据实现高效的在线RL:不进行离线RL预训练,直接应用离策略方法SAC,在线学习时对称采样离线数据
摘要:本文介绍了两项强化学习前沿工作RLPD和RLDG。RLPD提出了一种高效融合离线数据的在线强化学习方法,通过"对称采样"机制(50%在线数据+50%离线数据)和层归一化技术,有效缓解了价值函数过度外推问题,在多个基准测试中实现了SOTA性能。RLDG则采用知识蒸馏框架,先训练精密任务RL策略生成数据,再微调视觉语言模型,性能超越人类演示数据。两项工作分别从数据利用效率和知识迁移角度推进了强化学习在实际场景中的应用,特别是在样本效率、稳定性和泛化能力方面取得重要突破。(149字)原创 2025-08-30 23:33:16 · 3726 阅读 · 0 评论
分享