机械臂VLA发展史:RT2/OpenVLA/3D VLA
文章平均质量分 95
视觉语言动作机器人的起源、爆发,比如RT-2:给VLM加上动作模态RT1——从而变成VLA
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
WALL-OSS——点燃QwenVL 2.5在具身空间中的潜力:VL FFN可预测子任务及离散动作token,Action FNN则预测连续动作
本文介绍了WALL-OSS这一新型视觉-语言-动作(VLA)基础模型及其训练方案。该模型通过紧密耦合的MoE架构和两阶段训练策略(先启发后集成),有效解决了VLM在具身智能中面临的三大挑战:模态差异、预训练分布差异和训练目标差异。WALL-OSS采用统一的Uni-CoT方案,实现从高层语义到细粒度动作的端到端映射,相比传统流水线设计减少了误差累积。模型基于QwenVL2.5-3B构建,通过具身VQA增强空间推理能力,并使用静态路由机制优化多模态特征交互。实验表明,该方法显著提升了指令跟随能力和长时序任务成功原创 2025-09-17 17:28:27 · 4025 阅读 · 0 评论 -
EmbodiedOneVision——单个模型中集成离散自回归解码与连续流匹配去噪:Qwen 2.5 VL加两个MLP头完成具身推理、动作生成
本文解读了EO-Robotics这一开源工作,该模型通过交错视觉-文本-动作预训练实现了类似π0.5的统一架构。与早期VLA模型不同,EO-Robotics支持灵活的多模态交互,在训练时采用离散token自回归方式,推理时则输出连续动作。其核心创新包括:1)构建交错多模态数据集,结合网络视觉-语言数据和机器人操作片段;2)采用统一Transformer架构,集成离散文本解码和连续动作流匹配;3)实现推理与动作的时序协同。该工作为构建通用机器人策略提供了新思路,既保留了视觉语言模型的语义理解能力,又增强了机器原创 2025-09-07 22:02:10 · 3813 阅读 · 2 评论 -
Tactile-VLA——将触觉作为原生模态引入VLA:触觉参与动作生成,且根据触觉推理出合适的力度大小,以高成功率搞定充电器和USB插拔
摘要: Tactile-VLA是一种融合视觉、语言与触觉的多模态机器人操作框架,通过触觉感知提升接触丰富任务的执行精度。该模型基于π0架构改进,引入触觉编码器和混合力控机制,将语言指令(如"轻柔地")直接映射为物理力目标。通过端到端流匹配训练,模型展现了零样本泛化能力,包括力控指令迁移、物体自适应抓握及基于触觉反馈的自主纠错。实验表明,Tactile-VLA在插拔、装配等需精细力控的场景中优于传统视觉-语言模型,实现了语义理解与物理交互的深度结合。原创 2025-08-18 17:25:38 · 3207 阅读 · 0 评论 -
Galaxea G0——类似Hi Robot的「VLM高层推理 + VLA低层执行」:子任务标注数据训练前者VLM,且三阶段训练后者VLA
摘要:本文系统解读了星海图提出的G0双系统VLA模型及其配套的Galaxea开放世界数据集。G0采用双系统架构:系统2(G0-VLM)负责多模态规划,系统1(G0-VLA)执行精确动作操作。配套数据集包含500小时真实场景数据,覆盖50个场景150项任务,采用统一机器人实体采集确保一致性。研究提出了三阶段训练课程,并通过实验验证了单一实体预训练的重要性。与现有模型(如π0.5)相比,G0在开放世界任务中展现出更强的泛化能力。该工作为具身智能在真实场景的应用提供了新范式。原创 2025-08-14 17:04:03 · 2903 阅读 · 0 评论 -
ForceVLA——将具备力感知的MoE整合进π0的动作专家中:从而融合“视觉 语言 力反馈”实现精密插拔(非夕集成了六维力传感器)
摘要:ForceVLA是一种新型视觉-语言-动作(VLA)模型,通过引入力感知专家混合(MoE)模块,将6D力反馈与视觉语言信息融合,显著提升了机器人在精密插拔等接触密集型任务中的表现。相比现有主要依赖视觉的VLA模型,ForceVLA能动态感知任务各阶段的力变化,实现更精确的物理交互。该模型在π0框架基础上,通过SigLIP视觉语言编码器处理多摄像头输入,并结合本体感知和力觉信息,利用条件流匹配生成动作轨迹。实验表明,ForceVLA能有效应对视觉模糊场景,在多种插拔任务中展现出更强的鲁棒性和适应性。原创 2025-08-13 00:00:46 · 3100 阅读 · 1 评论 -
可语音流畅交互的OneTwoVLA——推理数据微调π0:一个模型中完成原来双系统下的慢思考、快执行,且能自适应推理和自我纠错
OneTwoVLA:统一视觉-语言-行动模型实现自适应推理与执行协同 本文提出OneTwoVLA模型,通过统一架构解决现有系统在推理与执行分离时产生的问题。该模型创新性地实现了:1)自适应切换推理与执行模式的能力;2)支持视觉-语言数据的联合训练提升泛化性;3)开发可扩展的合成流程自动生成16,000个具身推理数据样本。相比传统双系统框架,OneTwoVLA在错误检测恢复、人机交互和视觉定位等方面展现出显著优势,为构建更智能的机器人系统提供了新思路。原创 2025-07-23 18:59:01 · 3417 阅读 · 0 评论 -
SmolVLA——Hugging Face等机构推出的轻量且高效的VLA:将动作执行、观测处理、动作预测解耦
摘要:本文介绍了轻量级视觉-语言-动作模型SmolVLA的创新设计与应用。该模型通过优化架构(跳层处理、视觉token压缩、交错注意力机制)和流匹配动作专家,在消费级GPU上实现高效训练与CPU部署。使用不到3万个公开样本进行预训练后,其性能媲美更大规模VLA模型。异步推理架构将感知与动作预测解耦,显著降低延迟。相比传统VLA依赖昂贵硬件,SmolVLA为机器人领域提供了可复现、低成本的解决方案,尤其适合具身智能的实时控制场景。原创 2025-06-17 23:31:08 · 5361 阅读 · 1 评论 -
HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散
如上一篇文章所说,在叠衣服的过程中,我会带着团队对比各种模型、方法、策略,毕竟针对各个场景始终寻找更优的解决方案,是我个人和我司的职责之一且个人认为,如果只是单纯针对叠衣服这个任务,个人认为还是VLA会表现的更好些加之我其实很早就关注到了HybridVLA,只是一直没来得及解读它故本文便来解读这个HybridVLA原创 2025-06-08 00:22:52 · 4689 阅读 · 1 评论 -
DexVLA——在VLM上插上1B大小的扩散动作专家:使用带有子步骤推理注释的演示数据训练,15小时搞定叠衣服(含源码解析)
本文一开始属于此文的第四部分,由于我们准备挑战下折叠衣服这个任务,故除了π0之外,还关注到了这个DexVLA加之还准备解读下其源码,从而把DexVLA这部分独立成本文。原创 2025-05-08 12:59:33 · 5548 阅读 · 5 评论 -
3D版的VLA:从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA,在动作专家中加入3D数据
之前写这篇文章的时候,就想解读下3D VLA来着,但一直因为和团队并行开发具身项目,很多解读被各种延后更是各种出差,比如从25年3月下旬至今,连续出差三轮,绕中国半圈,具身占八成而出差过程中接到的多个具身订单中,有一个人形开发订单涉及要遥操,而3D版的VLA也是一种备选方案「详见此文《》的开头」故回到长沙后,便准备解读下3D VLA来了,但既然解读3D VLA了,那就干脆把相关3D版本的VLA一并解读下,如此,便有了本文。原创 2025-04-14 23:57:54 · 6398 阅读 · 4 评论 -
OpenVLA-OFT——微调VLA时加快推理的三大关键设计:支持动作分块的并行解码、连续动作表示以及L1回归(含输入灵活化及对指令遵循的加强)
前言25年3.26日,这是一个值得纪念的日子,这一天,我司七月在线的定位正式升级为了:具身智能的场景落地与定制开发商 ,后续则从定制开发,逐步过渡到 标准产品化已帮组装好的硬件,和对应复现好的程序,包括且不限于ALOHA/RDT/umi/dexcap/idp3/π0,如此软硬一体标准化的产品,省去复现过程中的真正做到:一旦拿来,开箱即用我司具身落地中,过去半年用π0居多,其次idp3和其他模型,也是目前国内具身落地经验最丰富的团队之一了,且始终保持对具身最前沿技术的沟通。原创 2025-04-04 22:35:18 · 7524 阅读 · 10 评论 -
一次性总结数十个具身模型(24-25年Q1):从训练数据、动作预测、RL应用到Robotics VLM、VLA等(含模型架构、训练方法)
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。原创 2025-02-01 15:20:33 · 19641 阅读 · 6 评论 -
RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据
前言本博客内解读不少VLA模型了,包括π0等,且如此文的开头所说前两天又重点看了下openvla,和cogact,发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla当然,各种VLA我在本文的开头已经详细介绍过,可以参看《原创 2025-01-27 00:32:07 · 9934 阅读 · 4 评论 -
一文速览CogACT及其源码剖析:把OpenVLA的离散化动作预测换成DiT,逼近π0(含DiT的实现)
近年来,配备视觉能力的机器人控制模型引起了广泛的兴趣,比如7-RT-1,8-RT-2-将7D动作分解为离散的token,并使用VLM PaLI-X [13]像语言token一样自回归地预测它们30-Openvla-采用和RT-2类似的方法,对动作进行tokenizing,并在Open-X-Embodiment数据集[48]上训练Prismatic VLM其中,大规模视觉-语言-动作(VLA)模型的发展[原创 2025-01-12 12:10:35 · 6276 阅读 · 0 评论 -
一文通透OpenVLA——在Prismatic VLM(SigLIP、DinoV2、Llama 2)的架构上:基于“下一个token预测技术”预测离散化动作
一个多月前,有朋友曾说,一个月内,π0 会开源来着,当时虽然觉得不太可能,但还是抱着期待可还是没开..没开源必然是有点遗憾,故这两天我一直在考虑、对比,看目前哪个vla最逼近π0,然后借鉴π0的思路,去改造该vla前两天又重点看了下openvla,和cogact,然后对此文增加了不少解读内容,且发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla。原创 2025-01-11 22:25:54 · 16018 阅读 · 2 评论 -
机器人大脑VLA的发展史——从微调VLM起步:详解RoboFlamingo、Octo、TinyVLA
许多研究使用从机器人收集的大量轨迹数据集来训练策略这些工作主要集中在单一的embodiment上,而Octo则在跨多个体现组装的机器人数据集上训练策略,增加了训练数据集的有效规模,并允许对多种机器人设置进行微调最近,论文集中于扩展机器人策略的泛化能力。多项研究利用多样的非机器人数据或预训练的视觉-语言基础模型来提升策略对新场景和任务的泛化能力[86,103,96,16,38,11,84,36,4,37,7,3,46,15,23]原创 2024-12-01 23:51:14 · 15207 阅读 · 15 评论 -
Google视觉机器人超级汇总:从RT、PaLM-E、RT-2到RT-X、RT-H(含Open X-Embodiment数据集详解)
随着对视觉语言机器人研究的深入,发现Google的工作很值得深挖,比如RT-2想到很多工作都是站在Google的肩上做产品和应用,Google真是科技进步的核心推动力,做了大量大模型的基础设施,服故有了本文,单独汇总Google在机器人领域的重大结果、进展。原创 2024-04-05 14:20:18 · 17793 阅读 · 0 评论
分享