VLA模型
文章平均质量分 93
VLA 模型(Vision–Language–Action)是一类面向通用机器人操作(General Manipulation)的多模态模型,核心目标是:让机器人“看懂世界(Vision)+ 听懂/读懂指令(Language)→ 直接产生动作(Action)
行如流水
具身智能算法工程师一枚,记录自己看的一些模型和论文
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DiTa:扩展Diffusion Transformer以实现通用视觉-语言-动作策略
本文提出Dita,一种基于扩散Transformer的通用机器人策略框架,通过多模态输入与上下文条件化实现连续动作生成。Dita采用第三人称相机图像和语言指令作为输入,利用预训练模型提取特征,并通过扩散Transformer直接对7维动作向量进行去噪。该方法在Open X-Embodiment数据集上预训练,仅需10-shot微调即可适应新任务。实验表明,Dita在多个仿真平台和真实机器人场景中表现优异,其紧凑的334M参数模型展现出强大的泛化能力和长程任务处理能力,为通用机器人策略学习提供了新思路。原创 2025-12-15 22:29:59 · 987 阅读 · 0 评论 -
Octo论文详解
本文提出Octo,一种基于Transformer的开源通用机器人策略模型。Octo采用模块化设计,包括输入标记器、Transformer主干网络和读出头三部分,支持多任务、多传感器输入和不同动作空间。模型在Open X-Embodiment数据集的80万条轨迹上预训练,采用条件扩散解码头预测多模态动作分布,并通过加权采样优化数据多样性。实验表明,Octo能灵活适应新任务,仅需微调读出头即可处理不同机器人平台和任务。该模型为构建通用机器人策略提供了有效解决方案。原创 2025-12-14 15:00:47 · 555 阅读 · 0 评论 -
Diffusion Policy详解
Diffusion Policy 是一种将扩散模型(Diffusion Model)用于机器人控制的策略学习方法:它把机器人动作序列看作“需要逐步去噪生成的数据”,在给定当前观测(如图像、状态、语言指令)的条件下,通过多步去噪过程直接生成连续、平滑且多模态的动作轨迹。相比传统行为克隆或单步回归策略,Diffusion Policy 更擅长建模复杂长时序操作、不确定性和多解行为,在真实机器人操作与仿真任务中表现出更强的稳定性与泛化能力。原创 2025-12-14 14:52:59 · 1017 阅读 · 0 评论
分享