介绍 一下 DiffusionVLA 算法

部署运行你感兴趣的模型镜像

DiffusionVLA 算法:融合推理与精准控制的 VLA 新范式

一、算法概述

DiffusionVLA(简称 DiVLA)是由美的集团与华东师范大学等机构联合开发的 视觉 - 语言 - 动作 (VLA) 模型,于 2025 年被 ICML 接收。该模型创新性地 融合了自回归推理与扩散策略,解决了传统 VLA 模型的两大痛点: 推理能力不足动作生成精度欠缺
核心创新:将预训练 VLM 的强大语义理解能力与扩散模型的精确动作生成能力无缝结合,通过 " 推理注入" 机制实现端到端的可解释控制。

二、技术架构与核心机制

1. 整体架构

DiffusionVLA 采用 " 双核心协同" 架构:
组件功能实现方式
推理核心任务理解与规划预训练 VLM (如 Qwen2-VL),通过 next-token 预测生成推理文本
动作核心精确动作生成扩散模型,通过去噪过程生成连续动作序列
推理注入模块连接推理与动作FiLM (Feature-wise Linear Modulation),将推理信号转化为特征调制参数
工作流程
  1. 视觉输入→VLM 提取特征→生成动作 tokens→MLP→扩散模型
  2. 同时,VLM 生成推理文本→编码为向量→MLP 生成 γ/β→FiLM 调制扩散模型
  3. 扩散模型通过去噪过程生成最终动作序列

2. 推理注入机制(核心创新)

FiLM 调制原理
  • 推理文本(如 "需先抓取红色物体,因其靠近目标")→编码为向量→MLP 生成两组参数:
    • γ:通道缩放因子
    • β:通道偏移因子
  • 对扩散模型的特征图应用:FiLM(x) = γ·x + β
  • 实现非侵入式控制,不改变模型结构,仅动态调节内部信息流
优势
  • 共享单个注入模块即可用于所有任务,无需针对特定任务重新训练
  • 使模型决策过程可视化,提高可解释性(生成的推理文本可直接展示)
  • 比传统 prompt 拼接更灵活,能精确控制模型内部特征计算

三、训练与推理流程

1. 训练阶段

两阶段训练策略
  • 阶段一:VLM 预训练
    • 使用大规模图像 - 文本对训练,增强视觉理解和语言推理能力
  • 阶段二:扩散策略微调
    • 输入:多模态观察 (图像 + 状态)+ 任务指令 + 生成的推理文本
    • 输出:连续动作序列
    • 损失函数:动作预测与专家轨迹的 L2 距离 + 扩散去噪损失
数据效率
  • 复杂任务仅需不到 50 次演示即可完成训练
  • 支持零样本学习和快速适应新任务

2. 推理阶段

高效执行流程
  1. 视觉感知→特征提取→生成推理文本(解释 "为什么这样做")
  2. 同时生成动作 tokens→扩散模型(在推理指导下)生成精确动作序列
  3. 执行动作→反馈→迭代优化(直至任务完成)
速度优势:最小版本 DiVLA-2B 在单卡 A6000 GPU 上可实现 82Hz 推理速度

四、核心创新点

  1. "推理 + 扩散" 双引擎架构
    • 自回归推理负责高层任务理解与规划("做什么")
    • 扩散模型专注低层精确动作控制("如何做")
    • 互补优势,大幅提升复杂任务执行成功率
  2. FiLM 推理注入机制
    • 首创将语言推理直接 "注入" 动作生成过程的方法
    • 实现任务无关的通用推理 - 动作映射,大幅提升模型泛化性
    • 提供可解释性:生成的推理文本可直接用于故障诊断
  3. 数据高效的学习范式
    • 少样本学习:复杂任务 < 50 次演示即可掌握
    • 零样本泛化:在未见物体上表现优异(如零样本 bin-picking 准确率 63.7%)
    • 跨机器人形态迁移:无需重新训练即可适应新机械臂
  4. 模型规模可扩展性
    • 提供从 2B 到 72B 参数的系列模型,性能随规模增长而提升
    • 支持在不同算力条件下部署,从小型边缘设备到大型数据中心

五、性能表现

1. 工业场景实验

工厂分拣任务(将物品分为四类:玩具车、针织手套、毛绒玩具、六角扳手):
模型平均成功率与 DiVLA 差距
DiffusionVLA49.3%-
OpenVLA (次优)28.4%-20.9%
TinyVLA23.5%-25.8%
Octo19.6%-29.7%
Diffusion Policy8.9%-40.4%
零样本 bin-picking:在 102 个未见过的物体上达到 **63.7%** 的拾取准确率

2. 真实机器人测试

  • 多任务泛化:在 5 种不同类型任务(物体选择、直立倾倒的锅、放置立方体等)中表现均衡,平均成功率达 **85%** 以上
  • 视觉干扰鲁棒性:在添加干扰物、改变光照条件下,性能下降不超过 10%
  • 跨形态适应性:在单臂 (Franka) 和双臂机器人上均能直接部署,无需微调

六、与 BridgeVLA 的对比

特性DiffusionVLABridgeVLA
核心思路自回归推理 + 扩散动作3D 输入 - 输出对齐 (2D 热图)
适用场景复杂任务规划 + 精确控制3D 操作、装配、高精度对齐
输入处理直接处理图像 / 点云将 3D 点云渲染为多视角 2D 图像
动作表示连续动作序列2D 热图→3D 位姿
推理能力强 (显式生成推理文本)中 (隐含在对齐过程中)
样本效率高 (<50 演示)极高 (3-5 条轨迹)
精度表现动作平滑连续3D 定位精度高
可解释性高 (生成自然语言推理)中 (通过热图可视化)
总结:DiffusionVLA 在 复杂任务推理规划动作平滑性上更优;BridgeVLA 在 3D 空间理解样本效率上领先。两者针对不同应用场景,可根据需求选择。

七、应用场景

  1. 智能制造:零部件精密装配、质量检测、柔性生产线
    • 案例:在工厂分拣任务中准确分类包括未见过的零部件
  2. 物流仓储:智能拣选、库存管理、自动码垛
    • 优势:快速适应新物品,降低人工培训成本
  3. 家庭服务:智能家电控制、物品整理、餐饮服务
    • 特点:理解自然语言指令,执行多步骤任务
  4. 医疗辅助:微创手术器械控制、康复训练辅助
    • 优势:精确控制 + 实时视觉反馈 + 医生指令理解

八、总结

DiffusionVLA 通过 "推理 + 扩散" 的完美结合,构建了新一代 VLA 模型的技术范式,实现了从任务理解到精确执行的全链路优化。其核心创新在于 推理注入机制,使模型不仅能 " ",还能" "且" 解释",大幅提升了 VLA 模型的泛化性、精确性和可解释性。
该算法已开源 ( https://diffusion-vla.github.io),提供从 2B 到 72B 不同规模的模型,可满足从研究到工业部署的多种需求。
注:DiffusionVLA 与 BridgeVLA 代表 VLA 技术的不同发展方向,可根据应用场景选择最适合的解决方案。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值