DiffusionVLA(简称 DiVLA)是由美的集团与华东师范大学等机构联合开发的
视觉 - 语言 - 动作 (VLA) 模型,于 2025 年被 ICML 接收。该模型创新性地
融合了自回归推理与扩散策略,解决了传统 VLA 模型的两大痛点:
推理能力不足和
动作生成精度欠缺。
核心创新:将预训练 VLM 的强大语义理解能力与扩散模型的精确动作生成能力无缝结合,通过 "
推理注入" 机制实现端到端的可解释控制。
DiffusionVLA 采用 "
双核心协同" 架构:
工作流程:
- 视觉输入→VLM 提取特征→生成动作 tokens→MLP→扩散模型
- 同时,VLM 生成推理文本→编码为向量→MLP 生成 γ/β→FiLM 调制扩散模型
- 扩散模型通过去噪过程生成最终动作序列
FiLM 调制原理:
- 推理文本(如 "需先抓取红色物体,因其靠近目标")→编码为向量→MLP 生成两组参数:
- 对扩散模型的特征图应用:FiLM(x) = γ·x + β
- 实现非侵入式控制,不改变模型结构,仅动态调节内部信息流
优势:
- 共享单个注入模块即可用于所有任务,无需针对特定任务重新训练
- 使模型决策过程可视化,提高可解释性(生成的推理文本可直接展示)
- 比传统 prompt 拼接更灵活,能精确控制模型内部特征计算
两阶段训练策略:
-
阶段一:VLM 预训练
- 使用大规模图像 - 文本对训练,增强视觉理解和语言推理能力
-
阶段二:扩散策略微调
- 输入:多模态观察 (图像 + 状态)+ 任务指令 + 生成的推理文本
- 输出:连续动作序列
- 损失函数:动作预测与专家轨迹的 L2 距离 + 扩散去噪损失
数据效率:
- 复杂任务仅需不到 50 次演示即可完成训练
- 支持零样本学习和快速适应新任务
高效执行流程:
- 视觉感知→特征提取→生成推理文本(解释 "为什么这样做")
- 同时生成动作 tokens→扩散模型(在推理指导下)生成精确动作序列
- 执行动作→反馈→迭代优化(直至任务完成)
速度优势:最小版本 DiVLA-2B 在单卡 A6000 GPU 上可实现
82Hz 推理速度
-
"推理 + 扩散" 双引擎架构
- 自回归推理负责高层任务理解与规划("做什么")
- 扩散模型专注低层精确动作控制("如何做")
- 互补优势,大幅提升复杂任务执行成功率
-
FiLM 推理注入机制
- 首创将语言推理直接 "注入" 动作生成过程的方法
- 实现任务无关的通用推理 - 动作映射,大幅提升模型泛化性
- 提供可解释性:生成的推理文本可直接用于故障诊断
-
数据高效的学习范式
- 少样本学习:复杂任务 < 50 次演示即可掌握
- 零样本泛化:在未见物体上表现优异(如零样本 bin-picking 准确率 63.7%)
- 跨机器人形态迁移:无需重新训练即可适应新机械臂
-
模型规模可扩展性
- 提供从 2B 到 72B 参数的系列模型,性能随规模增长而提升
- 支持在不同算力条件下部署,从小型边缘设备到大型数据中心
工厂分拣任务(将物品分为四类:玩具车、针织手套、毛绒玩具、六角扳手):
零样本 bin-picking:在 102 个未见过的物体上达到 **63.7%** 的拾取准确率
-
多任务泛化:在 5 种不同类型任务(物体选择、直立倾倒的锅、放置立方体等)中表现均衡,平均成功率达 **85%** 以上
-
视觉干扰鲁棒性:在添加干扰物、改变光照条件下,性能下降不超过
10%
-
跨形态适应性:在单臂 (Franka) 和双臂机器人上均能直接部署,无需微调
总结:DiffusionVLA 在
复杂任务推理规划和
动作平滑性上更优;BridgeVLA 在
3D 空间理解和
样本效率上领先。两者针对不同应用场景,可根据需求选择。
-
智能制造:零部件精密装配、质量检测、柔性生产线
-
物流仓储:智能拣选、库存管理、自动码垛
-
家庭服务:智能家电控制、物品整理、餐饮服务
-
医疗辅助:微创手术器械控制、康复训练辅助
- 优势:精确控制 + 实时视觉反馈 + 医生指令理解
DiffusionVLA 通过 "推理 + 扩散" 的完美结合,构建了新一代 VLA 模型的技术范式,实现了从任务理解到精确执行的全链路优化。其核心创新在于
推理注入机制,使模型不仅能 "
做",还能"
想"且"
解释",大幅提升了 VLA 模型的泛化性、精确性和可解释性。
注:DiffusionVLA 与 BridgeVLA 代表 VLA 技术的不同发展方向,可根据应用场景选择最适合的解决方案。