论文地址
标题:Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
论文地址:https://arxiv.org/pdf/2303.04137.pdf
项目地址:https://diffusion-policy.cs.columbia.edu
单位:哥伦比亚大学
创新点
引入扩散模型(duffision model),输入一段观测序列,输出未来一段时间的行为序列,在机器人操作数据集上学习,即模仿学习或监督学习。相比于现在常用的模仿学习方法LSTM-GMM、IBC(Implicit behavioral cloning)、BET(Behavior transformers),在多个仿真和真实实验上提升约46.9%,在多个真实实验中与人类水平相近,方法结构如下:
采用CNN结构和Transformer架构分别构建了扩散模型,观测序列是图像或状态向量。
相比于以前的方法,该方法主要有以下提升:
- 处理多峰action分布。由于扩散模型在噪声中采样初始action,并在后续优化过程中增加了高斯扰动,使其能够不陷入局部最优。
- 高维连续行为输出。扩散模型天生就能输出高维信息。
- 训练稳定。以前的模仿学习方法大多采用
类对比学习损失来优化基于能量的模型,其中负样本采样过程的不精确导致训练不稳定,

文章介绍了一种名为DiffusionPolicy的新方法,它使用扩散模型处理机器人操作任务,通过输入观测序列预测行为序列。相比LSTM-GMM、IBC和BET等传统模仿学习方法,DiffusionPolicy在多个实验中表现出46.9%的性能提升,并能接近人类水平。该模型利用CNN和Transformer架构,擅长处理多峰行动分布和高维连续行为输出,且训练过程更稳定。作者还引入闭环规划和Time-seriesdiffusiontransformer来增强模型性能。尽管可能难以与强化学习直接结合,但扩散模型在动力学建模上的潜力值得探索。
最低0.47元/天 解锁文章
573

被折叠的 条评论
为什么被折叠?



