机器人操作——diffusion policy(2023)

文章介绍了一种名为DiffusionPolicy的新方法,它使用扩散模型处理机器人操作任务,通过输入观测序列预测行为序列。相比LSTM-GMM、IBC和BET等传统模仿学习方法,DiffusionPolicy在多个实验中表现出46.9%的性能提升,并能接近人类水平。该模型利用CNN和Transformer架构,擅长处理多峰行动分布和高维连续行为输出,且训练过程更稳定。作者还引入闭环规划和Time-seriesdiffusiontransformer来增强模型性能。尽管可能难以与强化学习直接结合,但扩散模型在动力学建模上的潜力值得探索。

论文地址

标题:Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
论文地址:https://arxiv.org/pdf/2303.04137.pdf
项目地址:https://diffusion-policy.cs.columbia.edu
单位:哥伦比亚大学

创新点

引入扩散模型(duffision model),输入一段观测序列,输出未来一段时间的行为序列,在机器人操作数据集上学习,即模仿学习或监督学习。相比于现在常用的模仿学习方法LSTM-GMM、IBC(Implicit behavioral cloning)、BET(Behavior transformers),在多个仿真和真实实验上提升约46.9%,在多个真实实验中与人类水平相近,方法结构如下:在这里插入图片描述
采用CNN结构和Transformer架构分别构建了扩散模型,观测序列是图像或状态向量。
相比于以前的方法,该方法主要有以下提升:

  1. 处理多峰action分布。由于扩散模型在噪声中采样初始action,并在后续优化过程中增加了高斯扰动,使其能够不陷入局部最优。
  2. 高维连续行为输出。扩散模型天生就能输出高维信息。
  3. 训练稳定。以前的模仿学习方法大多采用类对比学习损失来优化基于能量的模型,其中负样本采样过程的不精确导致训练不稳定,
### 扩散策略在机器学习中的概念 扩散模型是一种强大的生成模型,在图像、音频和其他数据类型的生成任务中表现出色。这些模型通过逐步向输入数据添加噪声来训练,随后再学习如何逆转这个过程以去除噪声并恢复原始数据[^1]。 具体来说,扩散策略(Diffusion Policy)通常指利用这种去噪机制来进行决策制定的过程。这类方法可以应用于强化学习领域,其中代理(agent)学会执行一系列动作以最大化累积奖励。在这种背景下,扩散策略能够帮助解决连续控制问题,并且已经在机器人技术和自动驾驶汽车等领域显示出巨大潜力[^2]。 为了实现这一点,研究人员开发出了基于变分推理框架下的算法,使得模型能够在高维空间内有效地探索可能的状态转移路径。此外,还引入了时间反演技术,允许更灵活地调整采样步骤的数量以及每一步骤之间的间隔大小,从而提高了效率和性能表现[^3]。 ```python import torch from diffusers import DiffusionPipeline pipeline = DiffusionPipeline.from_pretrained('model_name') image = pipeline(prompt="an example image").images[0] ``` 此代码片段展示了如何加载预训练好的扩散模型并通过给定提示词生成一张图片。虽然这只是一个简单的例子,但它体现了扩散策略背后的核心思想——即通过对潜在分布施加渐进式的扰动来引导最终输出的结果。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值