欢迎大家关注我们近期发表在CVPR2024上的工作《SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution》[1]
项目主页:
论文链接:
https://arxiv.org/abs/2312.11598
核心亮点
01直接根据人类复杂语言指令生成轨迹
02自动化从数据集中学习可解释的技能
03跨平台的技能泛化
04直接使用图像输入
这篇文章是我们在AIGC赋能智能机器人控制系列工作中在自动技能学习和可解释性上的进一步扩展。
我们先前的工作[2][3]已经展示了Diffusion Model 在Robotics Learning尤其是Manipulation任务上的卓越性能。但是对于语言指令输入的任务,人类自然语言的高度抽象以及时常有包含多个子任务的复合语义,给基于条件扩散模型的策略带来了很大的困难。先前的工作如Decision Diffuser[4]预定义了一个技能库将复杂语义分解到这个技能库中的某个技能来应对这个挑战。但是它就受限于一个预定义的技能库,以及难以捕捉复合语义的步骤间依赖关系。另外,相较于先前的工作使用状态感知,使用图像输入的感知,是一种更为自然且更具挑战性的情景。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



