论文解读-Multimodal Deep Generative Models for Trajectory Prediction: A Conditional Variational Autoenco

本文介绍了一种基于条件变分自动编码器(CVAE)的多智能体交互预测方法,该方法能有效预测人类未来轨迹的多模态分布,特别适用于非马尔可夫设置下依赖交互历史的预测任务。

本文是一篇关于用户行为预测方向的文章,本文提出了一个条件变分的自动编码器(CVAE),来进行用户的行为预测,该模型基于过去的交互信息和机器人未来的候选动作,产生人类未来轨迹的多模态分布。该文章对当前最先进的人类行为预测模型进行了回顾和分类,同时对CVAE模型的提出进行了简单的阐述。

Introductiom

作者指出为了让robot模拟人类的行为,有两种建模方式,一种的无模型的方法,是直接依靠端对端的方式从海量的数据中学习人类的行为。另一种是基于模型的方法,它注重于模型学习和策略构建之间的关联——以交互动力学的概率理解为基础,它比无模型的方法具有更好的透明度。在本文中,作者采用基于模型的HRI方法,重点学习人类行为的模型,或者更具体地说,学习未来人类行为的分布(例如轨迹)。

在基于模型的HRI方法中,作者又对当今的方法做了一个大致的分类,基于本体论的和基于现象学的。基于本体论的方法,按照作者的说法是,建立一套robot遵循的严格的规则,然后在这之上建立模型。基于现象学的方法,没有做出如此强大的建模假设,而是依赖大量数据来建模代理行为,而没有明确地对潜在动机进行研究(呜呜呜。。。不太明白和无模型方法的区别)。

作者在本文提出的方法是基于现象学的,更具体地说是使用条件变分自动编码器(CVAE)来学习一个人类行为预测模型。基于交互历史未来机器人动作的选择,作者的工作明确地表征了在每个时间步人类行为的多模态不确定性。其中,对交互历史的学习可以使机器人学习例如经验、情绪等隐含因素。而未来动作的选择可以将反应动力学加以考虑。

该文章的贡献可以概括为以下几点:(1)对人类行为预测进行了分类。(2)提出了CVAE。(3)分析了作者提出的模型的好处。(4)和其他模型的性能进行比较。

Related work

基于本体论的方法对agent的动力(dynamic)或动机(motivation)做出假设。其中的一个方向是试图找出控制系统的潜在原理,然后导出状态空间,例如,Social Forces模型通过智能体之间的吸引力和排斥力进行交互动力学的建模;IDM模型是一个连续时间车辆跟踪模型。作者指出这种方式有如下的特点:一是没有考虑多个不同未来情况的可能性,二是没有利用过去的交互历史。

另一个方向是建模人类内在的决策过程,而不是明确地制定交互动力学。博弈论方法通过假设其他agent是合作的还是对抗的来模拟交互动力学。对于社会感知机器人导航,一些模型推断出人类的情绪或支配地位,并利用这一点通知他们的机器人规划者。一种流行的方法是将人类建模为最优规划者,并将其在每个时间步的动机表示为状态/行动相关奖励函数,代表模型有IRL模型、maxInt IRL模型。一般来说,基于奖励的方法在数据有限的环境中是有效的,因为只有少数几个参数需要学习,并且可以转移到新的和看不见的任务。然而,在大量数据的存在下,在交互历史的条件下,基于现象学方法是更有效的。

对于基于现象学的方法。一共有两种主要的生成模型:GAN和VAEGAN有两个缺点,一是会遇到模式崩溃,即模型收敛于分布模式,无法捕获和产生不同的输出;二是GANs很难训练。VAE利用变分贝叶斯原理,从真实潜在的分布中学习一个近似分布,然后解码潜在分布中的样本产生输出。和GAN相比,VAE有以下优点,1)考虑了所有分布的模式。2)不太可能遇到模式崩溃。3)更具有多样性。3)VAE可以从分布中产生经验样本,也可以产生分布的分析表示,使其在基于模式的规划和控制背景下可能比GANS更通用.

CVAE模型

1.CVAE结构

条件生成模型的目的是用模型去拟合一个条件概率分布,可用于下游任务,例如计算给定x条件下y出现的概率,或者给定x生成y。在本文,作者研究的是通过一簇拟合真实数据的分布来计算p(y∣x)p(y|x)p(yx)

CVAE模型的架构如图所示
在这里插入图片描述模型中有一个编码器,参数为θ\thetaθ</

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cxp_001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值