48、人机交互中的主动不确定性降低

人机交互中的主动不确定性降低

1. 引言

在人机交互中,机器人通常难以完全建模和观察人类的偏好。机器人可尝试通过参数化模型表示人类意图,并在贝叶斯框架下推断这些参数值作为隐藏状态,但在交互规划时有效实现这一点仍是一个开放问题。多阶段轨迹优化与闭环贝叶斯推理通常可转化为随机最优控制问题,其中一个重要方面是计算得到的策略是否产生双控制效应,即机器人是否主动减少关于人类隐藏状态的不确定性。

双随机最优控制问题的解决方法可分为显式方法和隐式方法。显式方法通过某种启发式探测重新表述问题,而隐式方法则直接使用随机动态规划处理控制问题。显式双控制问题通常比隐式问题更容易表述和解决,但设计探测项和调整其权重因子可能并非易事,且可能导致性能不一致。

本文在随机最优控制框架下提出了一类广泛的交互式规划问题,并使用隐式双随机模型预测控制(SMPC)给出了近似解决方案。所得策略自动平衡探索和利用的成本,使机器人在不牺牲预期规划性能的情况下主动减少关于人类隐藏状态的不确定性。该SMPC问题支持连续和分类的人类不确定性,可使用现成的实时非线性优化求解器求解。

2. 相关工作
  • 将人机交互建模为POMDP :涉及识别人类意图和行为的机器人运动规划问题可建模为混合可观测马尔可夫决策过程(MOMDP),它是部分可观测马尔可夫决策过程(POMDP)的一种变体。虽然POMDP的一般形式难以处理,但已开发出如DESPOT和POMCP等高效算法来近似求解。在自动驾驶场景中,也有针对POMDP的近似求解方法。当考虑机器人与人类的交互时,POMDP表述变为部分可观测随机博弈(POSG),本文方法可视为解决此类问题的新的高效计算框架。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值