31、基于在线POMDPs的鲁棒人员引导与学习型地板分割重建

基于在线POMDPs的鲁棒人员引导与学习型地板分割重建

1. 基于在线POMDPs的鲁棒人员引导

在机器人导航任务中,尤其是人员引导任务,如何处理系统的不确定性是关键。部分可观测马尔可夫决策过程(POMDPs)为解决这一问题提供了有效途径,它能增强机器人操作的鲁棒性。

1.1 预测与观测模型
  • 预测模型 :机器人(红色)和人(绿色)都有向前移动或停留两种状态。机器人若决定前进,能确定到达轨迹上的下一个点;而人的运动具有不确定性,还会受中间目标(黄色)的影响。
  • 观测模型 :机器人通过摄像头能以较高概率检测到人是否在其视野范围内(蓝色多边形),视野范围约3米长。机器人的位置由定位系统获取,精度取决于地图中的位置(绿色矩形)。此外,机器人能识别之前见过的人,即使人走出并再次进入视野,仍可被识别。模型认为人在摄像头视野内时检测概率高,但也存在小概率的误检测。
1.2 预测函数
  • 机器人动作 :机器人的动作空间包括继续前往轨迹上的下一个离散点或等待人。机器人的动作是确定性的,即若接收到前进指令,就能到达下一个点,不过也可对场景中拥挤的可能性进行建模。
  • 人的运动 :人的运动不确定。模型假设人会适应机器人的节奏,但可能会稍有徘徊,所以人停留在当前位置有小概率。而且,人的意图取决于其所处位置,若接近中间目标,人可能会停留,此时停留和改变目标的概率较大。
1.3 奖励函数设计 </
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值