机器人学习- 基于样本和概率的路径规划(二)

10.马尔可夫决策过程

回收机器人实例

举个例子,我们有一个回收机器人。机器人的目标是在周围环境中驾驶,尽可能多地捡起罐头。它有一组可能正处于的状态,和一组可能采取的行动方案。机器人捡起罐头会得到奖励,如果耗尽电池或搁浅,则会收到一个负奖励(惩罚)。

机器人有一个非确定性的过渡模型(有时称为一步动力学)。这意味着一个动作不能保证将机器人从一个状态引导到另一个状态。相反,每一种状态都有一个相关的概率。

假设在任意时间步t,机器人电池的状态为高(S_t =高)。作为响应,代理决定搜索罐头(A_t =search =search)。在这种情况下,机器人电池电量保持高电量的几率为70%,电量下降到低电量的几率为30%。

在继续之前,让我们回顾一下MDP的定义。

MDP定义

组合路径规划方案

如果我们将A*搜索应用于这个离散的4连通环境,得到的路径将让机器人向右移动2格,然后向下移动2格,再向右移动一次以达到目标(或R-R-D-R-D,这是一个同样最优的路径)。这确实是最短的路径,然而,它把机器人带到了一个非常危险的区域(池塘)。机器人很有可能会掉进池塘,无法完成任务。

如果我们使用 MDPs进行路径规划,我们可能会得到更好的结果!

在每个状态(单元格)中,机器人将获得一定的奖励R(s)R(s)。这种奖励可以是积极的,也可以是消极的,但不可能是无限的。通常会提供以下奖励:
--对非目标状态的小惩罚-代表时间流逝的成本(移动缓慢的机器人会比快速的机器人遭受更大的惩罚),
--为目标状态提供大奖励,以及
--对危险状态的大惩罚——希望能说服机器人避开它们。

考虑到火星车运动的不确定性,这些奖励将帮助引导火星车找到一条高效且安全的路径。

下图显示了分配适当奖励的环境。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值