mdp框架_MDP实现细节(一)-- 贝尔曼方程

8d45970cfba6948d8d6cb0d516dab70a.png

之前MDP框架我们总体上介绍了MDP的大致概念,现在来说说实现这个框架的细节概念。

我们知道一个智能体如果要到达指定的目标,在规划路径的时候,我们可以使用MDP最大化累计回报的方法来获取最优的线路。我们来看一个例子:

8d69987325d25fd085d123373ebcb8be.png

在这个网格世界,智能体想从左上角移动到右下角的目标位置,R代表的是从每一个位置移动懂下个位置的回报值。

好了,先来介绍第一个概念:

1.状态值函数

简单的说就是一定的策略下,在t时刻状态S下未来的累计回报值,

如果我们以一个非常傻逼的路径去到达目标,如下图,那么在起点处的状态值函数就是(-1 + -1 + -1 + -1 + -3 + -1 + -1 + -3 + 5)= -6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值