值函数近似——Large MDPs 的福音

对于具有大量状态空间和动作空间的MDPs,前面讲到的一些处理方法就不再适用了,可能会引起维度爆炸之类的问题。一个简单的方法就是用带有权重w参数的一个关于s的函数来表示近似的Vπ(s)或者qπ(s,a),以此建立值函数逼近器,这样我们就可以估算任何一个函数的值,并将其应用于状态数据库中,从而压缩了状态数据库的存储量。Value Function Approximation的思想大致就是如此。

一、随机梯度下降思想

在真正剖析函数逼近算法前,我们需要了解以下这些关于梯度下降算法的知识,并且梯度这个概念在之后会频繁地用到。

1. 定义

首先,w是一个参数的向量形式,函数J(w)的梯度定义如下左图所示,这个公式应该很好理解,其实就是对J(w)这个函数求关于向量w的偏导数。从这个梯度向量中,我们就可以知道对于函数J(w)来说最陡的上升或者下降趋势的梯度是多少,如果我们一直沿着这个最陡的梯度向下走,就会很快找到函数的最小值了。w参数的调整标准如下右图所示:(其中α是步长参数) 

                      (1)                (2)

2. 假设

假设我们现在知道所有状态或者行为状态对的真正的价值函数:Vπ(s)或 qπ(s,a)。这有助于我们理解和构建值函数近似算法,之后我们会抛开这个假设,用强化学习的思想来完善这个算法。

3

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值