1.7 强化学习的早期历史
强化学习的两条历史发展的主线,一条主线关注的是源于动物学习心理学的试错法,一条主线关注最优控制的问题以及使用价值函数和动态规划的解决方案。在交错之前它们在很大程度上是相互独立的,但他们都与之后关注时序差分的方法有一定的关联。
本节几个关键概念
- 动态规划的贝尔曼方程(最优回报函数)
- 马尔科夫决策过程(MDP)
- 神经动态规划(近似动态规划)
- 效应定律
- Critic-Actor算法
- k臂赌博机
- 进化算法和遗传算法
2.1 一个k臂赌博机问题
强化学习与其他机器学习方法最大的不同,在于强化学习的训练信号是用来评估给定的动作的好坏,而不是通过给出正确的动作范例来进行直接的指导,因此在强化学习中,agent主动地进行反复试验来试探出好的动作就是必要的,强化学习所做的不只是“评估性反馈”,更是“试错性探索与评估”。
k臂赌博机问题的原始问题形式
你要重复地在k个选项或动作中进行选择,每次做出选择之后,你都会得到一定数值的收益,收益由你选择的动作决定的概率分布产生。你的目标是最大化某一段时间内的总收益期望。
该类问题通过多次的重复动作选择,需要学会什么样的动作才能更好地得到收益,从而来最大化总收益。
k臂赌博机问题的价值估计
在时刻 t 时选择的动作记为At,并将对应的收益记为Rt,而在动作a被选择的情况下的期望收益,就称为这个动作的价值,记为q*(a) ,上述式子则是对q*(a) 的数学表示形式。
当我们知道每个动作的价值时,k臂赌博机问题就变得非常简单了,每一步只需要选择价值最高的动作即可保证总收益最高,但是实际问题中我们往往无法得知q*(a)的具体值,只能对于动作a在时刻t的价值进行估计,记为Qt(a),并希望这个估计越接近真实的q*(a)越好。
探索与收益的矛盾
在某一时刻对于多个动作进行估计时,对应具有最高价值的动作称为贪心动作,即如果选择该动作,在当下的估计中,为贪心最优选择。
而如果不选择贪心动作,而选择其他,则称为“探索”,这样可以改善对于非贪心动作的价值估计,从而可能找到更具有价值的动作。
因为在某一时刻,假设贪心动作的价值是确定的,但是其他动作的估计价值与之相差较少,且具有很大的不确定性,那这种不确定性足够使得至少一个动作实际上会优于该贪心动作,但是不经过“探索”,我们就无法获知具体是哪一个动作并且无法减少不确定性。
在探索的过程中,可能短期收益较低,但是具有较高的未来收益,并且在同一次动作选择中,“收益”与“探索”是只能选择一个的,也就是他们是矛盾的。
并且,我们对于价值的估计,就是在探索中不断接近其真实值的,当探索不足时,其平均期望就不靠谱,但是探索过多,就会使得哪怕知道了最优动作,但是剩下的收益时长过短,也会使得总收益期望下降。因此如何平衡“探索”和“收益”的矛盾,是需要谨慎考虑的。
2.2 动作-价值方法
动作的真实值是对这个动作的期望收益,采样平均方法通过计算实际收益的平均值来估计动作的价值:
当分母趋向无穷大时,根据大数定律,Qt(a)会收敛到q*(a)。
利用估计值来选择动作的最简单的方法就是选择估计值最高的动作,贪心选择记作:
2.3 10臂测试平台
这组问题是2000个随机生成的k臂赌博机问题,k=10,如图:
动作的真实价值为q*(a),从一个均值为0方差为1的高斯分布选择。
而在时刻t选择动作At时,实际的收益Rt由一个均值为q*(At)方差为1的高斯分布决定。
随着agent与一个赌博机的1000次交互时刻中经验的积累,我们可以评估它的性能和动作,这就构成了一轮实验,用2000个不同的赌博机问题独立重复2000个轮次的实验,就得到了这个学习算法的平均表现的评估。
书中接下来对于具体的性能进行了一定的分析,不再赘述。
2.4 增量式实现
为了简化标记,令Ri表示这一个动作被选择i次之后的收益,Qn表示动作被选择i-1次后该动作的估计值,因此
进而可以从数学上得到Qn的迭代公式如下:
进而根据这个迭代公式可以写出一个简单的
ϵ
−
g
r
e
e
d
y
\epsilon-greedy
ϵ−greedy算法: