Reinforcement Learning - An Introduction强化学习读书笔记 Ch1.7-Ch2.4_reinforcement learning an introduction读书笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_41608822/article/details/105918616

本文介绍强化学习早期历史，涉及动态规划、马尔科夫决策过程等概念。重点阐述k臂赌博机问题，包括原始形式、价值估计，探讨探索与收益的矛盾。还介绍动作 - 价值方法、10臂测试平台及增量式实现，给出简单的ϵ−greedy算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.7 强化学习的早期历史

强化学习的两条历史发展的主线，一条主线关注的是源于动物学习心理学的试错法，一条主线关注最优控制的问题以及使用价值函数和动态规划的解决方案。在交错之前它们在很大程度上是相互独立的，但他们都与之后关注时序差分的方法有一定的关联。

本节几个关键概念

动态规划的贝尔曼方程（最优回报函数）
马尔科夫决策过程（MDP）
神经动态规划（近似动态规划）
效应定律
Critic-Actor算法
k臂赌博机
进化算法和遗传算法

2.1 一个k臂赌博机问题

强化学习与其他机器学习方法最大的不同，在于强化学习的训练信号是用来评估给定的动作的好坏，而不是通过给出正确的动作范例来进行直接的指导，因此在强化学习中，agent主动地进行反复试验来试探出好的动作就是必要的，强化学习所做的不只是“评估性反馈”，更是“试错性探索与评估”。

k臂赌博机问题的原始问题形式

你要重复地在k个选项或动作中进行选择，每次做出选择之后，你都会得到一定数值的收益，收益由你选择的动作决定的概率分布产生。你的目标是最大化某一段时间内的总收益期望。

该类问题通过多次的重复动作选择，需要学会什么样的动作才能更好地得到收益，从而来最大化总收益。

k臂赌博机问题的价值估计

在这里插入图片描述
在时刻 t 时选择的动作记为A_t，并将对应的收益记为R_t，而在动作a被选择的情况下的期望收益，就称为这个动作的价值，记为q_*(a) ，上述式子则是对q_*(a) 的数学表示形式。
当我们知道每个动作的价值时，k臂赌博机问题就变得非常简单了，每一步只需要选择价值最高的动作即可保证总收益最高，但是实际问题中我们往往无法得知q_*(a)的具体值，只能对于动作a在时刻t的价值进行估计，记为Q_t(a)，并希望这个估计越接近真实的q_*(a)越好。

探索与收益的矛盾

在某一时刻对于多个动作进行估计时，对应具有最高价值的动作称为贪心动作，即如果选择该动作，在当下的估计中，为贪心最优选择。
而如果不选择贪心动作，而选择其他，则称为“探索”，这样可以改善对于非贪心动作的价值估计，从而可能找到更具有价值的动作。
因为在某一时刻，假设贪心动作的价值是确定的，但是其他动作的估计价值与之相差较少，且具有很大的不确定性，那这种不确定性足够使得至少一个动作实际上会优于该贪心动作，但是不经过“探索”，我们就无法获知具体是哪一个动作并且无法减少不确定性。
在探索的过程中，可能短期收益较低，但是具有较高的未来收益，并且在同一次动作选择中，“收益”与“探索”是只能选择一个的，也就是他们是矛盾的。
并且，我们对于价值的估计，就是在探索中不断接近其真实值的，当探索不足时，其平均期望就不靠谱，但是探索过多，就会使得哪怕知道了最优动作，但是剩下的收益时长过短，也会使得总收益期望下降。因此如何平衡“探索”和“收益”的矛盾，是需要谨慎考虑的。

2.2 动作-价值方法

动作的真实值是对这个动作的期望收益，采样平均方法通过计算实际收益的平均值来估计动作的价值：
在这里插入图片描述
当分母趋向无穷大时，根据大数定律，Q_t(a)会收敛到q_*(a)。
利用估计值来选择动作的最简单的方法就是选择估计值最高的动作，贪心选择记作：

2.3 10臂测试平台

这组问题是2000个随机生成的k臂赌博机问题，k=10，如图：
在这里插入图片描述
动作的真实价值为q_*(a)，从一个均值为0方差为1的高斯分布选择。
而在时刻t选择动作A_t时，实际的收益R_t由一个均值为q_*(A_t)方差为1的高斯分布决定。
随着agent与一个赌博机的1000次交互时刻中经验的积累，我们可以评估它的性能和动作，这就构成了一轮实验，用2000个不同的赌博机问题独立重复2000个轮次的实验，就得到了这个学习算法的平均表现的评估。
书中接下来对于具体的性能进行了一定的分析，不再赘述。