强化学习中的策略迭代、价值迭代与环境构建
1. 策略迭代与策略评估
策略迭代方法,顾名思义,是对策略函数进行逐步迭代,而非像价值迭代方法那样对价值函数进行迭代。首先,我们需要初始化策略,对于离散动作空间,可以随机分配采取任何动作的概率,也可以使用合适的默认值。
初始化策略后,我们会进行以下步骤的迭代,直到给定的策略收敛(即每次迭代中概率的变化低于特定阈值)。每次迭代的第一步是“策略评估”,在这一步中,我们使用价值函数的贝尔曼方程(式2.11)来估计价值函数,然后使用最优策略的贝尔曼方程(式2.12)来迭代策略。
策略评估步骤的计算成本非常高,并且随着状态空间的增大,复杂度也会增加(请记住,在价值迭代的情况下,复杂度更多地取决于动作空间)。因此,策略迭代方法主要用于状态空间较小且大多为离散的马尔可夫决策过程(MDP)。不过,由于智能体实际上是在尝试优化策略,而价值迭代是一种间接改进策略的方法,所以有时策略迭代可能比价值迭代提供更快或更有保证的收敛性。
以下是策略迭代的主要步骤:
1. 随机初始化策略。
2. 进行策略评估,使用贝尔曼方程估计价值函数。
3. 使用贝尔曼方程迭代策略。
4. 检查策略是否收敛,如果未收敛则返回步骤2。
2. 网格世界问题示例
为了更直观地理解MDP问题,我们以网格世界问题为例。这个游戏/MDP的目标是在导航网格世界时积累尽可能多的分数。
2.1 理解网格世界
当到达终端状态(如图3.1中网格世界编号为64的状态)时,我们会得到+100的奖励;而每进行一次移动,会得到 -1 的奖励(惩罚用负奖励表示)。如果没
超级会员免费看
订阅专栏 解锁全文
1287

被折叠的 条评论
为什么被折叠?



