0. 前言
本文未经许可禁止转载,如需转载请联系笔者
本章将详细讲解如何利用动态规划算法来解决强化学习中的规划问题
。规划问题包含两个方面的内容,一是预测(prediction)
,二是控制(control)
,预测问题是给定策略,然后求在这个给定策略下,各个状态的价值;控制问题是不给定策略,只给定必要的环境信息(如奖励和状态转移概率等),然后求解最优策略和此策略下的最优价值函数。
动态规划
是指把求解复杂问题分解为求解子问题,通过求解子问题进而得到整个问题的解。它需要求解的问题具有两个性质:一是可分解为一系列子问题,二是子问题具有重复性。
而马尔可夫决策过程恰好具备这两个性质,贝尔曼方程就决定了状态价值的可分性,而状态价值函数就存储了子问题的解,重复子问题直接通过状态价值函数即可求解。
下面来讲述如何求解预测和控制问题。
1. 策略评估
策略评估(policy evaluation)
指计算给定策略下状态价值函数的过程。显然这是 预测问题 ,求解这一问题的思路是,首先