无模型强化学习:算法原理与应用实践
在强化学习领域,无模型强化学习算法是一类重要的方法,它们不依赖于环境的精确模型,而是通过与环境的交互来学习最优策略。本文将深入介绍几种无模型强化学习算法,包括带基线的 REINFORCE 算法、Actor - Critic 算法,以及期望 Sarsa 和双 Q 学习等高级算法,并结合具体应用示例和练习题加深理解。
带基线的 REINFORCE 算法
对于任何马尔可夫决策过程(MDP),都存在一个确定性的最优策略。当策略趋于最优时,有 $Q_{\pi_w}(s, \pi_w(s)) - V_{\pi_w}(s) = 0$。基于此,我们可以选择状态值 $V_{\pi_w}(s)$ 作为基线函数 $B(s)$。对于大状态空间,可使用状态值的估计 $\hat{V}(s, \theta)$ 作为基线函数,其中 $\theta$ 是权重向量。我们可以用蒙特卡罗方法来学习状态值的权重 $\theta$。
带基线的 REINFORCE 算法的伪代码如下:
算法 15:带基线的 REINFORCE 算法
1: 输入: 可微的策略参数化 $\pi(a|s, w)$ 和可微的状态值参数化 $\hat{V}(s, \theta)$,步长 $\alpha$ 和 $\beta$
2: 输出: (近似)最优策略 $\pi^*$
3: 初始化: 初始化策略权重 $w$ 和状态值权重 $\theta$
4: 无限循环:
按照策略 $\pi(\cdot|\cdot, w)$ 生成一个回合
对于回合中的每一步 $t = 0, \cdots, T - 1$:
1. 计算从步
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



