近似表示:强化学习中的高效策略与价值估计
在强化学习领域,精确的策略和价值估计往往面临诸多挑战,尤其是在状态空间和动作空间较大或连续的情况下。本文将深入探讨近似表示的相关方法,包括滚动策略估计、价值估计、策略估计以及近似策略迭代和近似价值迭代等算法。
滚动策略估计与价值估计
在强化学习中,对于有限数量的动作,滚动策略估计可视为分类问题;对于连续动作,则成为回归问题。为了进行最小化操作,我们需要在状态上定义一个分布 $\varphi$。
给定 $\hat{S}$ 上的分布 $\varphi$ 和一组样本 $q(i, a)$,我们可以得到贪婪策略 $\pi_{q}^{ }(a | i) = \arg \max q(i | a)$。同时,在参数化策略空间 ${\pi_{\theta} | \theta \in \Theta}$ 中,我们尝试估计 $\min_{\theta} |\pi_{\theta} - \pi_{q}^{ }|_{\varphi}$。
在价值估计步骤中,我们可以尝试对给定的状态或状态 - 动作价值函数进行参数化近似。使用广义线性模型是一种简单有效的方法。给定特征映射 $f : S \to R^{n}$ 和参数 $\theta \in R^{n}$,我们可以计算近似值 $v_{\theta}(s) = \sum_{i = 1}^{n} \theta_{i} f_{i}(s)$。
为了将价值函数 $v_{\theta}$ 拟合到目标函数 $v$,我们选择一组代表性状态 $\hat{S}$。定义加权预测误差 $c_{s}(\theta) = \varphi(s) |v_{\theta}(s) - v(s)| <
超级会员免费看
订阅专栏 解锁全文
1175

被折叠的 条评论
为什么被折叠?



