强化学习中的策略搜索、学徒学习与应用
1. 策略搜索概述
策略搜索是强化学习中一种重要的方法,其核心思想是不断调整策略,直到策略的性能不再提升为止。在深入了解策略搜索之前,我们先来看看策略的表示方式。
1.1 策略表示
策略 $\pi$ 是一个将状态映射到动作的函数。我们通常关注参数化的策略表示,这种表示的参数数量远少于状态空间中的状态数量。例如,可以用一组参数化的 Q 函数来表示策略 $\pi$,每个动作对应一个 Q 函数,然后选择预测值最高的动作:
[
\pi(s) = \arg\max_{a} \hat{Q} {\theta}(s,a)
]
每个 Q 函数可以是线性函数,也可以是非线性函数,如深度神经网络。策略搜索会调整参数 $\theta$ 以改进策略。需要注意的是,这种通过 Q 函数表示策略的策略搜索过程与 Q 学习不同。在 Q 学习中,算法会找到一个 $\theta$ 值,使得 $\hat{Q} {\theta}$ 接近最优 Q 函数 $Q^*$;而策略搜索则是找到一个能使策略表现良好的 $\theta$ 值,这两种方法找到的值可能有很大差异。
1.2 策略的连续性问题
当动作是离散的时,上述策略表示方式存在一个问题,即策略是参数的不连续函数。也就是说,$\theta$ 的微小变化可能会导致策略从一个动作切换到另一个动作,这使得基于梯度的搜索变得困难。为了解决这个问题,策略搜索方法通常使用随机策略表示 $\pi_{\theta}(s,a)$,它指定了在状态 $s$ 下选择动作 $a$ 的概率。一种常用的表示是 softmax 函数:
[
\
强化学习策略搜索与学徒学习解析
超级会员免费看
订阅专栏 解锁全文
4651

被折叠的 条评论
为什么被折叠?



