强化学习与在线学习技术详解
1. 加速Q学习与TD(λ)-学习
在强化学习中,为了加速收敛到最优解,可利用状态预测和转移概率。以4状态为例,不同动作会以一定概率改变状态。状态转移概率P由衰减函数给出,即$P = 1/(log(N_{si} + 2))$,其中$N_{si}$表示访问状态$s_i$的次数。在初始阶段,基于概率的动作能确保访问所有状态,之后基于Q值的动作将占主导,选择具有最大Q值的最优动作。
在一些实时问题中,系统可能没有预定义的策略或状态转移知识,此时TD(λ)-学习方法可用于学习策略和进行决策。对于在时刻$t_k$访问的每个状态$s_k$,TD(λ)算法选择动作的方式有两种:一是选择具有最大Q值的动作,即$\max_{a\in A} Q(s_k, a)$;二是使用半贪婪策略。估计的Q值会在下一步根据所选动作$a_k$和下一个状态$s_{k+1}$进行更新,更新公式如下:
$\forall(s, a) \in S \times A$ :
$Q(s, a) \leftarrow Q(s, a) + \beta \cdot \epsilon_k(s, a) \cdot \left(\frac{1 - e^{-\gamma \tau_k}}{\gamma} r(s_k, a_k) + e^{-\gamma \tau_k} \max_{a’\in A} Q(s_{k+1}, a’) - Q(s_k, a_k)\right)$
其中,$\tau_k = t_{k+1} - t_k$表示系统在状态$s_k$停留的时间,$\beta \in (0, 1)$是学习率,$\frac{1 - e^{-\gamma \tau_k}}{\gamma} r(s_k, a_k)$是在
超级会员免费看
订阅专栏 解锁全文
2814

被折叠的 条评论
为什么被折叠?



