21、强化学习与在线学习技术详解

职场萌新987

于 2025-06-27 13:42:00 发布

阅读量54

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战指南：从理论到应用文章标签：强化学习在线学习 Q学习

本文链接：https://blog.youkuaiyun.com/go5gopher/article/details/149382364

机器学习实战指南：从理论到应用专栏收录该内容

40 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习与在线学习技术详解

1. 加速Q学习与TD(λ)-学习

在强化学习中，为了加速收敛到最优解，可利用状态预测和转移概率。以4状态为例，不同动作会以一定概率改变状态。状态转移概率P由衰减函数给出，即$P = 1/(log(N_{si} + 2))$，其中$N_{si}$表示访问状态$s_i$的次数。在初始阶段，基于概率的动作能确保访问所有状态，之后基于Q值的动作将占主导，选择具有最大Q值的最优动作。

在一些实时问题中，系统可能没有预定义的策略或状态转移知识，此时TD(λ)-学习方法可用于学习策略和进行决策。对于在时刻$t_k$访问的每个状态$s_k$，TD(λ)算法选择动作的方式有两种：一是选择具有最大Q值的动作，即$\max_{a\in A} Q(s_k, a)$；二是使用半贪婪策略。估计的Q值会在下一步根据所选动作$a_k$和下一个状态$s_{k+1}$进行更新，更新公式如下：
$\forall(s, a) \in S \times A$ :
$Q(s, a) \leftarrow Q(s, a) + \beta \cdot \epsilon_k(s, a) \cdot \left(\frac{1 - e^{-\gamma \tau_k}}{\gamma} r(s_k, a_k) + e^{-\gamma \tau_k} \max_{a’\in A} Q(s_{k+1}, a’) - Q(s_k, a_k)\right)$
其中，$\tau_k = t_{k+1} - t_k$表示系统在状态$s_k$停留的时间，$\beta \in (0, 1)$是学习率，$\frac{1 - e^{-\gamma \tau_k}}{\gamma} r(s_k, a_k)$是在