【强化学习基础（3）】主动强化学习：不仅要评估还要决策，探索与利用的平衡

最新推荐文章于 2025-12-07 19:40:17 发布

原创最新推荐文章于 2025-12-07 19:40:17 发布 · 1k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法

强化学习专栏收录该内容

6 篇文章

订阅专栏

想象一下，你是一个探险家，在一个未知的岛屿上寻找宝藏。你不仅要学习"哪些地方可能有宝藏"（评估状态），还要决定"应该去哪里探索"（选择动作）。这就是主动强化学习：智能体不仅要学习环境，还要主动决策。

主动强化学习比被动强化学习更复杂，但也更强大。通过主动选择动作，智能体可以更快地学习环境，发现更好的策略。但这也带来了新的挑战：如何平衡探索和利用？如何避免过早收敛到次优策略？如何在实际应用中保证安全？

核心观点

主动强化学习是智能体不仅要学习状态价值，还要主动选择动作以最大化奖励的过程。它面临探索与利用的核心矛盾：既要尝试新动作发现更好策略，又要利用已知的好动作获得奖励。

这个观点的核心在于：主动学习不仅要"评估"，还要"决策"。被动学习智能体有一个固定的策略来决定其行为，而主动学习智能体必须自己决定"应该做什么"。这就像你不仅要学习"哪条路好走"，还要决定"应该走哪条路"。

主动强化学习的核心挑战是探索与利用的平衡。如果只利用已知的好动作，可能错过更好的策略；如果只探索新动作，可能浪费时间和资源。成功的主动学习需要在两者之间找到平衡，既要快速学习，又要获得高奖励。

一、什么是主动强化学习？

1.1 主动学习与被动学习的区别

被动学习智能体有一个固定的策略来决定其行为，它只需要跟随策略，观察结果，学习状态价值。主动学习智能体必须自己决定"应该做什么"，它不仅要学习状态价值，还要学习动作价值，并选择最优动作。

这就像两个学生：一个学生按照老师给的路线学习（被动学习），只需要记住"这条路好不好"；另一个学生自己决定走哪条路（主动学习），不仅要学习"路好不好"，还要决定"应该走哪条路"。

1.2 主动学习的优势

主动学习的优势是：它可以更快地学习环境，发现更好的策略。通过主动选择动作，智能体可以优先探索有价值的状态，而不是随机探索。这就像聪明的探险家会优先探索可能有宝藏的地方，而不是盲目地到处走。

另外，主动学习可以让智能体适应环境变化。如果环境改变了，智能体可以通过探索发现新的好策略，而不是固守旧的策略。这使得主动学习更适合动态、变化的环境。

1.3 主动学习的挑战

主动学习也面临挑战。

首先是探索与利用的平衡：如果只利用已知的好动作，可能错过更好的策略；如果只探索新动作，可能浪费时间和资源。
其次是可能过早收敛到次优策略：如果智能体过早地认为某个策略是"最好的"，可能停止探索，错过真正的最优策略。

在实际应用中，主动学习还面临安全挑战。在真实世界中，很多动作是不可逆的，智能体可能进入"吸收状态"（无法恢复或获得进一步奖励的状态）。比如自动驾驶汽车，错误的动作可能导致严重事故，无法挽回。

二、探索与利用的平衡

2.1 贪心策略的问题

最简单的主动学习方法是贪心策略：智能体总是选择根据当前学习的模型认为最优的动作。这就像你总是选择"看起来最好"的路，不尝试其他路。

但贪心策略有问题：如果学习的模型不完美，智能体可能收敛到次优策略。比如，在4×3世界中，如果智能体过早地认为"通过(2,1)到达终点"是好的，可能停止探索，错过"通过(1,3)到达终点"这个更好的路径。

图22-6展示了贪心ADP智能体的表现：策略损失快速收敛到次优策略（损失0.235），只用了8次试验。这说明贪心策略虽然快速，但可能错过最优策略。

2.2 探索的重要性

探索的重要性在于：动作不仅提供奖励，还提供信息。通过尝试新动作，智能体可以学习环境的更多信息，发现更好的策略。这就像多臂老虎机问题：如果你只拉已知最好的手臂，可能错过更好的手臂。

为了确保收敛到最优策略，需要"在无限探索的极限下贪心"（GLIE）策略：确保每个状态-动作对都被尝试无限次。这保证了智能体最终会探索所有可能性，找到最优策略。

2.3 探索策略

简单的GLIE策略是：在时间t，智能体以概率1/t随机选择动作，否则选择贪心动作。这确保了随着时间推移，随机探索的概率逐渐降低，但永远不会完全消失。

更复杂的方法是：为较少尝试的状态-动作对分配更高的效用估计。这鼓励智能体探索未知区域，同时仍然利用已知的好动作。修改后的贝尔曼方程是： $U * (s) \leftarrow ma x f (P (s^{'} ∣ s, a) [R (s, a, s^{'}) + γ U * (s^{'})], N (s, a))$ ，其中f(u,n)是探索函数，平衡贪心选择（更高的效用u）和好奇心（更低的尝试次数n）。

探索函数的一个例子是： $f(u,n) = \{R*, 当n < N_e时; u, 否则\}$ ，其中R*是对最佳可能奖励的乐观估计，N_e是固定参数，强制智能体至少尝试每个状态-动作对N_e次。

使用乐观的效用估计U*而不是悲观的U，对于有效探索至关重要，因为它鼓励智能体进一步探索未知区域。

2.4 探索性智能体的表现

图22-7展示了探索性ADP智能体的表现（R*=2，N_e=5）：经过大约30次试验，效用估计和策略损失都收敛到接近零，说明智能体成功找到了最优策略。这比贪心智能体好得多，说明探索的重要性。

在这里插入图片描述

三、安全探索

3.1 真实世界的挑战

在真实世界中，探索面临安全挑战。与理想化环境（如游戏或模拟）不同，在真实世界中，很多动作是不可逆的，智能体可能进入"吸收状态"。比如自动驾驶汽车，错误的动作可能导致严重事故、开进沟里（不可逆状态）、或损坏发动机（永久限制未来奖励）。

这就像你在真实世界中探险：如果走错路，可能掉进陷阱，无法恢复。这与游戏不同，游戏中你可以"重新开始"，但真实世界中不行。

3.2 模型不确定性的问题

智能体可能因为对世界的未知或错误模型而做出糟糕的决策。如果使用最大似然估计学习转移模型，然后推导策略，可能导致"荒谬的策略"。比如，如果出租车在几次未受惩罚的情况下闯红灯，可能认为"闯红灯是好的"，导致危险行为。

这就像你根据有限的观察得出结论：“这条路很安全”，但实际上这条路很危险，只是你还没遇到危险。在真实世界中，这种错误可能是致命的。

3.3 安全探索的方法

更好的方法是选择对所有合理模型都足够稳健的策略，即使它们对最大似然模型是次优的。这包括三种数学方法：

贝叶斯强化学习（Bayesian Reinforcement Learning）使用模型的先验和后验概率，推导最大化期望效用的最优策略。当涉及持续学习时，这变得复杂，导致"探索POMDP"问题。但即使贝叶斯方法，如果没有关于危险的充分先验知识，也不能保证安全。

健壮控制理论（Robust Control Theory）考虑一组可能的模型，不分配概率，旨在找到在这些模型的最坏情况下产生最佳结果的策略。这类似于极小极大游戏。虽然健壮，但这种方法可能导致过于保守的行为（比如，如果假设所有其他司机都会撞车，自动驾驶汽车可能拒绝移动）。

最坏情况假设虽然健壮，但可能导致过于保守。关键是要在安全性和性能之间找到平衡。

3.4 人类知识的作用

人类知识在确保系统安全方面起着重要作用，要么通过专家演示，要么通过对学习系统施加约束。比如，在危险情况下，安全控制器可以接管自主直升机，确保系统不会进入危险状态。

这就像教练在关键时刻介入，防止学生做出危险动作。在强化学习中，人类专家可以提供安全约束，确保智能体不会学习危险行为。

四、时序差分Q学习

4.1 Q学习的思想

时序差分Q学习（Temporal Difference Q-learning）是一种无模型的主动学习方法。它直接学习动作-效用函数Q(s,a)，表示"在状态s选择动作a，然后按照最优策略行动，期望能获得多少累积奖励"。

如果知道了Q函数，最优动作可以通过 $argmax_a Q(s,a)$ 实现，不需要转移模型。这就像你知道了"每条路的价值"，就可以直接选择"最好的路"，不需要知道"这条路通向哪里"。

4.2 Q学习的更新规则

Q学习的更新规则来自贝尔曼方程： $Q (s, a) = Σ P (s^{'} ∣ s, a) [R (s, a, s^{'}) + γma x Q (s^{'}, a^{'})]$ 。时序差分更新规则是： $Q (s, a) \leftarrow Q (s, a) + α [R (s, a, s^{'}) + γma x Q (s^{'}, a^{'}) - Q (s, a)]$ ，其中α是学习率。

这个更新规则与效用函数更新规则（22-3）类似。项 $R (s, a, s^{'}) + γma x Q (s^{'}, a^{'}) - Q (s, a)$ 表示误差，更新旨在减少这个误差。这个方程的一个关键特性是：它不需要转移模型P(s’|s,a)，这使得Q学习成为一种无模型方法，适合复杂领域。