【强化学习基础】强化学习概念：从奖励中学习

原创已于 2025-11-25 13:21:31 修改 · 766 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#学习

于 2025-11-24 23:47:28 首次发布

强化学习专栏收录该内容

6 篇文章

订阅专栏

想象一下，你要学习下国际象棋，但没有人教你规则，也没有棋谱可以参考。你只能通过不断下棋，赢了得到奖励，输了受到惩罚，逐步学会如何下好棋。这就是强化学习的核心思想：通过奖励和惩罚的经验，学会如何最大化未来的奖励。

强化学习是人工智能中一个非常重要的领域，它让智能体能够在未知环境中，通过试错和反馈，学会如何做出最优决策。从AlphaGo战胜人类围棋冠军，到自动驾驶汽车学习驾驶，再到机器人学习复杂动作，强化学习正在改变我们构建AI系统的方式。

核心观点

强化学习是智能体通过与环境交互，根据奖励和惩罚的经验主动学习，以最大化未来奖励的方法。它不需要"老师"提供标准答案，而是通过试错和反馈，逐步学会如何做出最优决策。

这个观点的核心在于：强化学习不是被动接受答案，而是主动探索和学习。

在监督学习中，智能体像学生一样，被动地观察"老师"提供的输入输出样例对进行学习。
但在强化学习中，智能体没有"老师"，它必须通过考虑自己的最终成功或失败，主动地从自己的经验中学习。这种学习方式更接近人类和动物的学习过程，也更能适应复杂、未知的环境。

正如Yann LeCun和Alyosha Efros指出的那样："人工智能革命不该是有监督的。"这意味着未来的AI系统不应该总是依赖大量标注数据，而应该能够像人类一样，通过与环境交互、试错和反馈来学习。强化学习正是实现这一目标的关键技术。

一、为什么需要强化学习？

1.1 监督学习的局限性

要理解强化学习为什么重要，我们先看看监督学习的问题。

在监督学习中，智能体通过被动地观测"老师"提供的输入输出样例对进行学习。比如，要训练一个下棋的智能体，我们可以收集数百万盘大师对局的棋谱，让智能体学习"在某个棋盘状态下，大师走了哪一步"。

这种方法看起来不错，但实际上有很大的局限性。

首先，可用的样本数量（大约10^8盘对局）远远小于所有可能的棋盘状态空间（大约10^40种状态）。这意味着智能体只能看到极小一部分可能的情况，当遇到新的、从未见过的局面时，它可能不知道该怎么办。
更重要的是，监督学习训练的智能体不知道自己的目标是什么（将死对方），也不知道自己的每一步行动会产生什么影响。它只是机械地模仿大师的走法，但不知道为什么要这样走。这就像学生只会背答案，但不理解原理一样。
而且，国际象棋只是现实世界的一小部分。对于更实际的问题，我们可能根本没有足够大的数据库，甚至根本不存在这样的数据库。比如，如何让机器人学会在复杂环境中导航？如何让自动驾驶汽车学会安全驾驶？这些问题的状态空间比国际象棋大得多，我们不可能收集到所有可能的情况。

1.2 强化学习的优势

强化学习提供了另一种选择。在强化学习中，智能体与环境交互，接收"奖励"（或心理学中的"强化"）来反映其表现。对于下棋的例子，奖励可以是：赢了得1分，输了得0分，平局得0.5分。智能体的目标是最大化总的期望奖励。

强化学习的核心思想来自马尔可夫决策过程（MDP）。

在MDP中，智能体在环境中执行动作，根据状态转移和奖励函数获得反馈。但强化学习与仅仅解决MDP不同：在强化学习中，智能体本身就在MDP中，可能不知道转移模型或奖励函数，必须通过行动来收集信息。

这就像玩一个新游戏，但不知道游戏规则。你只能不断尝试各种操作，裁判会告诉你"你赢了"或"你输了"，但不会告诉你规则是什么。你必须通过不断试错，逐步理解游戏的规则和策略。这就是强化学习的微观缩影。

1.3 从AI系统设计者的角度看

从人工智能系统设计者的角度来看，提供奖励信号有很多优势。

首先，奖励函数通常比完整的策略或价值函数更简单、更简洁。比如，对于下棋智能体，只需要几行代码就能表示"赢了得1分，输了得0分"；对于赛车智能体，只需要定义"到达终点得奖励"即可。这比详细描述每一步应该怎么做要简单得多。
其次，设计奖励函数不需要领域专家。你不需要是国际象棋大师，也不需要是专业赛车手，只需要知道"什么是好的结果"即可。这使得强化学习可以应用到很多领域，即使没有现成的专家知识。
另外，一点点的专业知识就能显著帮助强化学习，特别是在奖励稀疏的情况下（如下棋和赛车）。比如，在下棋中，除了最终的输赢奖励，我们还可以提供一些中间奖励，比如"吃掉对方棋子得小奖励"，这样可以帮助智能体更快地学习。

提供正确的奖励信号使得强化学习成为一种通用的构建AI系统的方法。它已经成功应用于Atari电子游戏、机器人控制、卡牌游戏等多个领域。这些应用证明了强化学习的强大和通用性。

二、强化学习的基本概念

2.1 智能体与环境

在强化学习中，有两个核心角色：智能体和环境。
智能体是学习者和决策者，它观察环境的状态，选择动作，然后接收奖励和新的状态。
环境是智能体交互的对象，它根据智能体的动作改变状态，并给出奖励反馈。

这就像你在玩电子游戏：你是智能体，游戏是环境。你观察屏幕上的游戏状态（比如角色位置、敌人位置），选择动作（比如按左键、右键、跳跃），游戏根据你的动作改变状态（角色移动、敌人反应），并给出奖励（比如得分、生命值变化）。

2.2 状态、动作和奖励

状态（State）是环境在某个时刻的完整描述。在下棋中，状态就是当前的棋盘布局；在游戏中，状态就是屏幕上的画面；在机器人控制中，状态可能是机器人的位置、速度、传感器读数等。

动作（Action）是智能体可以执行的操作。在下棋中，动作就是走哪一步棋；在游戏中，动作可能是按键操作；在机器人控制中，动作可能是移动、转向等。

奖励（Reward）是环境对智能体动作的反馈。奖励可以是正数（鼓励），也可以是负数（惩罚），还可以是零（中性）。智能体的目标是最大化累积奖励，也就是从开始到结束获得的总奖励。

2.3 策略和价值

策略（Policy）是智能体选择动作的规则。

它告诉智能体"在某个状态下，应该选择哪个动作"。策略可以是确定性的（总是选择同一个动作），也可以是随机性的（以某种概率选择不同动作）。

价值（Value）是智能体对某个状态或动作的评估。

状态价值表示"从这个状态开始，按照当前策略，期望能获得多少累积奖励"；动作价值表示"在某个状态下选择某个动作，期望能获得多少累积奖励"。价值越高，说明这个状态或动作越好。

2.4 探索与利用

强化学习面临一个核心矛盾：探索（Exploration）与利用（Exploitation）。

探索是指尝试新的、未知的动作，看看能不能获得更好的奖励；
利用是指选择已知的、能获得高奖励的动作。

这就像找工作：你可以探索新公司（可能更好，也可能更差），也可以利用现有工作（稳定但可能不是最好的）。如果只探索，你可能永远找不到好工作；如果只利用，你可能错过更好的机会。强化学习需要在两者之间找到平衡。

三、强化学习的分类

强化学习方法可以分为两大类：基于模型的强化学习和无模型强化学习。

3.1 基于模型的强化学习

基于模型的强化学习（Model-Based Reinforcement Learning）中，智能体使用环境的转移模型来理解奖励并决定动作。智能体学习一个效用函数U(s)，表示从状态s开始，按照最优策略，期望能获得多少累积奖励。

这种方法的核心是：智能体先学习环境的模型（比如"在状态s执行动作a，会以概率p转移到状态s’，并获得奖励r"），然后使用这个模型来规划最优策略。就像你学会了游戏规则，就可以提前思考"如果我这样做，会发生什么"，然后选择最好的行动。

基于模型的强化学习的优势是：一旦学会了模型，就可以通过规划找到最优策略，不需要实际执行所有可能的动作。但缺点是：学习模型本身可能很困难，特别是在复杂环境中。

3.2 无模型强化学习

无模型强化学习（Model-Free Reinforcement Learning）中，智能体不知道或不学习环境的转移模型，而是直接学习如何行动。这种方法又可以分为两类：动作效用函数学习和策略搜索。

动作效用函数学习（Action-Utility Learning）学习动作的Q函数Q(s,a)，表示"在状态s选择动作a，然后按照最优策略行动，期望能获得多少累积奖励"。Q-learning就是这种方法的一个典型例子。如果知道了Q函数，就可以通过选择Q值最高的动作来找到最优策略。
策略搜索（Policy Search）直接学习策略π(s)，作为从状态到动作的直接映射。智能体不断调整策略参数，只要策略性能提升就继续调整，直到找到好的策略。

无模型强化学习的优势是：不需要学习环境模型，可以直接从经验中学习策略。但缺点是：可能需要更多的试错，学习过程可能较慢。