【强化学习】强化学习中的重要概念

RL^2

已于 2024-06-26 11:22:29 修改

阅读量1k

点赞数 22

文章标签：人工智能

于 2024-06-24 16:57:24 首次发布

本文链接：https://blog.youkuaiyun.com/likecayon/article/details/139930660

版权

强化学习

强化学习（Reinforcement Learning，简称RL）是一种机器学习的范式，强调通过与环境的交互来学习如何在不同情况下采取行动，以最大化某种累积奖励。强化学习主要包含以下几个关键概念：

代理（Agent）： 进行决策的主体。代理通过采取行动与环境进行交互，并根据反馈进行学习。
环境（Environment）： 代理进行决策和行动的外部世界。环境接收代理的动作并提供相应的状态和奖励反馈。
状态（State）： 描述环境在某一时刻的情况。状态可以是环境的一组特征或者代理能观察到的环境信息。
动作（Action）： 代理在某一状态下可以采取的行为。动作会影响环境并导致状态的变化。
奖励（Reward）： 环境对代理动作的反馈。奖励可以是正数、负数或零，用于指导代理学习如何采取有利的动作。
策略（Policy）： 决定代理在不同状态下应采取哪些动作的规则或函数。策略可以是确定性的（每个状态对应一个固定动作）或随机的（每个状态对应一个动作概率分布）。
价值函数（Value Function）： 估计在某一状态下，代理在未来可以期望得到的累积奖励。价值函数帮助代理评估不同状态和动作的优劣。价值函数用于估计在某一状态下，代理在未来可以期望得到的累积奖励。价值函数帮助代理评估不同状态和动作的优劣，从而选择最优的行为。价值函数分为两种：状态值函数（State-Value Function）和状态-行为值函数（State-Action Value Function）。

强化学习的目标是找到一种策略，使得代理在长期内获得最大的累积奖励。强化学习算法通常分为两类：

基于价值的方法（Value-based methods）： 如Q学习和深度Q网络（DQN），主要通过学习价值函数来选择动作。
基于策略的方法（Policy-based methods）： 如策略梯度（Policy Gradient）算法，直接优化策略，使得代理在不同状态下采取最佳动作。

此外，还有一些结合了两者优点的混合方法（例如Actor-Critic方法）。

强化学习在很多领域都有广泛应用，包括机器人控制、游戏AI、自动驾驶、金融交易等。通过不断地试错和优化，强化学习算法能够在复杂和动态的环境中学会高效决策。

马尔科夫过程和马尔科夫决策过程：

马尔科夫过程（Markov Process）

马尔科夫过程是一种随机过程，用于描述系统状态的随机转移。一个马尔科夫过程由以下元素组成：

状态空间 S：系统所有可能状态的集合。
状态转移概率 P：从一个状态转移到另一个状态的概率。

在马尔科夫过程中，系统的未来状态只取决于当前状态，与过去的状态无关。这一特性称为马尔科夫性。数学表示为：

P(st+1∣st,st−1,…,s0)=P(st+1∣st)

其中 st 表示时间步 t的状态。

马尔科夫决策过程（Markov Decision Process, MDP）

马尔科夫决策过程是马尔科夫过程的扩展，增加了决策的概念。在MDP中，代理在不同状态下通过选择动作来影响状态的转移，并根据获得的奖励来优化其决策策略。一个MDP由以下元素组成：

状态空间 S：系统所有可能状态的集合。
动作空间 A：代理可以选择的所有可能动作的集合。
状态转移概率 P：给定当前状态和动作，转移到下一个状态的概率。表示为 P(s′∣s,a)，其中 s是当前状态，a是当前动作，s′ 是下一个状态。
奖励函数 R：给定当前状态和动作，获得的即时奖励。表示为 R(s,a)。
折扣因子 γ：未来奖励的折扣因子（0≤γ≤1），表示未来奖励的重要性。

MDP的目标是找到一个策略 π，使得累积奖励期望值最大化。策略 π定义了在每个状态下选择动作的规则，通常表示为 π(a∣s)，即在状态 s 下选择动作 a的概率。

二者的区别

决策的存在：
- 马尔科夫过程：没有动作的概念，仅描述状态的随机转移。
- 马尔科夫决策过程：引入了动作，代理在不同状态下可以选择不同的动作来影响状态转移，并根据奖励优化策略。
目标：
- 马尔科夫过程：主要用于描述和分析随机过程的状态变化。
- 马尔科夫决策过程：用于解决决策问题，目标是找到最优策略，使得累积奖励最大化。
组成元素：
- 马尔科夫过程：包括状态空间 S 和状态转移概率 P。
- 马尔科夫决策过程：包括状态空间 S、动作空间 A、状态转移概率 P、奖励函数 R 和折扣因子 γ。

应用

马尔科夫过程：常用于随机系统建模，如气象模型、股票价格模型等。
马尔科夫决策过程：广泛应用于强化学习、机器人控制、自动驾驶、金融决策等领域，需要在动态环境中进行决策的场景。

折扣因子

折扣因子（Discount Factor）是强化学习中的一个重要概念，通常用 γ 表示。它用于衡量未来奖励在当前决策中的重要性。折扣因子介于0和1之间，即 0≤γ≤1。下面详细解释折扣因子的作用和意义：

折扣因子的作用

未来奖励的重要性：
- γ=0：代理只关心当前的即时奖励，不考虑未来的任何奖励。此时，策略只会基于当前能获得的最大奖励进行选择。
- γ=1：代理同样重视当前和未来的奖励。在这种情况下，代理会试图最大化整个未来的总奖励。
- 0<γ<1：代理既考虑当前奖励也考虑未来奖励，但对未来奖励的重视程度随着时间的推移逐渐降低。折扣因子越接近1，未来奖励的影响越大；折扣因子越小，代理更注重近期的奖励。
稳定性和收敛性：
- 折扣因子在确保值函数和策略收敛性方面起着关键作用。适当的折扣因子可以使得累积奖励在无限时间步内保持有限，从而保证算法的稳定性。

数学表达

在强化学习中，目标是最大化累积奖励（也称为回报，Return），回报通常定义为从当前时间步 ttt 开始的折扣累积奖励和：

$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$

Gt 是时间步 ttt 开始的总回报。
γ 是折扣因子，表示未来奖励的重要性。
R_{t+k+1} 是时间步 t+k+1 的即时奖励。

选择折扣因子的影响

长短期平衡：
- 较大的折扣因子（如0.9或0.99）鼓励代理采取可以获得长期利益的行动。
- 较小的折扣因子（如0.1或0.5）更注重近期的利益，可能导致代理采取短视的行为。
问题的性质：
- 在一些长期任务（如游戏、战略规划等）中，较大的折扣因子通常更合适。
- 在一些快速决策的任务（如高频交易、实时响应系统等）中，较小的折扣因子可能更适用。

实际应用

假设在一个迷宫问题中，代理需要找到从起点到目标的最短路径。通过设置适当的折扣因子，代理可以权衡立即到达目标（快速但可能不是最优路径）和探索更多路径以找到最优解（可能花费更多时间但更有效）的策略。

总结

折扣因子是强化学习中的关键参数，通过调整折扣因子，代理可以在短期利益和长期收益之间找到平衡，从而制定出最优的策略。选择适当的折扣因子对于实现强化学习算法的有效性和稳定性至关重要。

状态值函数和状态-行为值函数

状态值函数（State-Value Function）

state value is the average reward that an agent can obtain if it follows a given policy.

状态值函数 V(s)用来评估在某一状态 sss 下，代理在未来能够期望获得的累积奖励。具体来说，状态值函数是代理从状态 s 开始并按照策略 π 行动时，可以期望得到的总奖励的期望值。状态值函数的数学定义如下：

$V^{\pi}(s) = \mathbb{E}_{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t R_{t+1} \mid S_0 = s \right]$

状态-行为值函数（State-Action Value Function）

状态-行为值函数 Q(s,a)用来评估在某一状态 s下，采取某一行为 a 后，代理在未来能够期望获得的累积奖励。具体来说，状态-行为值函数是代理从状态 s 开始采取行为 a，然后按照策略 π 行动时，可以期望得到的总奖励的期望值。状态-行为值函数的数学定义如下：

$Q^{\pi}(s, a) = \mathbb{E}_{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t R_{t+1} \mid S_0 = s, A_0 = a \right]$

状态值函数和状态-行为值函数之间的关系

状态值函数 V(s)和状态-行为值函数 Q(s,a)之间有以下关系：

$V^{\pi}(s) = \mathbb{E}_{a \sim \pi(\cdot \mid s)} \left[ Q^{\pi}(s, a) \right]$

也就是说，状态值函数 V(s)是状态 s 下所有可能行为的状态-行为值函数 Q(s,a) 的期望值。在实践中，状态-行为值函数 Q(s,a) 常用于策略迭代和值迭代算法中，因为它直接评估了具体行为的优劣，有助于选择最佳行为。

基于价值的方法和基于策略的方法

基于价值的方法和基于策略的方法在强化学习中有不同的关注点和使用方法。虽然两者都可能涉及状态-行为值函数，但它们的使用方式和目的不同。

基于价值的方法（Value-based methods）

在基于价值的方法中，状态-行为值函数（Q函数）是核心概念。这些方法通过估计每个状态-行为对的值来选择动作。具体来说，常见的基于价值的方法包括：

Q学习（Q-Learning）

Q学习是一种无模型（model-free）的强化学习算法，直接学习最优的状态-行为值函数 Q∗(s,a)Q^*(s, a)Q∗(s,a)。更新规则如下：

$Q(s, a) \leftarrow Q(s, a) + \alpha \left( r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right)$

其中：

α 是学习率。
γ 是折扣因子。
r是即时奖励。
s′是下一状态。

深度Q网络（Deep Q-Network, DQN）

DQN使用神经网络来逼近状态-行为值函数 Q(s,a;θ)Q(s, a; \theta)Q(s,a;θ)，其中 θ\thetaθ 是网络参数。它通过最小化以下损失函数来更新参数：

$L(\theta) = \mathbb{E} \left[ \left( r + \gamma \max_{a'} Q(s', a'; \theta^-) - Q(s, a; \theta) \right)^2 \right]$

基于策略的方法（Policy-based methods）

基于策略的方法直接优化策略，而不是显式地估计值函数，使得代理在不同状态下采取最佳动作。常见的方法包括策略梯度（Policy Gradient）算法。

策略梯度（Policy Gradient）

策略梯度方法通过优化参数化策略 π(a∣s;θ)\pi(a|s; \theta)π(a∣s;θ) 来直接最大化期望的累积奖励。策略梯度的更新规则基于梯度上升：

$\nabla J(\theta) = \mathbb{E}_{\pi} \left[ \nabla_\theta \log \pi(a|s; \theta) Q^\pi(s, a) \right]$

其中：

J(θ) 是目标函数，通常是期望累积奖励的期望值。

优势函数策略梯度（Advantage Actor-Critic, A2C）

优势函数策略梯度方法使用优势函数来提高策略梯度估计的准确性。优势函数的定义为：

A(s,a)=Q(s,a)−V(s)

策略梯度的更新规则变为：

$\nabla J(\theta) = \mathbb{E}_{\pi} \left[ \nabla_\theta \log \pi(a|s; \theta) A(s, a) \right]$

参数更新

无论是基于价值的方法还是基于策略的方法，参数更新都是通过某种形式的梯度更新进行的。例如，使用梯度上升或优化算法如Adam：

$\theta \leftarrow \theta + \alpha \nabla J(\theta)$

总结

基于价值的方法 主要依赖于状态-行为值函数 Q(s,a) 来选择动作，学习和更新 Q(s,a)Q(s,a) 是这些方法的核心。
基于策略的方法 主要优化策略 π(a∣s;θ)，虽然它们可以利用状态-行为值函数 Qπ(s,a) 来辅助计算策略梯度，但其核心关注点是直接优化策略。

两种方法可以结合使用，如在Actor-Critic方法中，使用一个价值函数（Critic）来评估动作并指导策略（Actor）的更新，从而实现更高效的学习。

Designing appropriate rewards is an important step in reinforcement learning.