1. 强化学习基础
1.1 什么是强化学习?
强化学习(Reinforcement Learning, RL)是一种机器学习范式,关注如何让一个智能体通过与环境的交互,学习到最优的决策策略,以最大化长期累计奖励。不同于监督学习(给定输入-输出对)和无监督学习(寻找数据中的模式),强化学习的特点是试错学习和延迟奖励。
通俗比喻:
想象你在玩迷宫游戏,你(智能体)需要从起点走到终点(目标)。你不知道迷宫地图,只能通过不断尝试(走路),观察结果(撞墙或前进),并根据奖励(到达终点得高分,撞墙扣分)学习最佳路径。这就是强化学习的核心思想。
1.2 强化学习的核心概念
以下是强化学习的基本要素:
- 智能体:决策者,执行动作。
- 环境:智能体交互的对象,提供状态和奖励。
- 状态(sss):描述环境某一时刻的状况。
- 动作(aaa):智能体在某状态下可采取的行为。
- 奖励(rrr):环境对智能体动作的反馈,通常是一个标量。
- 策略(π\piπ):智能体根据状态选择动作的规则,记为 π(a∣s)\pi(a|s)π(a∣s),表示在状态 sss 下选择动作 aaa 的概率。
- 回报(GGG):从某一时刻开始的累计奖励,通常是折扣后的总和 Gt=rt+γrt+1+γ2rt+2+…G_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \dotsGt=rt+γrt+1+γ2rt+2+…,其中 γ∈[0,1)\gamma \in [0,1)γ∈[0,1) 是折扣因子。
- 价值函数:
- 状态价值函数 Vπ(s)V^\pi(s)Vπ(s):在策略 π\piπ 下,从状态 sss 开始的期望回报。
- 动作价值函数 Qπ(s,a)Q^\pi(s,a)Qπ(s,a):在状态 sss 下执行动作 aaa,然后按策略 π\piπ 继续行动的期望回报。
- 马尔可夫决策过程(MDP):强化学习的数学框架,定义为五元组 (S,A,P,R,γ)(S, A, P, R, \gamma)(S,A,P,R,γ),其中:
- SSS:状态空间
- AAA:动作空间
- P(s′∣s,a)P(s'|s,a)P(s′∣s,a):状态转移概率
- R(s,a)R(s,a)R(s,a):奖励函数
- γ\gammaγ:折扣因子
1.3 强化学习与深度学习的区别与联系
- 区别:
- 数据来源:深度学习通常使用静态数据集(图像、文本等),而强化学习通过与环境交互动态生成数据。
- 目标:深度学习优化损失函数(如均方误差),强化学习优化累计奖励。
- 反馈:深度学习有即时标签,强化学习反馈是延迟的、稀疏的。
- 联系:
- 深度强化学习(Deep RL):将深度神经网络用于强化学习,解决高维状态空间(如图像)或复杂策略的表示问题。例如,DQN 使用深度网络逼近 Q 函数。
- 深度学习技术(如 CNN、RNN、优化器)在深度强化学习中广泛应用。
1.4 强化学习的数学框架
强化学习的目标是找到一个最优策略 π∗\pi^*π∗,使期望回报最大化。数学上,优化目标为:
J(π)=Eπ[∑t=0∞γtr(st,at)]J(\pi) = \mathbb{E}_{\pi} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right]J(π)=Eπ[∑t=0∞γtr(st,at)],
其中,at∼π(⋅∣st)a_t \sim \pi(\cdot|s_t)at∼π(⋅∣st),st+1∼P(⋅∣st,at)s_

最低0.47元/天 解锁文章
722

被折叠的 条评论
为什么被折叠?



