第一部分:强化学习基础
在深入探讨Q-learning之前,我们需要先理解强化学习的基本概念和框架,因为Q-learning是强化学习中的一种具体算法。
1.1 什么是强化学习?
强化学习是一种机器学习范式,目标是让智能体(Agent)通过与环境(Environment)的交互,学习如何采取行动以最大化长期的累积奖励(Cumulative Reward)。与监督学习(有明确标签)和无监督学习(寻找数据结构)不同,强化学习的特点包括:
- 试错学习:智能体通过尝试不同行动,观察结果,逐步改进策略。
- 延迟奖励:奖励可能不是即时的,智能体需要考虑长期收益。
- 序列决策:智能体的决策是连续的,每一步行动会影响后续状态。
强化学习的典型应用包括:
- 游戏(如AlphaGo)
- 机器人控制
- 自动驾驶
- 推荐系统
1.2 强化学习的数学框架
强化学习通常被建模为马尔可夫决策过程(Markov Decision Process, MDP),这是一个数学框架,包含以下核心元素:
-
状态(State, SSS):
- 表示环境的某种配置。例如,在迷宫游戏中,智能体的位置是一个状态。
- 状态集合 S\mathcal{S}S 可以是离散的(如网格世界的格子)或连续的(如机器人的关节角度)。
-
动作(Action, AAA):
- 智能体在某个状态下可以采取的决策。例如,在迷宫中,动作可能是“上、下、左、右”。
- 动作集合 A\mathcal{A}A 同样可以是离散的或连续的。
-
奖励(Reward, RRR):
- 环境对智能体动作的反馈,是一个标量值。例如,走出迷宫可能得到 +100+100+100 的奖励,撞墙可能得到 −1-1−1。
- 奖励函数 R(s,a,s′)R(s, a, s')R(s,a,s′) 表示在状态 sss,采取动作 aaa,转移到状态 s′s's′ 时获得的奖励。
-
状态转移概率(Transition Probability, PPP):
- 描述环境如何根据智能体的动作从一个状态转移到另一个状态。
- 形式为 P(s′∣s,a)P(s' | s, a)P(s′∣s,a),表示在状态 sss 采取动作 aaa 后转移到状态 s′s's′ 的概率。
- 如果环境是确定性的,转移是固定的;如果是随机的,则有概率分布。
-
折扣因子(Discount Factor, γ\gammaγ):
- γ∈[0,1)\gamma \in [0, 1)γ∈[0,1),用于平衡短期和长期奖励。
- 如果 γ\gammaγ 接近 0,智能体更重视短期奖励;如果接近 1,则更关注长期奖励。
1.3 强化学习的目标
强化学习的目标是找到一个策略(Policy, π\piπ),它告诉智能体在每个状态下应采取什么动作,以最大化期望累积奖励。策略可以是:
- 确定性策略:π(s)=a\pi(s) = aπ(s)=a,在状态 sss 总是选择动作 aaa。
- 随机性策略:π(a∣s)\pi(a | s)π(a∣s),在状态 sss 选择动作 aaa 的概率。
期望累积奖励(也叫回报,Return)定义为:
Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^\infty \gamma^k R_{t+k+1}Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1
其中 Rt+1R_{t+1}Rt+1 是时间步 t+1t+1t+1 的奖励,γ\gammaγ 是折扣因子。
智能体的目标是找到最优策略 π∗\pi^*π∗,使期望回报最大:
π∗=argmaxπE[Gt∣π]\pi^* = \arg\max_\pi \mathbb{E}[G_t | \pi]π∗=argmaxπE[Gt∣π]
1.4 值函数(Value Function)
为了评估策略的好坏,强化学习引入了值函数,分为两种:
-
状态值函数(State-Value Function, Vπ(s)V^\pi(s)Vπ(s)):
- 表示在状态 sss,按照策略 π\piπ 行动的期望累积奖励:
Vπ(s)=Eπ[Gt∣St=s]V^\pi(s) = \mathbb{E}_\pi [G_t | S_t = s]Vπ(s)=Eπ[G
- 表示在状态 sss,按照策略 π\piπ 行动的期望累积奖励:

最低0.47元/天 解锁文章
430

被折叠的 条评论
为什么被折叠?



