强化学习的基础知识

最新推荐文章于 2025-07-15 17:15:57 发布

原创

最新推荐文章于 2025-07-15 17:15:57 发布 · 1.5k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #强化学习 #模式识别

本文介绍了强化学习的基本概念，包括其定义、策略评估、贝尔曼方程以及如何优化策略。通过解释状态转移、收益与策略之间的关系，以及Q值和V值的计算方法，帮助读者理解强化学习的核心思想。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　最近又有alpha zero 以100：0战败 alpha master（(打败当前人类最牛围棋选手柯洁的人工智能）的消息，给强化学习注入了更强的一剂兴奋剂。刚好顺手学习了下有关强化学习的一些基础，现整理给大家共飨。

What is RL

　　什么是强化学习（Reinforcement Learning）？
　　通过对环境的探索，习得与环境交互的最优策略，从而获得最大收益的过程，称之为“强化学习”。
　　举个例子，训练小狗去捡东西回来。奖励小狗的某个特定动作，如果作对了某个可能捡东西的倾向动作，给它点吃的；如果做错了某个动作，打它脑壳一下。小狗学会捡东西的整个过程，可以称之为强化学习的过程。小狗通过与环境（人+自然环境）的交互，获得奖励避免惩罚，最后得到一种策略：只要人丢出东西，就抓紧时间捡回来，就能够获得好处。

基本概念

　　RL基本模式：
　　

　　 agent　　　　：智能体，学习策略的主体，比如大脑。
　　 environment ：需要观察的外部环境。
　　 state　　　　：环境的描述。

st $s_t$
　　 action　　　：智能体采取的行动。
　　 reward　　　：环境对某个行为反馈的奖励值。
　　 MDP：只根据环境当前状态，不断做出action的过程，可以用MDP（Markov Decision Process）来描述。
　　

(s0,r0)→(ps0,a0)→(s1,r1)→(ps1,a1)→(s2,r2)→⋅⋅⋅(st,rt) $(s_0, r_0) \rightarrow (p_{s_0},a_0) \rightarrow (s_1, r_1) \rightarrow (p_{s_1},a_1) \rightarrow (s_2, r_2) \rightarrow ··· (s_t, r_t)$
　　

策略的评估

　　根据策略做决定的过程已知，那么如何评估采取行为后的收益呢？如何评估当前策略好坏呢？

收益与策略

　　这里主要便于理解，策略从收益的角度来评估是怎么回事。
　　1）带有状态转移的时间序列的描述
　　为描述一个离散时间序列的状态和行为：
　　　　现定义时刻 $t$ 的状态 $s_t$ 和行为 $a_t$ ，其中 $s_t \in S; a_t \in A(s)$
　　　　状态 $s$ 到行为 $a$ 的关系映射(可以认为是依概率行动)： $a = \pi(s)$
　　　　依照某种策略采取行动，状态之间的转移概率： $P_{ss'}^{\pi(s)}=P_{\pi(s)}(s'|s)=Prob (s_{t+1}=s'|s_t=s,a_t=\pi(s) )$
　　　　执行某个行为 $a$ 后，状态之间的转移概率： $P_{ss'}^a=P_a(s'|s)$
　　注意：行为的发生本身是概率事件，另外发生行为后的状态转移也是概率事件。
　　则带有状态转移关系的时间序列描述如下：
　　

(s t, π (s t)) - \to - - - a = π (s) P a s s' (s t + 1, π (s t + 1)) - \to - - - a = π (s) P a s s' (s t + 2, π (s t + 2)) \to \cdot \cdot \cdot

$(s_t, \pi(s_t)) \xrightarrow[a=\pi(s)]{P_{ss'}^a} (s_{t+1}, \pi(s_{t+1})) \xrightarrow[a=\pi(s)]{P_{ss'}^a} (s_{t+2}, \pi(s_{t+2})) \rightarrow ···$
　　可视化如上面的彩图所示。
　　 2）瞬时收益与序列收益
　　定义每个时刻的瞬时收益（收益是策略好坏的体现）：

r(st,at=π(st)) $r(s_t, a_t=\pi(s_t))$ ，由此看到

r $r$ 是

st $s_t$ 的复合随机变量。
　　则在当前状态

st $s_t$ 开始时，这个序列

{ s}|st={ st,st+1,st+2,⋅⋅⋅} $\{s\}|s_t=\{s_t, s_{t+1}, s_{t+2},···\}$ 的整体收益是多少呢？
　　

R ({s} | s t) = r (s t, π (s t)) + γ r (s t + 1, π (s t + 1)) + γ 2 r (s t + 2, π (s t + 2)) + \cdot \cdot \cdot

$R(\{s\}|s_t)=r(s_t, \pi(s_t)) + \gamma r(s_{t+1}, \pi(s_{t+1})) +\gamma^2 r(s_{t+2}, \pi(s_{t+2})) + ···$
　　其中

γ∈(0,1) $\gamma \in (0,1)$ 是假设未来收益是有折扣的。
　　 notice：

R({ s}|st) $R(\{s\}|s_t)$ 是随机变量

st,st+1,st+2⋅⋅⋅ $s_t, s_{t+1}, s_{t+2}···$ 的复合随机变量。
　　将所有可能地序列求个收益的平均值，是不是就搞清了未来收益。
　　序列的生成，是由其背后的指导策略导致的不同走向。
　　

E[R({ s}|st)] $E[R(\{s\}|s_t)]$ 对所有序列收益求取平均，也就评估了隐藏于序列背后的关系。
　　而这些序列背后隐藏的关系，就是状态转移背后的指导行动的策略

π(s) $\pi(s)$ 。
　　

$Bellman Equation与R、V、Q$

　　整理下相关的数学概念
　　Bellman Equation： $f(x)=r(x) + \gamma f(x')$
　　假设未来收益对当前是打折扣的 $\gamma \in (0,1)$ 。
　　假设时间起始为 $t=0$ ，则以 $s_{t=0}$ 为初始状态的序列收益的BE表示。
　　假设 $t=0$ 是为了方便后面推导方便，也可以初始状态直接定义为 $s_t$ 。
　　
　　1）序列收益的评估
　　 R({ s}|st=0)=r(st=0,π(st=0))+γr(st=1,π(st=1))+γ2r(st=2,π(