一、强化学习引入
- 强化学习的一个经典简化图:
- 在上图中Agent首先观察获取当前环境的状态 S t S_t St,然后根据 S t S_t St采取一个行动 A t A_t At与环境进行交互,在动作 A t A_t At作用下环境的状态由 S t S_t St转变为 S t + 1 S_{t+1} St+1,同时环境会给出立即给Agent一个回报 R t R_t Rt。如此循环下去,Agent与环境进行不断地交互从而产生很多数据。强化学习算法利用产生的数据修改Agent的动作策略,再与环境交互,产生新的数据,并利用新的数据进一步改善Agent的行为,经过数次迭代学习后,智能体能最终地学到完成相应任务的最优动作。
- 在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。
二、马尔科夫决策过程
- 内容大纲:
- 马尔科夫性
- 马尔科夫过程
- 马尔科夫决策过程
1、马尔科夫性
- 马尔科夫性:是指环境的下一个状态 s t + 1 s_{t+1} st+1仅与当前状态 s t s_t st有关,而与以前的状态无关,可用下面公式表达: P ( s t + 1 │ s t , … , s 1 ) = P ( s t + 1 │ s t ) P(s_{t+1}│s_t,…,s_1 )=P(s_{t+1}│s_t ) P(st+1│st,…,s1)=P(st+1│st)
- 马尔科夫性描述的是环境的每个状态的性质
- 马尔科夫随机过程:数学中用来描述随机变量序列的学科叫随机过程。所谓随机过程就是指随机变量序列。若将满足马尔可夫性的环境状态 s t s_t st视为一个随机变量,那么随机变量序列(随机过程): [ s 1 , s 2 … , s n ] [s_1,s_2…,s_n] [s1,s2…,sn]被称为马尔科夫随机过程
2、马尔科夫过程
- 马尔科夫过程:又叫马尔科夫链(Markov Chain),它是一个无记忆的随机过程,可以用一个二元组 [ S , P ] [S,P] [S,P]表示,且满足: S ∈ R N S∈R^N S∈RN是有限状态集合, P ∈ R n × n P∈R^{n×n} P∈Rn×n是状态转移概率矩阵:
- 例子:学生马尔科夫链:
- 上图是一个马尔科夫过程示例图,状态集合 S S S={娱乐,课程1,课程2,课程3,考过,睡觉,论文},状态转移概率矩阵 P P P的元素为图上边的权值。
- 一个学生一天可能的状态序列有很多种可能,比如:课1->课2->课3->考过->睡觉。这种状态序列称为马尔科夫链。当给定状态转移概率矩阵,从某个状态出发存在多条马尔科夫链。
- 但是马尔科夫过程中不存在动作(action)和奖励(reward),所有马尔科夫过程不足以描述图1所示的强化学习过程。将动作(action)和奖励(reward)考虑到马尔科夫过程中去就得到了马尔科夫决策过程。
3、马尔科夫决策过程
-
马尔科夫决策过程由元组 ( S , A , P , R , γ ) (S,A,P,R,γ) (S,A,P,R,γ)描述其中:
- S ∈ R n S∈R^n S∈Rn为有限的状态集
- A ∈ R m A∈R^m A∈Rm为有限的动作集
- P ∈ R n × m × n P∈R^{n×m×n} P∈Rn×m×n为状态转移概率矩阵
- R R R为回报函数
- γ γ γ为折扣因子,用来计算累积回报。
-
跟马尔科夫过程不同的是,马尔科夫决策过程的状态转移概率是包含动作的即: P s s ′ a = P [ S t + 1 = s ′ ∣ S t = s , A t = a ] P^a_{ss'}=P[S_{t+1}=s' |S_t=s,A_t=a] Pss′a=P[St+1=s′∣St=s,At=a]表示在状态 s s s下执行行为 a a a下一个状态为 s ′ s' s′的概率,
-
例子:学生马尔科夫决策过程:
其中黑色源点是起点,方块为终点。
- 该图在上图的基础上加入了行为集合 A A A={完、学习、退出、睡觉、发表}和立即奖励函数 R R R
-
强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略。所谓策略是指状态到动作的映射,策略常用符号 π π π表示,它是指给定状态 s s s时,动作集上的一个分布,即: π ( a │ s ) = P ( A t ∣ S t = s ) π(a│s)=P(A_t |S_t=s) π(a│s)=P(At∣St=s)
-
累计回报 G t G_t Gt:是指从 t t t时刻所能带来的所有打折后的奖励总和: G t = R t + 1 + γ R t + ⋯ = ∑ k = 1 ∞ r k R t + k + 1 G_t=R_{t+1}+γR_t+⋯=∑_{k=1}^∞r^k R_{t+k+1} Gt=Rt+1+γRt+⋯=k=1∑∞rkRt+k+1
- 当给定策略 π π π时,假设从状态 s 1 s_1 s1出发,学生状态序列有很多的可能: s 1 → s 2 → s 3 → s 4 → s 5 s 1 → s 2 → s 3 → s 5 … … … … s_1→s_2→s_3→s_4→s_5\\s_1→s_2→s_3→s_5\\ ………… s1→s2→s3→s4→s5

本文深入解析强化学习核心概念,涵盖马尔科夫决策过程、状态值函数与行为值函数,及贝尔曼方程。探讨最优策略与价值函数,介绍强化学习算法分类,包括策略优化与动态规划方法。
最低0.47元/天 解锁文章
2161

被折叠的 条评论
为什么被折叠?



