马尔可夫决策过程(MDP)

本文深入解析强化学习核心概念,涵盖马尔科夫决策过程、状态值函数与行为值函数,及贝尔曼方程。探讨最优策略与价值函数,介绍强化学习算法分类,包括策略优化与动态规划方法。

一、强化学习引入

  • 强化学习的一个经典简化图:
  • 在上图中Agent首先观察获取当前环境的状态 S t S_t St,然后根据 S t S_t St采取一个行动 A t A_t At与环境进行交互,在动作 A t A_t At作用下环境的状态由 S t S_t St转变为 S t + 1 S_{t+1} St+1,同时环境会给出立即给Agent一个回报 R t R_t Rt。如此循环下去,Agent与环境进行不断地交互从而产生很多数据。强化学习算法利用产生的数据修改Agent的动作策略,再与环境交互,产生新的数据,并利用新的数据进一步改善Agent的行为,经过数次迭代学习后,智能体能最终地学到完成相应任务的最优动作。
  • 在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。

二、马尔科夫决策过程

  • 内容大纲:
    • 马尔科夫性
    • 马尔科夫过程
    • 马尔科夫决策过程

1、马尔科夫性

  • 马尔科夫性:是指环境的下一个状态 s t + 1 s_{t+1} st+1仅与当前状态 s t s_t st有关,而与以前的状态无关,可用下面公式表达: P ( s t + 1 │ s t , … , s 1 ) = P ( s t + 1 │ s t ) P(s_{t+1}│s_t,…,s_1 )=P(s_{t+1}│s_t ) P(st+1st,,s1)=P(st+1st)
  • 马尔科夫性描述的是环境的每个状态的性质
  • 马尔科夫随机过程:数学中用来描述随机变量序列的学科叫随机过程。所谓随机过程就是指随机变量序列。若将满足马尔可夫性的环境状态 s t s_t st视为一个随机变量,那么随机变量序列(随机过程): [ s 1 , s 2 … , s n ] [s_1,s_2…,s_n] [s1,s2,sn]被称为马尔科夫随机过程

2、马尔科夫过程

  • 马尔科夫过程:又叫马尔科夫链(Markov Chain),它是一个无记忆的随机过程,可以用一个二元组 [ S , P ] [S,P] [S,P]表示,且满足: S ∈ R N S∈R^N SRN是有限状态集合, P ∈ R n × n P∈R^{n×n} PRn×n是状态转移概率矩阵:
  • 例子:学生马尔科夫链:
    • 上图是一个马尔科夫过程示例图,状态集合 S S S={娱乐,课程1,课程2,课程3,考过,睡觉,论文},状态转移概率矩阵 P P P的元素为图上边的权值。
    • 一个学生一天可能的状态序列有很多种可能,比如:课1->课2->课3->考过->睡觉。这种状态序列称为马尔科夫链。当给定状态转移概率矩阵,从某个状态出发存在多条马尔科夫链。
  • 但是马尔科夫过程中不存在动作(action)和奖励(reward),所有马尔科夫过程不足以描述图1所示的强化学习过程。将动作(action)和奖励(reward)考虑到马尔科夫过程中去就得到了马尔科夫决策过程

3、马尔科夫决策过程

  • 马尔科夫决策过程由元组 ( S , A , P , R , γ ) (S,A,P,R,γ) (S,A,P,R,γ)描述其中:

    • S ∈ R n S∈R^n SRn为有限的状态集
    • A ∈ R m A∈R^m ARm为有限的动作集
    • P ∈ R n × m × n P∈R^{n×m×n} PRn×m×n为状态转移概率矩阵
    • R R R为回报函数
    • γ γ γ为折扣因子,用来计算累积回报。
  • 跟马尔科夫过程不同的是,马尔科夫决策过程的状态转移概率是包含动作的即: P s s ′ a = P [ S t + 1 = s ′ ∣ S t = s , A t = a ] P^a_{ss'}=P[S_{t+1}=s' |S_t=s,A_t=a] Pssa=P[St+1=sSt=s,At=a]表示在状态 s s s下执行行为 a a a下一个状态为 s ′ s' s的概率,

  • 例子:学生马尔科夫决策过程:

    其中黑色源点是起点,方块为终点。

    • 该图在上图的基础上加入了行为集合 A A A={完、学习、退出、睡觉、发表}和立即奖励函数 R R R
  • 强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略。所谓策略是指状态到动作的映射,策略常用符号 π π π表示,它是指给定状态 s s s时,动作集上的一个分布,即: π ( a │ s ) = P ( A t ∣ S t = s ) π(a│s)=P(A_t |S_t=s) π(as)=P(AtSt=s)

  • 累计回报 G t G_t Gt:是指从 t t t时刻所能带来的所有打折后的奖励总和: G t = R t + 1 + γ R t + ⋯ = ∑ k = 1 ∞ r k R t + k + 1 G_t=R_{t+1}+γR_t+⋯=∑_{k=1}^∞r^k R_{t+k+1} Gt=Rt+1+γRt+=k=1rkRt+k+1

    • 当给定策略 π π π时,假设从状态 s 1 s_1 s1出发,学生状态序列有很多的可能: s 1 → s 2 → s 3 → s 4 → s 5 s 1 → s 2 → s 3 → s 5 … … … … s_1→s_2→s_3→s_4→s_5\\s_1→s_2→s_3→s_5\\ ………… s1s2s3s4s5
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值