【从RL到DRL】强化学习基础(二)——马尔可夫决策过程与相关贝尔曼方程

绪言

马尔可夫决策过程(Markov decision processes,MDP)

  • MDP是强化学习问题在数学上的理想化形式
  • MDP中的环境使完全可观测的
  • 几乎所有的强化学习问题都可以在数学上表示为马尔可夫决策过程

马尔可夫过程

马尔可夫性质

未来只与现在有关,与过去无关

定义:状态St具有马尔可夫性,当且仅当:在这里插入图片描述
给定当前时刻状态,将来与历史无关,状态是对过去的充分统计:在这里插入图片描述对于马尔可夫状态与其后继状态s’,他们的状态转移概率定义为:在这里插入图片描述。状态转移矩阵P定义了马尔可夫状态s到其所有后继状态s’的转移概率:在这里插入图片描述
矩阵的每一行总和为1.矩阵的维度为|s|·|s|,其中s为状态数量

马尔可夫过程

  • 马尔可夫过程是一种无记忆的随机过程
  • 马尔可夫过程可以分为三类
    • 时间、状态都离散的马尔可夫过程(马尔可夫链
    • 时间连续、状态离散的马尔可夫过程(连续时间的马尔可夫链
    • 时间、状态都连续的马尔可夫过程
    • 在这里插入图片描述

定义: 从初始状态S1 = c1开始,我们可以从马尔可夫链中采样一些子序列,每个子序列又称为幕(Episodes)。在有“幕”或者有“回合”概念的状态集中,一般都会有一个“终止状态”,在马尔可夫链中一般用方框表示,状态转移箭头“只进不出”。


马尔可夫奖励过程(Markov Reward Process,MRP)

马尔可夫奖励过程是具有价值的马尔可夫链

马尔可夫奖励过程(Markov Reward Process,MRP)由元组(S,P,R,γ)构成

  • S是有限状态的集合

  • P是状态转移矩阵

  • Rs是奖励函数,Rs = E[Rt+1 | St = s]。到达St这个状态后系统给智能体的奖励值的期望(系统给分具有一定的随机性)在这里插入图片描述

  • γ是折扣因子,γ∈[0 , 1]

  • 回报:在一个马尔可夫奖励过程中,从t时刻的状态St开始,直至终止状态时,所有奖励的衰减之和Gt称为 回报(Return),其中即用到了折扣因子γ在这里插入图片描述

  • 折扣率或者衰减率γ的作用

    • 避免有环的马尔可夫过程计算收益时出现无限循环
    • 从金融投资回报的角度讲,即时奖励比延时奖励更吸引人
    • 动物/人类行为中都表现出对及时奖励的偏好
    • 可以表达未来的不确定性
    • γ ∈ [0,1],γ = 0表示只看眼前收益

回报计算举例
在这里插入图片描述

价值函数

价值函数V(s)给出状态s的长期价值(long-term value)
价值函数输入为某个状态,输出为这个状态的价值

在马尔可夫奖励过程之中,一个状态的 期望回报 被称为这个状态的价值函数
在这里插入图片描述
价值函数是强化学习的核心概念

贝尔曼方程(Bellman Equation)

求解价值函数

  • 当前状态的价值 = 求期望 (到达当前状态时的得分 + 衰减率×下一个状态的价值)
  • 方程本身:在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值