绪言
马尔可夫决策过程(Markov decision processes,MDP)
- MDP是强化学习问题在数学上的理想化形式
- MDP中的环境使完全可观测的
- 几乎所有的强化学习问题都可以在数学上表示为马尔可夫决策过程
马尔可夫过程
马尔可夫性质
未来只与现在有关,与过去无关
定义:状态St具有马尔可夫性,当且仅当:![]()
给定当前时刻状态,将来与历史无关,状态是对过去的充分统计:
对于马尔可夫状态与其后继状态s’,他们的状态转移概率定义为:
。状态转移矩阵P定义了马尔可夫状态s到其所有后继状态s’的转移概率:
矩阵的每一行总和为1.矩阵的维度为|s|·|s|,其中s为状态数量
马尔可夫过程
- 马尔可夫过程是一种无记忆的随机过程
- 马尔可夫过程可以分为三类
- 时间、状态都离散的马尔可夫过程(马尔可夫链)
- 时间连续、状态离散的马尔可夫过程(连续时间的马尔可夫链)
- 时间、状态都连续的马尔可夫过程

定义: 从初始状态S1 = c1开始,我们可以从马尔可夫链中采样一些子序列,每个子序列又称为幕(Episodes)。在有“幕”或者有“回合”概念的状态集中,一般都会有一个“终止状态”,在马尔可夫链中一般用方框表示,状态转移箭头“只进不出”。
马尔可夫奖励过程(Markov Reward Process,MRP)
马尔可夫奖励过程是具有价值的马尔可夫链
马尔可夫奖励过程(Markov Reward Process,MRP)由元组(S,P,R,γ)构成
-
S是有限状态的集合
-
P是状态转移矩阵
-
Rs是奖励函数,Rs = E[Rt+1 | St = s]。到达St这个状态后系统给智能体的奖励值的期望(系统给分具有一定的随机性)

-
γ是折扣因子,γ∈[0 , 1]
-
回报:在一个马尔可夫奖励过程中,从t时刻的状态St开始,直至终止状态时,所有奖励的衰减之和Gt称为 回报(Return),其中即用到了折扣因子γ

-
折扣率或者衰减率γ的作用
- 避免有环的马尔可夫过程计算收益时出现无限循环
- 从金融投资回报的角度讲,即时奖励比延时奖励更吸引人
- 动物/人类行为中都表现出对及时奖励的偏好
- 可以表达未来的不确定性
- γ ∈ [0,1],γ = 0表示只看眼前收益
回报计算举例:

价值函数
价值函数V(s)给出状态s的长期价值(long-term value)
价值函数输入为某个状态,输出为这个状态的价值
在马尔可夫奖励过程之中,一个状态的 期望回报 被称为这个状态的价值函数
价值函数是强化学习的核心概念
贝尔曼方程(Bellman Equation)
求解价值函数
- 当前状态的价值 = 求期望 (到达当前状态时的得分 + 衰减率×下一个状态的价值)
- 方程本身:



最低0.47元/天 解锁文章
3443

被折叠的 条评论
为什么被折叠?



