【强化学习】MarkovDecisionProcess(MDP) for RL马尔科夫-优快云博客

MarkovDecisionProcess(MDP) for RL马尔科夫

MDP Terminology

Agent智能体：训练主要对象
Environment环境：与智能体进行交互的其他物体.
State状态：智能体的当前的状态。对于机器人来说可以是他的位置姿态信息。
Action动作：智能体所作出的与时间相关的动作。
Policy策略：做出动作的背后原因。是一个对于一系列动作的概率分布。

Markov Property马尔科夫性质

A state $S_t$ is Markov if and only if
$\mathbb{P}[S_{t+1} | S_{t}] = \mathbb{P}[S_{t+1 | S_1, S_2,...,S_t}]$
Example: 一个机器人的一系列动作：

坐在椅子上
站起来
右腿向前
如果当前状态是右腿向前 $S_t$ ，那这一状态是取决于他的前一状态 $S_{t-1}$ ——站起来，而不会取决于再之前一步——坐在椅子上.

Markov Process Explained 解释马尔科夫过程

$\mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s]$
马尔科夫过程由(S,P)来定义。s 是状态，P是状态转换概率。这个过程包括一系列随机的状态s_1, s_2,…这些状态都遵循马尔科夫性质。
状态转换概率P_{ss'}是从当前s'转换到s的概率。例子如图所示。
请添加图片描述

Markov reward Process 马尔科夫奖励过程

$\mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s]$
$\mathcal{R_{s}} = \mathbb{E}[R_{t+1} | S_{t} = s]$
马尔科夫奖励过程由(S,P,R,y)来定义。S为状态，P为状态转换概率，R是reward奖励,y是discount factor折扣因子。