MarkovDecisionProcess(MDP) for RL马尔科夫
MDP Terminology
- Agent智能体:训练主要对象
- Environment环境:与智能体进行交互的其他物体.
- State状态:智能体的当前的状态。对于机器人来说可以是他的位置姿态信息。
- Action动作:智能体所作出的与时间相关的动作。
- Policy策略: 做出动作的背后原因。是一个对于一系列动作的概率分布。
Markov Property马尔科夫性质
A state StS_tSt is Markov if and only if
P[St+1∣St]=P[St+1∣S1,S2,...,St] \mathbb{P}[S_{t+1} | S_{t}] = \mathbb{P}[S_{t+1 | S_1, S_2,...,S_t}] P[St+1∣St]=P[St+1∣S1,S2,...,St]
Example: 一个机器人的一系列动作:
- 坐在椅子上
- 站起来
- 右腿向前
如果当前状态是右腿向前StS_tSt,那这一状态是取决于他的前一状态St−1S_{t-1}St−1——站起来,而不会取决于再之前一步——坐在椅子上.
Markov Process Explained 解释马尔科夫过程
Pss′=P[St+1=s′∣St=s] \mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s] Pss′=P[St+1=s′∣St=s]
马尔科夫过程由(S,P)来定义。s 是状态,P是状态转换概率。这个过程包括一系列随机的状态s_1, s_2,…这些状态都遵循马尔科夫性质。
状态转换概率P_{ss'}是从当前s'转换到s的概率。例子如图所示。

Markov reward Process 马尔科夫奖励过程
Pss′=P[St+1=s′∣St=s] \mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s] Pss′=P[St+1=s′∣St=s]
Rs=E[Rt+1∣St=s] \mathcal{R_{s}} = \mathbb{E}[R_{t+1} | S_{t} = s] Rs=E[Rt+1∣St=s]
马尔科夫奖励过程由(S,P,R,y)来定义。S为状态,P为状态转换概率,R是reward奖励,y是discount factor折扣因子。
R_s状态奖励是从s_t转换到所有可能状态的预期奖励。是在s_t这一状态而获得的。也就是当机器人离开之一状态后,才收获这奖励R_{t+1}

Markov Decision Process(MDP) 马尔科夫决策
Pss′=P[St+1=s′∣St=s] \mathcal{P_{ss'}} = \mathbb{P}[S_{t+1} = s' | S_{t} = s] Pss′=P[St+1=s′∣St=s]
Rs=E[Rt+1∣St=s] \mathcal{R_{s}} = \mathbb{E}[R_{t+1} | S_{t} = s] Rs=E[

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



