1. 概述
MDP由一个代理agent和一个环境 E ,一组可能的状态 S ,一组可用的行动 A ,和奖励函数 r: S×A→r 构成。
在离散时间的步骤中,代理agent不断地从与环境的交互中 学习并作出决策。在每个时间步 t ,代理观察环境的当前状态,记作 st∈S ,并根据策略π选择执行一个动作 at∈A 。之后,代理从环境E中收到达到当前状态st的一个标量奖励 rt = r(st,at)∈R⊆R ,并根据环境的转移概率 p (st+1 |st, at) 找到自己的下一个状态 st+1∈S 。
2. MDP 目标
因此,环境E的动态性由agent在当前状态 st 下对所采取行动at的 响应的转移概率 p(s’|s,a) 决定,agent的目标是找到最大化其所获得的长期期望折扣报酬的最优策略,即
3. 策略
策略是一个概率分布,体现了在当前状态下 st 采取行动 at 的概率:
4. 值函数 V(s)
值函数 Value Function (或者可以称为状态值函数 State-Value Function),是根据策略π的指导,在当前状态 st 下,之后能够预期得到的折扣收益: