有限马尔可夫决策过程(有限MDP问题)既涉及“评估性反馈”,又涉及“发散联想”,即在不同情境下选择不同的动作。MDP是序列决策的经典形式化表达,其动作不仅影响当前的即时收益,还影响后续的情境(又称状态)以及未来的收益。因此,MDP涉及了延迟收益,由此也就有了在当前收益和延迟收益之间权衡的需求。
在赌博机问题中,我们估计了每个动作a的价值 q ∗ ( a ) q_*(a) q∗(a),而在MDP中,每个动作 a a a在每个状态s中的价值 q ∗ ( s , a ) q_*(s,a) q∗(s,a),或者估计给定最有动作下的每个状态的价值 v ∗ ( s ) v_*(s) v∗(s)。
“智能体-环境”交互接口
MDP是一种通过交互式学习来实现目标的理论框架。进行学习及实施决策的机器被称为智能体(agent)。与之相互作用的事物都被称为环境(environment)。事物之间持续交互,智能体选择动作,环境对这些动作做出响应,并向智能体呈现出新的状态。而环境也会产生收益,通常是特定的数值,这就是智能体在动作选择过程中想要最大化的目标。

在每个离散时刻t = 0,1,2,3,…,(会有连续的情况), 智能体和环境都发生了交互。 S t ∈ S S_t∈S St∈S,选择一个动作, A t ∈ A ( s ) A_t∈A(s) At∈A(s)。然后在下一时刻,作为其动作的结果,智能体接收到一个数值化, R t + 1 ∈ R R_{t+1}∈R Rt+1∈R,然后进入一个新的状态 S t + 1 S_{t+1} St+1。最后MDP和智能体共同给出了序列或者说轨迹。 S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , A 2 , R 3 , . . . S_0,A_0,R_1,S_1,A_1,R_2,A_2,R_3,... S0,A0,R1,S1,A1,R2,A2,R3,...
在有限MDP中,状态、动作和收益的集合(S、A和R)都只有有限个元素。在这种情况下,随机变量 R t R_t Rt和 S t S_t St具有定义明确的离散概率分布,并且只依赖于前继状态和动作,换言之,给定前继状态和动作的值时, s ′ ∈ S s'∈S s′∈S和 r ∈ R r∈R r∈R,在t时刻出现的概率是

对于任意 s ′ , s ∈ S , r ∈ R s',s∈S,r∈R s′,s∈S,r∈R,以及 a ∈ A ( s ) a∈A(s) a∈A(s)。函数p定义了MDP的动态特性。动态函数 p : S ∗ R ∗ S ∗ A − > [ 0 , 1 ] p:S*R*S*A->[0,1] p:S∗R∗S<

本文详细介绍了有限马尔可夫决策过程(MDP)的概念,包括状态、动作、环境、收益和动态特性。MDP是强化学习的基础,其中智能体通过与环境的交互学习最大化长期收益。它涉及到策略、价值函数和最优策略的计算,以及分幕式和持续性任务的处理。文中以GridWorld问题为例,展示了如何计算状态-价值函数和最优状态-价值函数。
最低0.47元/天 解锁文章
7640

被折叠的 条评论
为什么被折叠?



