【强化学习】有限马尔科夫模型

原创

已于 2022-08-11 11:55:23 修改 · 1.6k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #python

于 2021-06-07 15:30:22 首次发布

本文详细介绍了有限马尔可夫决策过程（MDP）的概念，包括状态、动作、环境、收益和动态特性。MDP是强化学习的基础，其中智能体通过与环境的交互学习最大化长期收益。它涉及到策略、价值函数和最优策略的计算，以及分幕式和持续性任务的处理。文中以GridWorld问题为例，展示了如何计算状态-价值函数和最优状态-价值函数。

有限马尔可夫决策过程（有限MDP问题）既涉及“评估性反馈”，又涉及“发散联想”，即在不同情境下选择不同的动作。MDP是序列决策的经典形式化表达，其动作不仅影响当前的即时收益，还影响后续的情境（又称状态）以及未来的收益。因此，MDP涉及了延迟收益，由此也就有了在当前收益和延迟收益之间权衡的需求。

在赌博机问题中，我们估计了每个动作a的价值 $q_*(a)$ ，而在MDP中，每个动作 $a$ 在每个状态s中的价值 $q_*(s,a)$ ，或者估计给定最有动作下的每个状态的价值 $v_*(s)$ 。

“智能体-环境”交互接口

MDP是一种通过交互式学习来实现目标的理论框架。进行学习及实施决策的机器被称为智能体（agent）。与之相互作用的事物都被称为环境（environment）。事物之间持续交互，智能体选择动作，环境对这些动作做出响应，并向智能体呈现出新的状态。而环境也会产生收益，通常是特定的数值，这就是智能体在动作选择过程中想要最大化的目标。
在这里插入图片描述
在每个离散时刻t = 0,1,2,3,…,（会有连续的情况），智能体和环境都发生了交互。 $S_t∈S$ ，选择一个动作， $A_t∈A(s)$ 。然后在下一时刻，作为其动作的结果，智能体接收到一个数值化， $R_{t+1}∈R$ ，然后进入一个新的状态 $S_{t+1}$ 。最后MDP和智能体共同给出了序列或者说轨迹。 $S_0,A_0,R_1,S_1,A_1,R_2,A_2,R_3,...$
在有限MDP中，状态、动作和收益的集合(S、A和R)都只有有限个元素。在这种情况下，随机变量 $R_t$ 和 $S_t$ 具有定义明确的离散概率分布，并且只依赖于前继状态和动作，换言之，给定前继状态和动作的值时， $s^{'} \in S$ 和 $r \in R$ ，在t时刻出现的概率是
在这里插入图片描述
对于任意 $s^{'}, s \in S ， r \in R$ ，以及 $a \in A (s)$ 。函数p定义了MDP的动态特性。动态函数 $p : S * R * S <$