ADP&RL - 近似动态规划和强化学习 - Note 1

本文链接：https://blog.youkuaiyun.com/qq_37266917/article/details/120985105

1. Intorduction

Abbreviations Declaration

SDM: sequential decision making 顺序决策
DP: Dynamic Programming 动态规划
MDP: Markov Decision Process 马尔科夫决策过程

这是在Quora上对动态规划(DP)说明的极好的例子

writes down “1+1+1+1+1+1+1+1 =” on a sheet of paper
“What’s that equal to?”
counting “Eight!”
writes down another “1+” on the left
“What about that?”
quickly “Nine!”
“How’d you know it was nine so fast?”
“You just added one more”
"So you didn’t need to recount because you remembered there were eight! Dynamic Programming is just a fancy way to say ‘remembering stuff to save time later’ "

这一部分是对被称为 memorization部分的的解释。

1.1 Decision making 决策

决策是人类或任何生物为了维持生存和存在而进行的最基本的活动。作为一个生存的决策者，他们在一个复杂的、未知的、不可预测的、不断变化的环境中不断遇到各种各样的挑战。为了应对这些挑战，应在评估情况或环境变化后作出相应的决定。可以说，做出正确决定的能力不是与生俱来的，但幸运的是，他们可以通过学习环境经验的过程获得。当然，获得这种学习能力往往伴随着一定的成本。也就是说，他们必须通过尝试各种决策，包括错误的决策来学习正确的决策，以对环境做出反应，接受环境的反馈，并在未来的决策中更新自己的策略。
例子， AlphaGo, Autonomous Driving

1.2 Modelling Sequential Decision Making

Definition 1.2 (Machine learning 机器学习).
机器学习是一个计算机程序，它 “关于某类任务 $\mathcal{T}$ ,从经验 $\mathcal{E}$ 中学习。它在 $\mathcal{T}$ 中的任务表现，由性能测量 $\mathcal{P}$ 度量，随着经验 $\mathcal{E}$ 的增加而提高”。

$\mathcal{X}$ ：状态空间，描述环境中所有情况的集合。
$\mathcal{U}$ ：可接受行动的集合。
$\mathcal{X}_k, \mathcal{U}_k$ : 初始时间点之后的第 $k$ 个状态或阶段的可接受的状态空间和行动空间。

Definition 1.3 历史（history ）或轨迹（trajectory ）被定义为环境的状态和智能体的交互而产生的行动的序列，即。
$:=(x_0,u_0,...,x_{N-1},u_{N-1},x_N) \in \mathcal{X}_0 \times \mathcal{U}_0 \times ... \times\mathcal{U}_{N-1} \times\mathcal{X}_N \tag{1.1}$
其中，
$N$ : 交互的范围（horizon of interaction）

而当 范围（horizon ） 是有限的，相应的SDM问题被称为有限范围问题（finite horizon problem） 或RL背景下的事件问题（episodic problem）。

为了使状态转换问题更具有可操作性，我们需要建立一个系统演化的模型 $(x_k, u_k) \to x_{k+1}$ 。在一个状态 $k$ ，环境和智能体之间的交互被描述为以下离散时间动态系统

$x_{k+1} = f_k(x_k, u_k, w_k), \text{for} \ k = 0,..., N-1 \tag{1.2}$

$w_k \in \mathcal{W}_k$ 表示阶段 $k$ 的扰动(perturbation) 或不确定性(uncertainty) 。

在状态 $k$ 的扰动可以由条件概率 $p(w_k|x_k, u_k)$ 驱动，而扰动往往要与历史无关，即 $p(w_k)$ 。我们用 $h$ 来表示轨迹或历史。在每个决策状态中，需要对轨迹 $h$ 进行适当的评估，以促进下一次决策。

Assumption 1.1 (Reinforcement hypothesis 强化假设).智能行为源于个人的行为，该行为寻求最大化其从环境中获得的奖励的积累。

具体来说，对于一个交互的基本部分（ $x_k, u_k, x_{k+1}$ ）来说，我们可以构建一个实值评价，即对于 $k = 0, . . ., N - 1$ 来说
$g_k= \mathcal{X}_k \times \mathcal{U}_k \times \mathcal{W}_k \to \mathbb{R},\\ (x_k, u_k, w_k) \to g_k(x_k, u_k, w_k). \tag{1.3}$

这是一个局部评估函数，对于一个基本的转换来说也被称为局部"成本去向函数（cost-to-go function） "，或者在RL文献中被称为 奖励函数（reward function）。

Remark 1.1 （Cost function vs. reward function 成本函数 vs. 奖励函数）
DP和RL的区别可以从成本函数的选择来看。DP中的成本函数通常是客观地预先确定的。但在RL中，成本函数更多的是由解决方案提供者或工程师手动设计的。

使用（1.3）中定义的基本评估和强化假设，我们可以定义整个轨迹的评估，其中包括所有的局部转换，即
$G(h):=g_N(x_N) + \sum_{k=0}^{N-1}g_k(x_k,u_k, w_k) \tag{1.4}$

其中 $g_N(x_N)$ 定义为在最终状态 $N$ 的的成本函数。为了使这种评估具有可比性，通常假设成本函数具有边界性。

Assumption 1.2 （Bounded cost function 有边界的成本函数）

成本函数 $g_k(x_k, u_k, w_k)$ 被假设为有边界, i.e., $|g_k(x_k, u_k, w_k)| < \infin \text{ for all } k = 0, ..., N-1$

用 $w :=[w_0, w_1, ... w_{N-1}]$ 表示整个范围上的扰动，用 $p (w)$ 表示 $w$ 的概率密度函数。因此，从一个给定的初始状态 $x_0\in \mathcal{X}_0$ 开始，跟随一连串的行动 $\pi:= {u_0, u_1, ..., u_{N-1}} \in \mathcal{U}_0 \times ... \times\mathcal{U}_{N-1}$ ，期望为

$J^\pi(x_0) := \mathbb{E}_{p(w)}[g_N(x_N) + \sum_{k=0}^{N-1}g_k(x_k,u_k, w_k)] \tag{1.5}$

在行动序列 $\pi$ 下，可以给出总成本函数。而SDM的目标是找到一个行动序列 $\pi$ ，使任何状态 $x_0$ 的总成本函数最小。

Definition 1.4 有限范围的随机顺序决策(Stochastic Sequential decision making with finite horizon).

给定一个如公式（1.2）的离散时间动态系统，一个有限范围SDM问题旨在为任意 $x_0\in\mathcal{X}_0$ ，找到一个行动序列 $\pi\in\mathcal{U}_0\times ... \times \mathcal{U}_{N-1}$ ，这样就可以解决以下最小化问题

$\min _{\pi} \mathbb{E}_{p(w)}[g_N(x_N) + \sum_{k=0}^{N-1}g_k(x_k,u_k, w_k)] \tag{1.6}$

请注意，SDM问题的解决方案是一系列依赖于初始状态 $x_0\in \mathcal{X}_0$ 的行动序列。由于状态空间和行动空间都是有限的，很明显，可能行动的总数也是有限的。而成本 $g_k$ 的有界性仅仅表明问题的全局最小值的存在。将 $\pi^*$ 作为上述优化问题的解，并将 $J^*(x_0) := J^{\pi^*}(x_0)$ 作为所有状态 $x_0 在 \mathcal{X}_0$ 中的最优总成本函数。

1.3 Deterministic Finite Horizon Problem 确定性有限范围问题

环境和智能体之间的交互被描述为以下离散时间动态系统
$x_{k+1} = f_k(x_k, u_k) \text{ for all }k = 0, ... N-1 \tag{1.7}$
然后，我们表示任意初始状态 $x_0 \in \mathcal{X}_0$ 在一连串行动 $u_0, ...,u_{N-1}$ 之后的总成本函数
$J_0(x_0;u_0, ..., u_{N-1}): = g_N(x_N) + \sum_{k=0}^{N-1}g_k(x_k,u_k) \tag{1.8}$
因为系统是完全确定性的，它与对每一个状态进行映射是相同的，
$\pi_k: \mathcal{X}_k \to\mathcal{U}_k, x_k \to u_k \tag{1.9}$
这就被称为策略（policy）。稍微借用下符号，我们定义 $\pi_0(x_0) = (u_0, u_1, ..., u_{N-1})$ ,有在策略 $\pi_0$ 下的成本函数 $J_0^{\pi_0}$ ,

$J_0^{\pi_0}(x_0) = J_0(x_0; u_0, ..., u_{N-1}). \tag{1.10}$

然后，问题是找到一个行动序列，使所有初始状态为 $x_0$ 的成本函数最小，即

$J_0^{*}(x_0) = \min_{u_k \in U_k(x_k), k = 0, ..., N-1} J_0(x_0; u_0, ..., u_{N-1}). \tag{1.11}$

其中 $J_0^{*}(x_0)$ 被称为最佳总成本函数。我们把相应的的最优行动序列表示为 $\pi_0^*(x_0)$ ，即：
$\pi_0^*(x_0) = (u^*_0, u^*_1, ..., u^*_{N-1}) \in \argmin_{u_k \in U_k(x_k), k = 0, ..., N-1} J_0(x_0; u_0, ..., u_{N-1}) \tag{1.12}$

这样一连串的最佳行动被称为问题的最佳策略。根据定义。显而易见的是
$J^*_0(x_0) = J_0^{\pi_0^*}(x_0) \tag{1.13}$
因为最佳策略下的总成本函数一定是最佳成本函数。

1.3.1 Principle of Optimality

对于每一个确定性有限范围问题，我们可以从第 $k$ 阶段得出一个前向截断的尾部子问题为
$\min_{u_t \in U_t(x_t), t=k, ... ,N-1} J_k(x_k;u_k,..., u_{N-1}) \tag{1.14}$

其中最佳总成本函数及其相关策略以同样的方式表示。然后，最初的SDM问题和它的尾部子问题之间的关系被描述为最优化原则，它在Bellman的论文“Dynamic Programming”中被表述为

“Any optimal policy has the property that whatever the initial state and initial decision are, the remaining decisions must constitute an optimal policy with regard to the state resulting from the first decision.”
“任何最优化策略都具有这样的特性：无论初始状态和初始决策是什么，其余的决策必须构成关于第一个决定所产生的状态的最优策略。”

Theorem 1.1 最优化原则（Principle of Optimality)
给定一个有限范围的确定性问题，使 $\pi_0^*(x_0) = (u^*_0,u^*_1, ..., u^*_{N-1})$ 作为最佳策略，然后对于 $k = 1, . . ., N - 1$ ，任何向前截断策略(forward truncated policy) $\pi^*_k(x_k) = (u_k^*, ..., u_{N-1}^*)$ 对于相应的尾部子问题是最优的。

证明： 我们通过矛盾法（contradiction）证明这个结果。假设对于在 $k$ 状态的尾部子问题，存在一个最优策略 $\tilde{\pi}_k^*(x_k) = (\tilde{\pi}_k, ...,\tilde{\pi}_{N-1})$ 优于 $\pi_k^*$ ，即，对于一些 $x_k$ 有 $J_k^{\tilde{\pi}^*_k}(x_k) < J_k^{\pi^*_k}(x_k)$ 。根据成本函数的定义，我们得到
$\begin{aligned} J_0^{\pi^*_0}(x_0) & = g_N(x_N) + \sum_{t=0}^{N-1}g_t(x_t, u^*_t) \\ & = g_N(x_N) + \sum_{t=k}^{N-1}g_t(x_t, u^*_t) + \sum_{t=0}^{k-1}g_t(x_t, u^*_t) \\ & > g_N(x_N) + \sum_{t=k}^{N-1}g_t(x_t, \tilde{u}^*_t) + \sum_{t=0}^{k-1}g_t(x_t, \tilde{u}^*_t) \end{aligned} \tag{1.15}$
显然，组成的策略( $u_0^*,...,u_{k-1}^*,\tilde{u}^*_k,..., \tilde{u}^*_{N-1}$ )是比最优策略 $\pi^*_0$ 更好的策略。这个结果就直接与预设矛盾。

1.3.2 确定性的动态规划

Theorem 1.2 确定性的动态规划 (Deterministic Dynamic Programming)
给定一个有限范围的确定性问题，有以下算法，即
$J_N(x_N) = g_N(x_N) \text{ for all } x_N \in \mathcal{X}_N \tag{1.16}$
并倒推为 $\text{ for all } x_N \in \mathcal{X}_N$
$J_k(x_k) = \min_{u_k \in \mathcal{U}_k(x_k)}(g_k(x_k, u_k) + J_{k+1}(f_k(x_k, u_k)))\tag{1.17}$
$J_0$ 即为最佳成本函数。

证明： 我们通过 归纳法（induction）证明这个结果。从最终状态 $N$ 开始，对于所有的 $x_N \in \mathcal{X}_N$ ，以下是易得的
$J^*_N(x_N) = g_N(x_N) = J_N(x_N) \tag{1.18}$

我们假设对于 $l = N - 1, . . ., K + 1$ ，由公式（1.17）产生的成本函数 $J_l$ 对于 $l$ 阶段的尾部问题是最优的，即对于所有 $x_l \in \mathcal{X}_l$ , 有
$J_l(x_l) = J_l^*(x_l) := \min_{u_t \in \mathcal{U}_t(x_t), t=l,...,N-1}(g_N(x_N) + \sum_{t=l}^{N-1}g_t(x_t, u_t)) \tag{1.19}$

那么对于状态 $k$ ，根据结构，我们有
$\begin{aligned} J_l^*(x_l) & := \min_{u_k \in \mathcal{U}_k(x_k)}(g_k(x_k, u_k) + J_{k+1}(f_k(x_k, u_k))) \\ & = \min_{u_k \in \mathcal{U}_k(x_k)}(g_k(x_k, u_k) + J^*_{k+1}(f_k(x_k, u_k))) \\ & = \min_{u_k \in \mathcal{U}_k(x_k)}(g_k(x_k, u_k) + \min_{u_k \in \mathcal{U}_k(x_k), t=k+1, ..., N-1}(g_N(x_N) + \sum_{t=k+1}^{N-1}g_t(x_t, u_t))) \\ &=\min_{u_k \in \mathcal{U}_k(x_k), t=k, ..., N-1}(g_N(x_N) + \sum_{t=k}^{N-1}g_t(x_t, u_t)) \\ &= J^*_k(x_k) \end{aligned} \tag{1.20}$
其中，公式（1.20b）中的第一个等式是由于归纳法的假设，第二个等式是由最佳成本函数 $J^*_{k+1}$ 的定义得出的。

在计算出所有尾部问题的最优成本函数 $J^*_k$ 后，可以通过以下方式直接提取出向前截断最优策略 $\pi_k^*$
$\pi_k^*(x_k) \in \argmin_{u_k \in \mathcal{U}_k(x_k) }(g_k(x_k, u_k) + J^*_{k+1}(f_k(x_k, u_k))) \tag{1.21}$