ADP&RL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem

最新推荐文章于 2025-10-27 13:11:06 发布

原创

最新推荐文章于 2025-10-27 13:11:06 发布 · 1.4k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#动态规划 #算法 #强化学习 #马尔科夫决策过程

2. Stochastic Finite Horizon Problem

在这一节中主要介绍了随机DP算法来解决不确定性下的有限地范围问题，如Denition 1.4所述，它被表述为一个组合优化问题。众所周知，由于组合爆炸，它是一个极其困难的问题。为了从结构上缓解这种极端的复杂性，一种方法是对所有决策规则的空间进行建模，这样就可以在一些方便的搜索空间，即策略空间中有效地解决这个问题。

Review

Definition 1.4 有限范围的随机顺序决策(Stochastic Sequential decision making with finite horizon).
给定一个如公式（1.2）的离散时间动态系统，一个有限范围SDM问题旨在为任意 $x0∈X0x_0\in\mathcal{X}_0$ ，找到一个行动序列 $π∈U0×...×UN−1\pi\in\mathcal{U}_0\times ... \times \mathcal{U}_{N-1}$ ，这样就可以解决以下最小化问题

$\min _{\pi} \mathbb{E}_{p(w)}[g_N(x_N) + \sum_{k=0}^{N-1}g_k(x_k,u_k, w_k)] \tag{1.6}$

以上定义了组合优化问题（combinatorial optimisation problem），但是同时会造成组合爆炸问题（combinatorial explosion）。为了减少这种复杂性，一种方法是对所有决策规则空间建模。

可以看到，一旦Definition 1.4中给出的随机有限范围问题的解决方案被确定下来，它就对任意状态 $x - k$ 有一个明确的动作分配 $u_k$ 。这类分配的集合被称为确定性的历史无关策略。

Definition 2.1 确定性的历史无关策略(Deterministic History-independent Policy).
确定性的历史无关策略，也被称为确定性的马尔科夫策略( deterministic Markov Policy)，对于所有 $k = 0, 1, . . ., N - 1$ 它是一个只基于状态 $x_k$ 决策规则, 即
$πk:Xk→Uk,xk→uk(2.1)\pi_k :\mathcal{X}_k \to \mathcal{U}_k, x_k \to u_k \tag{2.1}$

Definition 2.2 有限范围的尾部子问题 (Tail subproblems of a finite horizon problem).
给定一个如公式（1.2）的离散时间动态系统，在每个阶段 $\ldots, N-1$ ，随机有限水平问题的第 $k$ 个尾部子问题旨在为任何 $xk∈Xkx_{k} \in \mathcal{X}_{k}$ 找到行动序列 $uk,uk+1,…,uN−1}∈Uk×…×UN−1\mu_{k}:=\left\{u_{k}, u_{k+1}, \ldots, u_{N-1}\right\} \in \mathcal{U}_{k} \times \ldots \times \mathcal{U}_{N-1}$ ，这样就解决了以下最小化问题
$min⁡μkEp(w~k)[gN(xN)+∑t=kN−1gt(xt,ut,wt)](2.2)\min _{\mu_{k}} \mathbb{E}_{p\left(\widetilde{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, u_{t}, w_{t}\right)\right] \tag{2.2}$
显然，对于所有定义，如策略的总成本函数，最佳成本函数，和最佳策略，都对于尾部子问题有效。特别的，对于一个不稳定的策略（non-stationary policy） $π0,π1,…,πN−1}\tilde{\pi}_{0}:=\left\{\pi_{0}, \pi_{1}, \ldots, \pi_{N-1}\right\}$ 及其尾部策略 $πk,…,πN−1}\widetilde{\pi}_{k}:=\left\{\pi_{k}, \ldots, \pi_{N-1}\right\}$ ，总的成本函数 $Jkπ~kJ_{k}^{\widetilde{\pi}_{k}}$ 定义为：

$Jkπ~k(xk)=Ep(w~k)[gN(xN)+∑t=kN−1gt(xt,πt(xt),wt)](2.3)J_{k}^{\widetilde{\pi}_{k}}\left(x_{k}\right)=\mathbb{E}_{p\left(\widetilde{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right] \tag{2.3}$

最佳成本函数 $J_{k}^{*}$ 定义为
$Jk∗(xk)=min⁡μkEp(w~k)[gN(xN)+∑t=kN−1gt(xt,ut,wt)](2.4)J_{k}^{*}\left(x_{k}\right)=\min _{\mu_{k}} \mathbb{E}_{p\left(\widetilde{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, u_{t}, w_{t}\right)\right] \tag{2.4}$

2.1 Stochastic DP

Proposition 2.1 有限范围的贝尔曼方程( Bellman equation of finite horizon problems)

给定一个随机有限范围问题和策略 $π0,π1,...πN−1}\tilde{\pi}_0:=\{\pi_0, \pi_1, ... \pi_{N-1}\}$ 。我们定义 $π0,π1,...πN−1}\tilde{\pi}_k:=\{\pi_0, \pi_1, ... \pi_{N-1}\}$ 从状态 $k$ 截断的尾部策略， $k = 1, . ., N - 1$ , 然后有总的成本函数（total cost function）在任意状态 $xk∈Xkx_k \in \mathcal{X}_k$ 适用于以下方程
$Jkπ~k(xk)=Ep(wk)[gk(xk,πk(xk),wk)+Jk+1π~k+1(fk(xk,πk(xk),wk))](2.5)J_{k}^{\tilde{\pi}_{k}}\left(x_{k}\right)=\mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+J_{k+1}^{\widetilde{\pi}_{k+1}}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right] \tag{2.5}$

证明：我们定义 $xk,…,xN}∈Xk×…×XN\chi_{k}:=\left\{x_{k}, \ldots, x_{N}\right\} \in \mathcal{X}_{k} \times \ldots \times \mathcal{X}_{N}$ 。回顾尾部问题的总成本函数，我们在 $k$ 阶段推导出

$Jkπˉk(xk):=Ep(wˉk)[gN(xN)+∑t=kN−1gt(xt,πt(xt),wt)]=Ep(wˉk)[gk(xk,πk(xk),wk)+gN(xN)+∑t=k+1N−1gt(xt,πt(xt),wt)]=Ep(wk)[gk(xk,πk(xk),wk)+Ep(wˉk+1)[gN(xN)+∑t=k+1N−1gt(xt,πt(xt),wt)]]=Ep(wk)[gk(xk,πk(xk),wk)+Jk+1πˉk+1(fk(xk,πk(xk),wk))],(2.6)\begin{aligned} J_{k}^{\bar{\pi}_{k}}\left(x_{k}\right): &=\mathbb{E}_{p\left(\bar{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right] \\ &=\mathbb{E}_{p\left(\bar{w}_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+g_{N}\left(x_{N}\right)+\sum_{t=k+1}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right] \\ &=\mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+\mathbb{E}_{p\left(\bar{w}_{k+1}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k+1}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right]\right] \\ &=\mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right], \end{aligned} \tag{2.6}$

其中，公式（2.6b）中的第一个等式来自于这样的假设：所有的干扰 $w_k$ 是统计上是独立的。因此，该结果得到了结论。

这是一个简单而有趣的属性。也就是说，对于一个给定的非稳态策略，某阶段的总成本函数可以只用紧接着后面阶段的信息或总成本函数来计算。那么，这样的属性对于最优总成本函数是否也是成立的。我们提出以下引理

Lemma 2.1. 给定一个随机的有限范围问题，如定义1.4和一个策略 $π0,π1,...πN−1}\tilde{\pi}_0:=\{\pi_0, \pi_1, ... \pi_{N-1}\}$ ，我们定义 $π0,π1,...πN−1}\tilde{\pi}_k:=\{\pi_0, \pi_1, ... \pi_{N-1}\}$ 从状态 $k$ 截断的尾部策略， $k = 1, . ., N - 1$ , 对于所有状态动作对 $x_k, u_k)$ 我们有如下等式

$min⁡πˉk+1Ep(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]=Ep(wk)[Jk+1∗(fk(xk,uk,wk))](2.7)\min _{\bar{\pi}_{k+1}} \mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right]=\mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{*}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \tag{2.7}$