ADP&RL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem

2. Stochastic Finite Horizon Problem

在这一节中主要介绍了随机DP算法来解决不确定性下的有限地范围问题,如Denition 1.4所述,它被表述为一个组合优化问题。众所周知,由于组合爆炸,它是一个极其困难的问题。为了从结构上缓解这种极端的复杂性,一种方法是对所有决策规则的空间进行建模,这样就可以在一些方便的搜索空间,即策略空间中有效地解决这个问题。

Review

Definition 1.4 有限范围的随机顺序决策(Stochastic Sequential decision making with finite horizon).
给定一个如公式(1.2)的离散时间动态系统,一个有限范围SDM问题旨在为任意 x 0 ∈ X 0 x_0\in\mathcal{X}_0 x0X0,找到一个行动序列 π ∈ U 0 × . . . × U N − 1 \pi\in\mathcal{U}_0\times ... \times \mathcal{U}_{N-1} πU0×...×UN1,这样就可以解决以下最小化问题

min ⁡ π E p ( w ) [ g N ( x N ) + ∑ k = 0 N − 1 g k ( x k , u k , w k ) ] (1.6) \min _{\pi} \mathbb{E}_{p(w)}[g_N(x_N) + \sum_{k=0}^{N-1}g_k(x_k,u_k, w_k)] \tag{1.6} πminEp(w)[gN(xN)+k=0N1gk(xk,uk,wk)](1.6)

以上定义了组合优化问题(combinatorial optimisation problem),但是同时会造成组合爆炸问题(combinatorial explosion)。为了减少这种复杂性,一种方法是对所有决策规则空间建模。

可以看到,一旦Definition 1.4中给出的随机有限范围问题的解决方案被确定下来,它就对任意状态 x − k x-k xk有一个明确的动作分配 u k u_k uk。这类分配的集合被称为确定性的历史无关策略。

Definition 2.1 确定性的历史无关策略(Deterministic History-independent Policy).
确定性的历史无关策略,也被称为确定性的马尔科夫策略( deterministic Markov Policy), 对于所有 k = 0 , 1 , . . . , N − 1 k = 0, 1, ..., N-1 k=0,1,...,N1 它是一个只基于状态 x k x_k xk决策规则, 即
π k : X k → U k , x k → u k (2.1) \pi_k :\mathcal{X}_k \to \mathcal{U}_k, x_k \to u_k \tag{2.1} πk:XkUk,xkuk(2.1)

Definition 2.2 有限范围的尾部子问题 (Tail subproblems of a finite horizon problem).
给定一个如公式(1.2)的离散时间动态系统,在每个阶段 k = 1 , 2 , … , N − 1 k=1,2, \ldots, N-1 k=1,2,,N1,随机有限水平问题的第 k k k个尾部子问题旨在为任何 x k ∈ X k x_{k} \in \mathcal{X}_{k} xkXk找到行动序列 μ k : = { u k , u k + 1 , … , u N − 1 } ∈ U k × … × U N − 1 \mu_{k}:=\left\{u_{k}, u_{k+1}, \ldots, u_{N-1}\right\} \in \mathcal{U}_{k} \times \ldots \times \mathcal{U}_{N-1} μk:={ uk,uk+1,,uN1}Uk××UN1 ,这样就解决了以下最小化问题
min ⁡ μ k E p ( w ~ k ) [ g N ( x N ) + ∑ t = k N − 1 g t ( x t , u t , w t ) ] (2.2) \min _{\mu_{k}} \mathbb{E}_{p\left(\widetilde{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, u_{t}, w_{t}\right)\right] \tag{2.2} μkminEp(w k)[gN(xN)+t=kN1gt(xt,ut,wt)](2.2)
显然, 对于所有定义, 如策略的总成本函数, 最佳成本函数, 和最佳策略, 都对于尾部子问题有效。 特别的,对于一个不稳定的策略(non-stationary policy) π ~ 0 : = { π 0 , π 1 , … , π N − 1 } \tilde{\pi}_{0}:=\left\{\pi_{0}, \pi_{1}, \ldots, \pi_{N-1}\right\} π~0:={ π0,π1,,πN1} 及其尾部策略 π ~ k : = { π k , … , π N − 1 } \widetilde{\pi}_{k}:=\left\{\pi_{k}, \ldots, \pi_{N-1}\right\} π k:={ πk,,πN1},总的成本函数 J k π ~ k J_{k}^{\widetilde{\pi}_{k}} Jkπ k定义为:

J k π ~ k ( x k ) = E p ( w ~ k ) [ g N ( x N ) + ∑ t = k N − 1 g t ( x t , π t ( x t ) , w t ) ] (2.3) J_{k}^{\widetilde{\pi}_{k}}\left(x_{k}\right)=\mathbb{E}_{p\left(\widetilde{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right] \tag{2.3} Jkπ k(xk)=Ep(w k)[gN(xN)+t=kN1gt(xt,πt(xt),wt)](2.3)

最佳成本函数 J k ∗ J_{k}^{*} Jk定义为
J k ∗ ( x k ) = min ⁡ μ k E p ( w ~ k ) [ g N ( x N ) + ∑ t = k N − 1 g t ( x t , u t , w t ) ] (2.4) J_{k}^{*}\left(x_{k}\right)=\min _{\mu_{k}} \mathbb{E}_{p\left(\widetilde{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, u_{t}, w_{t}\right)\right] \tag{2.4} Jk(xk)=μkminEp(w k)[gN(xN)+t=kN1gt(xt,ut,wt)](2.4)

2.1 Stochastic DP

Proposition 2.1 有限范围的贝尔曼方程( Bellman equation of finite horizon problems)

给定一个随机有限范围问题和策略 π ~ 0 : = { π 0 , π 1 , . . . π N − 1 } \tilde{\pi}_0:=\{\pi_0, \pi_1, ... \pi_{N-1}\} π~0:={ π0,π1,...πN1}。我们定义 π ~ k : = { π 0 , π 1 , . . . π N − 1 } \tilde{\pi}_k:=\{\pi_0, \pi_1, ... \pi_{N-1}\} π~k:={ π0,π1,...πN1}从状态 k k k截断的尾部策略, k = 1 , . . , N − 1 k = 1, .., N-1 k=1,..,N1, 然后有总的成本函数(total cost function)在任意状态 x k ∈ X k x_k \in \mathcal{X}_k xkXk适用于以下方程
J k π ~ k ( x k ) = E p ( w k ) [ g k ( x k , π k ( x k ) , w k ) + J k + 1 π ~ k + 1 ( f k ( x k , π k ( x k ) , w k ) ) ] (2.5) J_{k}^{\tilde{\pi}_{k}}\left(x_{k}\right)=\mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+J_{k+1}^{\widetilde{\pi}_{k+1}}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right] \tag{2.5} Jkπ~k(xk)=Ep(wk)[gk(xk,πk(xk),wk)+Jk+1π k+1(fk(xk,πk(xk),wk))](2.5)

证明:我们定义 χ k : = { x k , … , x N } ∈ X k × … × X N \chi_{k}:=\left\{x_{k}, \ldots, x_{N}\right\} \in \mathcal{X}_{k} \times \ldots \times \mathcal{X}_{N} χk:={ xk,,xN}Xk××XN。回顾尾部问题的总成本函数, 我们在 k k k阶段推导出

J k π ˉ k ( x k ) : = E p ( w ˉ k ) [ g N ( x N ) + ∑ t = k N − 1 g t ( x t , π t ( x t ) , w t ) ] = E p ( w ˉ k ) [ g k ( x k , π k ( x k ) , w k ) + g N ( x N ) + ∑ t = k + 1 N − 1 g t ( x t , π t ( x t ) , w t ) ] = E p ( w k ) [ g k ( x k , π k ( x k ) , w k ) + E p ( w ˉ k + 1 ) [ g N ( x N ) + ∑ t = k + 1 N − 1 g t ( x t , π t ( x t ) , w t ) ] ] = E p ( w k ) [ g k ( x k , π k ( x k ) , w k ) + J k + 1 π ˉ k + 1 ( f k ( x k , π k ( x k ) , w k ) ) ] , (2.6) \begin{aligned} J_{k}^{\bar{\pi}_{k}}\left(x_{k}\right): &=\mathbb{E}_{p\left(\bar{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right] \\ &=\mathbb{E}_{p\left(\bar{w}_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+g_{N}\left(x_{N}\right)+\sum_{t=k+1}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right] \\ &=\mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+\mathbb{E}_{p\left(\bar{w}_{k+1}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k+1}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right]\right] \\ &=\mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right], \end{aligned} \tag{2.6} Jkπˉk(xk):=Ep(wˉk)[gN(xN)+t=kN1gt(xt,πt(xt),wt)]=Ep(wˉk)[gk(xk,πk(xk),wk)+gN(xN)+t=k+1N1gt(xt,πt(xt),wt)]=Ep(wk)[gk(xk,πk(xk),wk)+Ep(wˉk+1)[gN(xN)+t=k+1N1gt(xt,πt(xt),wt)]]=Ep(wk)[gk(xk,πk(xk),wk)+Jk+1πˉk+1(fk(xk,πk(xk),wk))],(2.6)

其中,公式(2.6b)中的第一个等式来自于这样的假设:所有的干扰 w k w_k wk是统计上是独立的。因此,该结果得到了结论。

这是一个简单而有趣的属性。也就是说,对于一个给定的非稳态策略,某阶段的总成本函数可以只用紧接着后面阶段的信息或总成本函数来计算。那么,这样的属性对于最优总成本函数是否也是成立的。我们提出以下引理

Lemma 2.1. 给定一个随机的有限范围问题,如定义1.4和一个策略 π ~ 0 : = { π 0 , π 1 , . . . π N − 1 } \tilde{\pi}_0:=\{\pi_0, \pi_1, ... \pi_{N-1}\} π~0:={ π0,π1,...πN1},我们定义 π ~ k : = { π 0 , π 1 , . . . π N − 1 } \tilde{\pi}_k:=\{\pi_0, \pi_1, ... \pi_{N-1}\} π~k:={ π0,π1,...πN1}从状态 k k k截断的尾部策略, k = 1 , . . , N − 1 k = 1, .., N-1 k=1,..,N1, 对于所有状态动作对 ( x k , u k ) (x_k, u_k) (xk,uk)我们有如下等式

min ⁡ π ˉ k + 1 E p ( w k ) [ J k + 1 π ˉ k + 1 ( f k ( x k , u k , w k ) ) ] = E p ( w k ) [ J k + 1 ∗ ( f k ( x k , u k , w k ) ) ] (2.7) \min _{\bar{\pi}_{k+1}} \mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right]=\mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{*}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \tag{2.7} πˉk+1minEp(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]=Ep(wk)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Stan Fu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值