动态规划中的巴拿赫不动点定理
- 5. Banach Fixed Point Theorem in Dynamic Programming
-
- 5.1 巴拿赫不动点定理定理 (Banach fixed point theorem)
- 5.2 λ \lambda λ-几何平均贝尔曼算子 ( λ \lambda λ-geometrically averaged Bellman operator)
- 5.3 λ \lambda λ-策略迭代算法 ( λ \lambda λ-Policy Iteration Algorithm)
-
-
- Lemma 5.2 λ \lambda λ-级联的贝尔曼算子的单调性和恒定位移特性 (Monotonicity and constant shift of the λ \lambda λ-cascaded Bellman operator)
- Proposition 5.4 λ \lambda λ-级联的贝尔曼算子的压缩特性 (Contraction property of the λ \lambda λ-cascaded Bellman operator)
- Proposition 5.5 最优 λ \lambda λ-PI算法的收敛性 (Convergence of Optimistic λ \lambda λ-PI Algorithm)
-
- 5.4 实例
5. Banach Fixed Point Theorem in Dynamic Programming
如上两节所示,VI算法和PI算法都拥有各自的优势和劣势。具体来说,VI算法是一种简单的迭代算法,但它在总成本函数空间的收敛性方面可能是低效的。虽然PI算法在探索策略空间的有限性和在策略空间中达到更好的收敛性方面有一个很好的特性,但它仍然会受到精确策略评估的瓶颈影响。尽管OPI算法自然地连接了这两种算法,但它的性能是由有限策略评估的数量选择决定的。在本节中,我们旨在通过探索巴拿赫固定点定理的属性来缓解这种限制,并仍然保留简单和快速收敛的有希望的属性。
5.1 巴拿赫不动点定理定理 (Banach fixed point theorem)
首先,为了讨论的完整性,我们回顾一下最近提出的、证明压缩原理的另一种方法[19]。
定义 5.1 度量空间定义
度量空间是一有序对 ( X , d ) (\mathcal{X}, d) (X,d)
( X , d ) (\mathcal{X}, d) (X,d) 其中 X \mathcal{X} X是一个集合, d d d 是一个在 X \mathcal{X} X的度量, 即, 一个函数 d : X × X → R d: \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R} d:X×X→R, 对于所有 x , y , z ∈ X x, y, z \in \mathcal{X} x,y,z∈X, 以下关系成立:
-
d ( x , y ) = 0 ⟺ x = y d(x, y)=0 \Longleftrightarrow x=y d(x,y)=0⟺x=y 不可分者同一性原理 (identity of indiscernibles),
-
d ( x , y ) = d ( y , x ) d(x, y)=d(y, x) d(x,y)=d(y,x) 对称性 (symmetry)
-
d ( x , z ) ≤ d ( x , y ) + d ( y , z ) d(x, z) \leq d(x, y)+d(y, z) d(x,z)≤d(x,y)+d(y,z) 三角不等式 (triangle inequality).
定义 5.2 压缩映射
令 ( X , d ) (\mathcal{X}, d) (X,d)为一度量空间,映射关系 T : X → X \mathrm{T}: \mathcal{X} \rightarrow \mathcal{X} T:X→X被称为在 X \mathcal{X} X上的压缩映射,如果存在 γ ∈ [ 0 , 1 ) \gamma \in[0,1) γ∈[0,1), 使得
d ( T ( x ) , T ( y ) ) ≤ γ d ( x , y ) , for all x , y ∈ X (5.1) d(\mathrm{~T}(x), \mathrm{T}(y)) \leq \gamma d(x, y), \quad \text { for all } x, y \in \mathcal{X}\tag{5.1} d( T(x),T(y))≤γd(x,y), for all x,y∈X(5.1)
Lemma 5.1 基本压缩不等式 (Fundamental contraction inequality)
如果 T : X → X \mathrm{T}: \mathcal{X} \rightarrow \mathcal{X} T:X→X 是一个压缩常数为 γ \gamma γ的压缩映射,那么对于在 X \mathcal{X} X 的任意 x , y x, y x,y
d ( x , y ) ≤ 1 1 − γ ( d ( x , T ( x ) ) + d ( y , T ( y ) ) ) (5.2) d(x, y) \leq \frac{1}{1-\gamma}(d(x, \mathrm{~T}(x))+d(y, \mathrm{~T}(y)))\tag{5.2} d(x,y)≤1−γ1(d(x, T(x))+d(y, T(y)))(5.2)
Proof
根据三角不等式和 T \mathrm{T} T是一个压缩映射的事实,我们有
d ( x , y ) ≤ d ( x , T ( x ) ) + d ( T ( x ) , T ( y ) ) + d ( T ( y ) , y ) ≤ d ( x , T ( x ) ) + γ d ( x , y ) + d ( T ( y ) , y ) (5.3) \begin{aligned} d(x, y) & \leq d(x, \mathrm{~T}(x))+d(\mathrm{~T}(x), \mathrm{T}(y))+d(\mathrm{~T}(y), y) \\ & \leq d(x, \mathrm{~T}(x))+\gamma d(x, y)+d(\mathrm{~T}(y), y) \end{aligned}\tag{5.3} d(x,y)≤d(x, T(x))+d( T(x),T(y))+d( T(y),y)≤d(x, T(x))+γd(x,y)+d( T(y),y)(5.3)
即证。
Corollary 5.1 压缩映射的固定点
一个压缩映射 T \mathrm{T} T最多有一个固定点。
Proof
让我们假设压缩映射 T T T有一个以上的固定点,例如 x x x和 y y y, d ( x , y ) = 0. d(x, y)=0. d(x,y)=0. 根据 T \mathrm{T} T的固定点定义,我们得到 d ( x , T ( x ) ) = 0 d(x, \mathrm{~T}(x))=0 d(x, T(x))=0 和 d ( y , T ( y ) ) = 0 d(y, \mathrm{~T}(y))=0 d(y, T(y))=0。根据Lemma 5.1,我们有 d ( x , y ) = 0. d(x, y)=0. d(x,y)=0. 通过矛盾法,即证。
Proposition 5.1 柯西序列
如果 T \mathrm{T} T是一个压缩,那么对于任何 x ∈ X x\in \mathcal{X} x∈X, T k ( x ) \mathrm{T}^{k}(x) Tk(x)下 x x x的迭代序列 T \mathrm{T} T是一个柯西序列 (Cauchy sequence)。
Proof
让 x 1 = T k ( x ) x_{1}=\mathrm{T}^{k}(x) x1=Tk(x) 和 x 2 = T l ( x ) . x_{2}=\mathrm{T}^{l}(x). x2=Tl(x). 那么,根据基本压缩不等式,我们有
d ( T k ( x ) , T l ( x ) ) ≤ 1 1 − γ ( d ( T k ( x ) , T k + 1 ( x ) ) + d ( T l ( x ) , T l + 1 ( x ) ) ) ≤ γ k + γ l 1 − γ ( d ( x , T ( x ) ) + d ( x , T ( x ) ) ) (5.4) \begin{aligned} d\left(\mathrm{~T}^{k}(x), \mathrm{T}^{l}(x)\right) & \leq \frac{1}{1-\gamma}\left(d\left(\mathrm{~T}^{k}(x), \mathrm{T}^{k+1}(x)\right)+d\left(\mathrm{~T}^{l}(x), \mathrm{T}^{l+1}(x)\right)\right) \\ & \leq \frac{\gamma^{k}+\gamma^{l}}{1-\gamma}(d(x, \mathrm{~T}(x))+d(x, \mathrm{~T}(x))) \end{aligned}\tag{5.4} d( Tk(x),Tl(x))≤1−γ1(d( Tk(x),Tk+1(x))+d( Tl(x),Tl+1(x)))≤1−γγk+γl(d(x, T(x))+d(x, T(x)))(5.4)
显然,当 k k k和 l l l趋于无穷大时, d ( T k ( x ) , T l ( x ) ) d\left(\mathrm{~T}^{k}(x), \mathrm{T}^{l}(x)\right) d( Tk(x),Tl(x))的距离会归于零。最后,我们准备提出经典的巴拿赫不动点定理(Banach fixed-point theorem)。
Theorem 5.1 巴拿赫不动点定理 (The Banach fixed-point theorem)
让 ( X , d ) (\mathcal{X}, d) (X,d)是一个非空的完整度量空间,有一个压缩映射 T \mathrm{T} T。那么 T \mathrm{T} T就有一个唯一的固定点 x ∗ x^{*} x∗。即 T ( x ∗ ) = x ∗ \mathrm{T}\left(x^{*}\right)=x^{*} T(x∗)=x∗。此外, x ∗ x^{*} x∗可以通过迭代来找到。
x n + 1 = T ( x n ) , with arbitrary x 0 ∈ X (5.5) x_{n+1}=\mathrm{T}\left(x_{n}\right), \quad \text { with arbitrary } x_{0} \in \mathcal{X}\tag{5.5} xn+1=T(xn), with arbitrary x0∈X(5.5)
也就是说,当 n → ∞ n\rightarrow\infty n→∞时,有 x n → x ∗ x_{n} \rightarrow x^{*} xn→x∗ 。
Proof
直接的,我们有
d ( T k ( x ) , x ∗ ) ≤ γ k 1 − γ d ( x , T ( x ) ) (5.6) d\left(\mathrm{~T}^{k}(x), x^{*}\right) \leq \frac{\gamma^{k}}{1-\gamma} d(x, \mathrm{~T}(x))\tag{5.6} d( Tk(x),x∗)≤1−γγkd(x, T(x))(5.6)
即, k → ∞ k \rightarrow \infty k→∞ 导致 T k ( x ) \mathrm{T}^{k}(x) Tk(x)收敛到 x ∗ x^{*} x∗.
5.2 λ \lambda λ-几何平均贝尔曼算子 ( λ \lambda λ-geometrically averaged Bellman operator)
利用OPI算法的一个可能的方法是将各种OPI算法与不同步骤的策略评估集合起来。具体来说,我们可以根据 E q . ( 4.33 ) \mathrm{Eq}.(4.33) Eq.(4.33)中定义的 m m m步骤贝尔曼算子的集合构建一个几何平均贝尔曼算子。
T π , λ m : R K → R K , J ↦ 1 ∑ i = 1 m λ i − 1 ∑ i = 1 m λ i − 1 T π i J = 1 − λ 1 − λ m ∑ i = 1 m λ i − 1 T π i J (5.7) \begin{aligned} \mathrm{T}_{\pi, \lambda}^{m}: \mathbb{R}^{K} \rightarrow \mathbb{R}^{K}, \quad J & \mapsto \frac{1}{\sum_{i=1}^{m} \lambda^{i-1}} \sum_{i=1}^{m} \lambda^{i-1} \mathrm{~T}_{\pi}^{i} J \\ &=\frac{1-\lambda}{1-\lambda^{m}} \sum_{i=1}^{m} \lambda^{i-1} \mathrm{~T}_{\pi}^{i} J \end{aligned}\tag{5.7} Tπ,λm:RK→RK,J↦∑i=1mλi−11i=1∑mλi−1 TπiJ=1−λm1−λi=1∑mλi−1 TπiJ(5.7)
很容易看出,总成本函数 J π J_{\pi} Jπ是所有 m m m步贝尔曼算子的唯一固定点。它的压缩特性在下面的结果中得到了描述。
Proposition 5.2 m m m步的几何平均贝尔曼算子的压缩特性 (Contraction property of m m m-step geometrically averaged Bellman operator)
给定无限范围的 M D P { X , U , p , g , γ } M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\} MDP{ X,U,p,g,γ}, 令 J , J ′ ∈ R K J, J^{\prime} \in \mathbb{R}^{K} J,J′∈RK, m − m- m−步截断的、几何平均的贝尔曼算子是一个关于无穷范数的压缩映射,即:
∥ T π , λ m J − T π , λ m J ′ ∥ ∞ ≤ γ ( 1 − λ m γ m ) ( 1 − λ ) ( 1 − λ γ ) ( 1 − λ m ) ∥ J − J ′ ∥ ∞ (5.8) \left\|\mathrm{T}_{\pi, \lambda}^{m} J-\mathrm{T}_{\pi, \lambda}^{m} J^{\prime}\right\|_{\infty} \leq \frac{\gamma\left(1-\lambda^{m} \gamma^{m}\right)(1-\lambda)}{(1-\lambda \gamma)\left(1-\lambda^{m}\right)}\left\|J-J^{\prime}\right\|_{\infty}\tag{5.8} ∥∥Tπ,λmJ−Tπ,λmJ′∥∥∞≤(1−λγ)(1−λm)γ(1−λmγm)(1−λ)∥J−J′∥∞(5.8)
Proof
根据无穷范数的三角不等式,可以得出
∥ T π , λ m J − T π , λ m J ′ ∥ ∞ = 1 − λ 1 − λ m ∥ ∑ i = 1 m λ i − 1 ( T π i J − T π i J ′ ) ∥ ∞ ≤ 1 − λ 1 − λ m ( ∑ i = 1 m λ i − 1 ∥ T π i J − T π i J ′ ∥ ∞ ) ≤ 1 − λ 1 − λ m ( ∑ i = 1 m λ i − 1 γ i ∥ J − J ′ ∥ ∞ ) ≤ γ ( 1 − λ ) ( 1 − λ m γ m ) ( 1 − λ γ ) ( 1 − λ m ) ∥ J − J ′ ∥ ∞ (5.9) \begin{aligned} \left\|\mathrm{T}_{\pi, \lambda}^{m} J-\mathrm{T}_{\pi, \lambda}^{m} J^{\prime}\right\|_{\infty} &=\frac{1-\lambda}{1-\lambda^{m}}\left\|\sum_{i=1}^{m} \lambda^{i-1}\left(\mathrm{~T}_{\pi}^{i} J-\mathrm{T}_{\pi}^{i} J^{\prime}\right)\right\|_{\infty} \\ & \leq \frac{1-\lambda}{1-\lambda^{m}}\left(\sum_{i=1}^{m} \lambda^{i-1}\left\|\mathrm{~T}_{\pi}^{i} J-\mathrm{T}_{\pi}^{i} J^{\prime}\right\|_{\infty}\right) \\ & \leq \frac{1-\lambda}{1-\lambda^{m}}\left(\sum_{i=1}^{m} \lambda^{i-1} \gamma^{i}\left\|J-J^{\prime}\right\|_{\infty}\right) \\ & \leq \frac{\gamma(1-\lambda)\left(1-\lambda^{m} \gamma^{m}\right)}{(1-\lambda \gamma)\left(1-\lambda^{m}\right)}\left\|J-J^{\prime}\right\|_{\infty} \end{aligned}\tag{5.9} ∥∥Tπ,λmJ−Tπ,λmJ′∥∥∞=1−λm1−λ∥∥∥∥∥i=1∑mλi−1( Tπ
巴拿赫不动点定理在动态规划中的应用:优化策略迭代算法

本文探讨了巴拿赫不动点定理在动态规划中的应用,特别是如何通过λ-几何平均贝尔曼算子提升策略迭代算法的收敛速度。介绍了压缩映射、λ-级联贝尔曼算子及其收敛特性,以及在E-Bus电力调度问题中的实例演示。
最低0.47元/天 解锁文章





