不动点理论在《A Distributional Perspective on Reinforcement Learning》上的应用

最新推荐文章于 2024-06-12 03:51:23 发布

原创

最新推荐文章于 2024-06-12 03:51:23 发布 · 1.9k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#RL

本文围绕Fixed point理论展开，先介绍其迭代算法，回顾收缩映射定义与不动点定理，通过线性方程组求解说明迭代过程。接着解析Distributional Bellman算法的不动点，对比传统与分布式Bellman方程，证明算子收缩性，给出pytorch实现流程，融合基础算法与深度学习。

Fixed point理论是 Banach Space 中重要的理论工具。它常被用来讨论某个空间解的存在性，并由此发展出通过迭代的方式进行问题求解的算法。在[1]中，Fixed Piont理论处于整个算法的核心位置，是以分布式Bellman方程代替期望值Bellman方程的理论基础。本文将分成两个部分浅析之：第一部分 Fixed Point的迭代算法介绍；第二部分 Distributional 算法的不动点解析。

一、Fixed Point的迭代算法

首先要回顾以下 Fixed Point 原理，首先要给出的是收缩映射（Contraction）的定义[2]。
Definition 4.13（原书【2】的编号，下同）
A function $f:X\to Y$ between metric spaces is called a contraction if there exists a real number $\alpha$ with $0\le \alpha \lt 1$ , such that :
$d_Y(f(x_1), f(x_2))\le \alpha d_X(x_1, x_2)$
[简析]
所谓收缩（Contraction），指的是映射 $f$ 的一个属性，映射前 $x_1,x_2\in X$ 的距离 $d_X(x_1, x_2)$ 大于映射后的距离 $d_Y(f(x_1), f(x_2))$ 。这里要注意的是，原像空间 $X$ 的测度定义可以与像空间 $Y$ 的测度定义不同。

如上定义，若原像空间 $X$ 与像空间 $Y$ 相同，而且测度定义不变，且 $X$ 是Banach 空间（即完备的赋范空间，Complete Normed Space），则有如下不动点定理：
Theorem 4.8 (Banach Fixed-Point Theorem)
If $X$ is a complete non-empty metric spaces and $f:X\to X$ is a contraction, then $f$ has a unique fixed-point $x_0\in X$ ,
$f(x_0)=x_0$ 。
Banach空间是一种特殊的非空、完备的测度空间（metric space），Fixed-Point Theorem 能够保证任意在Banach空间的contraction函数都有且只有一个固定点（a unique fixed-point）。任取一个初始点 $x_1$ ，经contraction映射后得到 $x_2$ ，再将 $x_2$ 代入映射得到 $x_3$ ，如此迭代，得到序列 $\{x_n\}_{n\ge 1}$ ，此序列收敛于 $x_0$ ，即 $x_n\to x_0$ 。若求解问题可以转换成在banach空间内不动点问题，就可以通过此迭代方法进行求解。这便是 fixed point 的迭代算法。以下通过一个例子进行说明。

例：线性方程组求解的迭代算法
考虑线性方程组：
$\sum^n_{i=1} a_{ki}x_{i} = b_k \quad (k=1,2,\cdots,n)\qquad(1.1)$
写成矩阵形式为 $\mathbf A\mathbf x=\mathbf b$ ，其中 $\mathbf A$ 是 $n\times n$ 矩阵， $\mathbf x=(x_1, x_2,\cdots,x_n)^T$ ， $\mathbf b=(b_1,b_2,\cdots,b_n)^T$ ，于是有：
$\mathbf A\mathbf x=\mathbf b\Rightarrow \mathbf x=(\mathbf I_n-\mathbf A)\mathbf x + \mathbf b\qquad(1.2)$
其中， $\mathbf I_n$ 是 $n\times n$ 单位矩阵。考虑算子（operator） $F=\mathbf I_n- \mathbf A$