抄书——最优化的理论与方法（1）——数学基础（范数部分）

最新推荐文章于 2025-05-23 12:32:47 发布

田神

最新推荐文章于 2025-05-23 12:32:47 发布

阅读量1.9k

点赞数

分类专栏：数学文章标签：最优化

数学专栏收录该内容

15 篇文章

订阅专栏

今天抄袁亚湘的《最优化理论与方法》。这本书1997年就出版了，距今20余年，近来翻开仍觉得很值得细细研读。于我而言，仔细研读就是抄，而把它抄在自己的博客上，是为了让自己能坚持下去，就如在朋友圈上嗮出每天跑了多少路似的。希望以这种方式，能督促我坚持下去。
.
.
1.2.1 范数
定义1.2.1 映射 $∥⋅∥:Rn→R\Vert \cdot \Vert:\mathbb R^n\rightarrow \mathbb R$ 称为 $Rn\mathbb R^n$ 上的半范数，当且仅当它具有下列性质：
（i） $∥x∥≥0,∀x∈Rn\Vert x \Vert \ge 0,\forall x \in \mathbb R^n$ ，——非负性
（ii） $∥αx∥=∣α∣∥x∥,∀α∈R,x∈Rn\Vert \alpha x \Vert = \vert \alpha\vert \Vert x \Vert, \forall \alpha \in \mathbb R, x \in \mathbb R^n$ ，——标量乘
（iii） $∥x+y∥≤∥x∥+∥y∥,∀x,y∈Rn\Vert x+y \Vert \le \Vert x \Vert + \Vert y \Vert , \forall x,y \in \mathbb R^n$ ，——三角不等式
此外，除了上述性质外，如果映射还满足：
（iv） $∥x∥=0⇐⇒x=0\Vert x \Vert=0 \Leftarrow\Rightarrow x=0$
则 $∥⋅∥\Vert \cdot \Vert$ 称为 $Rn\mathbb R^n$ 上的范数。
设 $x=(x1,x2,⋯ ,xn)T∈Rnx=(x_1,x_2,\cdots,x_n)^T\in \mathbb R^n$ ，常用的向量范数为：
$\Vert x \Vert_{\infty}=\max_{i} \vert x_i \vert \qquad(1.2.1)\\ \Vert x \Vert_{1}=\sum_{i=1}^n\vert x_i \vert \qquad(1.2.2)\\ \Vert x \Vert_{2}=\left(\sum_{i=1}^n x_i^2 \right)^{1/2}\qquad(1.2.3)$
这些都是 $l_p$ 范数的特例。一般地，对于 $1≤p<∞1\le p \lt \infty$ ， $l_p$ 范数定义为：
$\Vert x \Vert_{p} = \left( \sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} \qquad(1.2.4)$
类似于向量范数的定义，可以定义矩阵范数，设 $A∈Rn×nA\in \mathbb R^{n\times n}$ ，其诱导矩阵范数定义为：
$\Vert A \Vert = \max_{x\neq 0}\left\{ \frac{\Vert Ax\Vert}{\Vert x\Vert}\right\} \qquad(1.2.5)$
其中，x是n维空间任一不为零的矢量， $∥x∥\Vert x\Vert$ 是它的向量。于是，由上述常用矢量范数可以诱导出如下范数：
1） $l_1$ 诱导矩阵范数（列和范数）：
$\Vert A \Vert_1=\max_j \left \{ \Vert a_{\cdot j}\Vert_1 \right \}=\max_j\sum_{i=1}^n \vert a_{ij} \vert \qquad(1.2.6)$
2） $l∞l_{\infty}$ 诱导矩阵范数（行和范数）：
$\Vert A \Vert_{\infty}=\max_i \left \{ \Vert a_{i\cdot }\Vert_1 \right \}=\max_i \sum_{j=1}^n \vert a_{ij} \vert \qquad(1.2.7)$
3） $l_2$ 诱导矩阵范数（谱范数）：前面博客中讨论的GAN判别器的谱范数定义相同：
$\Vert A \Vert_2=(\lambda_{A^TA})^{1/2} \qquad(1.2.8)$
这里 $λATA\lambda_{A^TA}$ 表示 $A^TA$ 的最大特征值。对于A的逆，有：
$\Vert A^{-1} \Vert=\frac{1}{\min_{x\neq 0}\frac{\Vert Ax\Vert}{\Vert x \Vert}}$
此外，对于诱导矩阵范数，我们总有 $∥I∥=1\Vert I \Vert=1$ 。除了上述由矢量诱导得到的矩阵范数，还有其他范数，如：Frobenius范数，其定义如下：
$\Vert A \Vert_F = \left( \sum_{i=1}^n \sum_{j=1}^n \vert a_{ij}\vert^2\right)^{1/2} = [tr(A^TA)]^{1/2} \qquad(1.2.9)$
其中 $t r (A)$ 表示矩阵 A 的迹（trace）。

其实，这个也很好验证：
$A=\left [ \begin{array} {cc} a_{11}&a_{12}\\ a_{21}&a_{22}\end{array} \right ] \\ \text{} \\ A^TA=\left [ \begin{array} {cc} a_{11}&a_{21}\\ a_{12}&a_{22}\end{array} \right ] \cdot \left [ \begin{array} {cc} a_{11}&a_{12}\\ a_{21}&a_{22}\end{array} \right ] =\left [ \begin{array} {cc} a_{11}^2+a_{21}^2&\cdot\\ \cdot &a_{21}^2+a_{22}^2\end{array} \right ] \\ \text{} \\tr(A^TA)=a_{11}^2+a_{21}^2+a_{21}^2+a_{22}^2$

除了一般定义的矩阵范数外，还有加权范数，加权 Frobenius范数和加权 $l_2$ 范数的定义分别为：
$\Vert A \Vert_{M,F} = \Vert MAM \Vert_F\\ \Vert A \Vert_{M,2} = \Vert MAM \Vert_2$
其中， $M$ 是 $n×nn\times n$ 对称正定矩阵。
如果，某个范数 $∥⋅∥\Vert \cdot \Vert$ 满足：
$\Vert AB \Vert \le \Vert A \Vert \Vert B \Vert \qquad(1.2.10)$
则称范数 $∥⋅∥\Vert \cdot \Vert$ 满足相容性条件。容易看出，诱导p-范数和Frobenius范数满足相容性条件，并且有：
$\Vert AB\Vert_F \le \min\{\Vert A \Vert_2\Vert B \Vert_F,\Vert A \Vert_F\Vert B \Vert_2\}\qquad(1.2.10a)$
此外，椭球向量范数也是常用的向量范数。设 $x∈Rn,A∈Rn×nx\in \mathbb R^n,A\in \mathbb R^{n\times n}$ 是对称正定矩阵，向量x的椭球范数定义为：
$\Vert x \Vert_A=(x^T A x)^{1/2} \qquad(1.2.11)$
直交变换下不变的矩阵范数也是一类重要的矩阵范数。设 $U$ 为 $n$ 阶直交矩阵，若：
$\Vert UA \Vert = \Vert A \Vert$
则称范数 $∥⋅∥\Vert \cdot \Vert$ 为直交不变矩阵范数。显然，谱范数和Frobenius范数是直交不变范数。

什么叫“直交变换”呢？好像就是“正交变换”，即矩阵乘以单位正交矩阵。也就是矩阵经过正交变换后，其谱范数和Frobenius范数保持不变，也称为保范性。

关于范数的等价性，我们有：
定义1.2.2 设 $∥⋅∥α\Vert \cdot \Vert_{\alpha}$ 和 $∥⋅∥β\Vert \cdot \Vert_{\beta}$ 是 $Rn\mathbb R^n$ 上任意两个范数，如果存在 $μ1,μ2>0\mu_1, \mu_2 \gt 0$ ，使得
$\mu_1 \Vert x \Vert_{\alpha} \le \Vert x \Vert_{\beta} \le \mu_2 \Vert x \Vert_{\alpha}, \forall x \in \mathbb R^n \qquad(1.2.12)$
则称范数 $∥⋅∥α\Vert \cdot \Vert_{\alpha}$ 和 $∥⋅∥β\Vert \cdot \Vert_{\beta}$ 是等价的。
特别，对于矢量 $x$ 我们有：
$\Vert x \Vert_2 \le \Vert x \Vert_1 \le \sqrt n\Vert x \Vert_2\qquad(1.2.13)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \sqrt n\Vert x \Vert_{\infty}\qquad(1.2.14)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_1 \le n\Vert x \Vert_{\infty}\qquad(1.2.15)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \Vert x \Vert_1\qquad(1.2.16)\\ \sqrt \lambda \Vert x \Vert_2 \le \Vert x \Vert_A \le \sqrt \Lambda \Vert x \Vert_2\qquad(1.2.17)$
其中， $∥x∥A\Vert x \Vert_A$ 表示 $x$ 的椭球向量范数， $A$ 是对称正定矩阵， $λ\lambda$ 是它的最小特征值， $Λ\Lambda$ 是它的最大特征值。

由以上不等式（1.2.13）~（1.2.17）是否可以说明这些范数定义是等价的呢？答案是肯定的。

设 ${ x_k\}$ 是向量序列，如果：
$\lim_{k\to \infty} \Vert x_k - x^*\Vert = 0 \qquad(1.2.18)$
则称序列 ${ x_k\}$ 依范数收敛到 $x^*$ 。
在 $Rn\mathbb R^n$ 中，如果序列 ${ x_k\}$ 满足：
$\lim_{m,l\to \infty} \Vert x_m - x_l\Vert = 0$
则称序列 ${ x_k\}$ 为Cauchy 序列。这就是说，对给定的 $ϵ>0\epsilon \gt 0$ ，存在整数 $NϵN_{\epsilon}$ ，使得每当 $m,l>Nϵm,l\gt N_{\epsilon}$ 时，就有：
$\Vert x_m - x_l\Vert\lt \epsilon$
成立。在 $Rn\mathbb R^n$ 中，序列 ${ x_k\}$ 收敛，当且仅当 ${ x_k\}$ 是Cauchy 序列。
关于范数的几个重要不等式：
（1）Cauchy-Schwarz 不等式：
$\vert x^Ty \vert \le \Vert x \Vert \Vert y \Vert$
当且仅当x和y线性相关时，等式成立。
（2）设 $A$ 是 $\times n$ 正定矩阵，则：
$\vert x^T A y \vert \le \Vert x \Vert_A \Vert y \Vert_A$
当且仅当x和y线性相关时，等式成立。
（3）设 $A$ 是 $\times n$ 正定矩阵，则：
$\vert x^T y \vert \le \Vert x \Vert_A \Vert y \Vert_{A^{-1}}$
当且仅当x和 $A^{-1}y$ 线性相关时，等式成立。
（4）Young不等式：假定 p 和 q 都是大于1的实数， $1p+1q=1\frac{1}{p} + \frac{1}{q}=1$ ，如果 x 和 y 是实数，则：
$xy\le \frac{x^p}{p} +\frac{y^q}{q}$
当且仅当 $x^p = y^q$ 时，等式成立。
（5）Holder不等式：
$\vert x^Ty\vert \le \Vert x \Vert_p \Vert y \Vert_q = \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} +\left(\sum_{i=1}^n \vert y_i \vert^q\right)^{1/q}$
其中，p和q都大于1，且满足 $1p+1q=1\frac{1}{p} + \frac{1}{q}=1$ 。
（6）Minkowski不等式：
$\Vert x+y \Vert_p \le \Vert x \Vert_p + \Vert y \Vert_p \\ \text{ } \\ \text{即}\\ \text{ } \\ \left(\sum_{i=1}^n \vert x_i + y_i \vert^p\right)^{1/p} \le \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} + \left(\sum_{i=1}^n \vert y_i \vert^p\right)^{1/p}$