今天抄袁亚湘的《最优化理论与方法》。这本书1997年就出版了,距今20余年,近来翻开仍觉得很值得细细研读。于我而言,仔细研读就是抄,而把它抄在自己的博客上,是为了让自己能坚持下去,就如在朋友圈上嗮出每天跑了多少路似的。希望以这种方式,能督促我坚持下去。
.
.
1.2.1 范数
定义1.2.1 映射 ∥⋅∥:Rn→R\Vert \cdot \Vert:\mathbb R^n\rightarrow \mathbb R∥⋅∥:Rn→R 称为 Rn\mathbb R^nRn 上的半范数
,当且仅当它具有下列性质:
(i)∥x∥≥0,∀x∈Rn\Vert x \Vert \ge 0,\forall x \in \mathbb R^n∥x∥≥0,∀x∈Rn ,——非负性
(ii)∥αx∥=∣α∣∥x∥,∀α∈R,x∈Rn\Vert \alpha x \Vert = \vert \alpha\vert \Vert x \Vert, \forall \alpha \in \mathbb R, x \in \mathbb R^n∥αx∥=∣α∣∥x∥,∀α∈R,x∈Rn ,——标量乘
(iii)∥x+y∥≤∥x∥+∥y∥,∀x,y∈Rn\Vert x+y \Vert \le \Vert x \Vert + \Vert y \Vert , \forall x,y \in \mathbb R^n∥x+y∥≤∥x∥+∥y∥,∀x,y∈Rn,——三角不等式
此外,除了上述性质外,如果映射还满足:
(iv)∥x∥=0⇐⇒x=0\Vert x \Vert=0 \Leftarrow\Rightarrow x=0∥x∥=0⇐⇒x=0
则 ∥⋅∥\Vert \cdot \Vert∥⋅∥ 称为 Rn\mathbb R^nRn 上的范数
。
设 x=(x1,x2,⋯ ,xn)T∈Rnx=(x_1,x_2,\cdots,x_n)^T\in \mathbb R^nx=(x1,x2,⋯,xn)T∈Rn,常用的向量范数
为:
∥x∥∞=maxi∣xi∣(1.2.1)∥x∥1=∑i=1n∣xi∣(1.2.2)∥x∥2=(∑i=1nxi2)1/2(1.2.3)
\Vert x \Vert_{\infty}=\max_{i} \vert x_i \vert \qquad(1.2.1)\\
\Vert x \Vert_{1}=\sum_{i=1}^n\vert x_i \vert \qquad(1.2.2)\\
\Vert x \Vert_{2}=\left(\sum_{i=1}^n x_i^2 \right)^{1/2}\qquad(1.2.3)
∥x∥∞=imax∣xi∣(1.2.1)∥x∥1=i=1∑n∣xi∣(1.2.2)∥x∥2=(i=1∑nxi2)1/2(1.2.3)
这些都是 lpl_plp 范数的特例。一般地,对于 1≤p<∞1\le p \lt \infty1≤p<∞,lpl_plp 范数定义为:
∥x∥p=(∑i=1n∣xi∣p)1/p(1.2.4)
\Vert x \Vert_{p} = \left( \sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} \qquad(1.2.4)
∥x∥p=(i=1∑n∣xi∣p)1/p(1.2.4)
类似于向量范数的定义,可以定义矩阵范数
,设 A∈Rn×nA\in \mathbb R^{n\times n}A∈Rn×n,其诱导矩阵范数定义为:
∥A∥=maxx≠0{∥Ax∥∥x∥}(1.2.5)
\Vert A \Vert = \max_{x\neq 0}\left\{ \frac{\Vert Ax\Vert}{\Vert x\Vert}\right\} \qquad(1.2.5)
∥A∥=x̸=0max{∥x∥∥Ax∥}(1.2.5)
其中,x是n维空间任一不为零的矢量,∥x∥\Vert x\Vert∥x∥ 是它的向量。于是,由上述常用矢量范数可以诱导出如下范数:
1)l1l_1l1 诱导矩阵范数(列和范数):
∥A∥1=maxj{∥a⋅j∥1}=maxj∑i=1n∣aij∣(1.2.6)
\Vert A \Vert_1=\max_j \left \{ \Vert a_{\cdot j}\Vert_1 \right \}=\max_j\sum_{i=1}^n \vert a_{ij} \vert \qquad(1.2.6)
∥A∥1=jmax{∥a⋅j∥1}=jmaxi=1∑n∣aij∣(1.2.6)
2)l∞l_{\infty}l∞ 诱导矩阵范数(行和范数):
∥A∥∞=maxi{∥ai⋅∥1}=maxi∑j=1n∣aij∣(1.2.7)
\Vert A \Vert_{\infty}=\max_i \left \{ \Vert a_{i\cdot }\Vert_1 \right \}=\max_i \sum_{j=1}^n \vert a_{ij} \vert \qquad(1.2.7)
∥A∥∞=imax{∥ai⋅∥1}=imaxj=1∑n∣aij∣(1.2.7)
3)l2l_2l2 诱导矩阵范数(谱范数):前面博客中讨论的GAN判别器的谱范数定义相同
:
∥A∥2=(λATA)1/2(1.2.8)
\Vert A \Vert_2=(\lambda_{A^TA})^{1/2} \qquad(1.2.8)
∥A∥2=(λATA)1/2(1.2.8)
这里λATA\lambda_{A^TA}λATA 表示 ATAA^TAATA 的最大特征值。对于A的逆,有:
∥A−1∥=1minx≠0∥Ax∥∥x∥
\Vert A^{-1} \Vert=\frac{1}{\min_{x\neq 0}\frac{\Vert Ax\Vert}{\Vert x \Vert}}
∥A−1∥=minx̸=0∥x∥∥Ax∥1
此外,对于诱导矩阵范数,我们总有 ∥I∥=1\Vert I \Vert=1∥I∥=1。除了上述由矢量诱导得到的矩阵范数,还有其他范数,如:Frobenius范数,其定义如下:
∥A∥F=(∑i=1n∑j=1n∣aij∣2)1/2=[tr(ATA)]1/2(1.2.9)
\Vert A \Vert_F = \left( \sum_{i=1}^n \sum_{j=1}^n \vert a_{ij}\vert^2\right)^{1/2} = [tr(A^TA)]^{1/2} \qquad(1.2.9)
∥A∥F=(i=1∑nj=1∑n∣aij∣2)1/2=[tr(ATA)]1/2(1.2.9)
其中 tr(A)tr(A)tr(A) 表示矩阵 A 的迹(trace)。
其实,这个也很好验证:
A=[a11a12a21a22]ATA=[a11a21a12a22]⋅[a11a12a21a22]=[a112+a212⋅⋅a212+a222]tr(ATA)=a112+a212+a212+a222
A=\left [ \begin{array} {cc} a_{11}&a_{12}\\
a_{21}&a_{22}\end{array} \right ] \\ \text{} \\
A^TA=\left [ \begin{array} {cc} a_{11}&a_{21}\\
a_{12}&a_{22}\end{array} \right ] \cdot \left [ \begin{array} {cc} a_{11}&a_{12}\\
a_{21}&a_{22}\end{array} \right ] =\left [ \begin{array} {cc} a_{11}^2+a_{21}^2&\cdot\\
\cdot &a_{21}^2+a_{22}^2\end{array} \right ] \\ \text{} \\tr(A^TA)=a_{11}^2+a_{21}^2+a_{21}^2+a_{22}^2
A=[a11a21a12a22]ATA=[a11a12a21a22]⋅[a11a21a12a22]=[a112+a212⋅⋅a212+a222]tr(ATA)=a112+a212+a212+a222
除了一般定义的矩阵范数外,还有加权范数,加权 Frobenius范数 和 加权 l2l_2l2 范数的定义分别为:
∥A∥M,F=∥MAM∥F∥A∥M,2=∥MAM∥2
\Vert A \Vert_{M,F} = \Vert MAM \Vert_F\\
\Vert A \Vert_{M,2} = \Vert MAM \Vert_2
∥A∥M,F=∥MAM∥F∥A∥M,2=∥MAM∥2
其中,MMM 是 n×nn\times nn×n 对称正定矩阵。
如果,某个范数 ∥⋅∥\Vert \cdot \Vert∥⋅∥ 满足:
∥AB∥≤∥A∥∥B∥(1.2.10)
\Vert AB \Vert \le \Vert A \Vert \Vert B \Vert \qquad(1.2.10)
∥AB∥≤∥A∥∥B∥(1.2.10)
则称范数 ∥⋅∥\Vert \cdot \Vert∥⋅∥ 满足相容性条件
。容易看出,诱导p-范数和Frobenius范数满足相容性条件,并且有:
∥AB∥F≤min{∥A∥2∥B∥F,∥A∥F∥B∥2}(1.2.10a)
\Vert AB\Vert_F \le \min\{\Vert A \Vert_2\Vert B \Vert_F,\Vert A \Vert_F\Vert B \Vert_2\}\qquad(1.2.10a)
∥AB∥F≤min{∥A∥2∥B∥F,∥A∥F∥B∥2}(1.2.10a)
此外,椭球向量范数也是常用的向量范数。设 x∈Rn,A∈Rn×nx\in \mathbb R^n,A\in \mathbb R^{n\times n}x∈Rn,A∈Rn×n 是对称正定矩阵,向量x的椭球范数定义为:
∥x∥A=(xTAx)1/2(1.2.11)
\Vert x \Vert_A=(x^T A x)^{1/2} \qquad(1.2.11)
∥x∥A=(xTAx)1/2(1.2.11)
直交变换下不变的矩阵范数也是一类重要的矩阵范数。设 UUU 为 nnn 阶直交矩阵,若:
∥UA∥=∥A∥
\Vert UA \Vert = \Vert A \Vert
∥UA∥=∥A∥
则称范数 ∥⋅∥\Vert \cdot \Vert∥⋅∥ 为直交不变矩阵范数。显然,谱范数和Frobenius范数是直交不变范数。
什么叫“直交变换”呢?好像就是“正交变换”,即矩阵乘以单位正交矩阵。也就是矩阵经过正交变换后,其谱范数和Frobenius范数保持不变,也称为保范性。
关于范数的等价性
,我们有:
定义1.2.2 设 ∥⋅∥α\Vert \cdot \Vert_{\alpha}∥⋅∥α 和 ∥⋅∥β\Vert \cdot \Vert_{\beta}∥⋅∥β 是 Rn\mathbb R^nRn 上任意两个范数,如果存在 μ1,μ2>0\mu_1, \mu_2 \gt 0μ1,μ2>0,使得
μ1∥x∥α≤∥x∥β≤μ2∥x∥α,∀x∈Rn(1.2.12)
\mu_1 \Vert x \Vert_{\alpha} \le \Vert x \Vert_{\beta} \le \mu_2 \Vert x \Vert_{\alpha}, \forall x \in \mathbb R^n \qquad(1.2.12)
μ1∥x∥α≤∥x∥β≤μ2∥x∥α,∀x∈Rn(1.2.12)
则称范数 ∥⋅∥α\Vert \cdot \Vert_{\alpha}∥⋅∥α 和 ∥⋅∥β\Vert \cdot \Vert_{\beta}∥⋅∥β 是等价
的。
特别,对于矢量 xxx 我们有:
∥x∥2≤∥x∥1≤n∥x∥2(1.2.13)∥x∥∞≤∥x∥2≤n∥x∥∞(1.2.14)∥x∥∞≤∥x∥1≤n∥x∥∞(1.2.15)∥x∥∞≤∥x∥2≤∥x∥1(1.2.16)λ∥x∥2≤∥x∥A≤Λ∥x∥2(1.2.17)
\Vert x \Vert_2 \le \Vert x \Vert_1 \le \sqrt n\Vert x \Vert_2\qquad(1.2.13)\\
\Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \sqrt n\Vert x \Vert_{\infty}\qquad(1.2.14)\\
\Vert x \Vert_{\infty} \le \Vert x \Vert_1 \le n\Vert x \Vert_{\infty}\qquad(1.2.15)\\
\Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \Vert x \Vert_1\qquad(1.2.16)\\
\sqrt \lambda \Vert x \Vert_2 \le \Vert x \Vert_A \le \sqrt \Lambda \Vert x \Vert_2\qquad(1.2.17)
∥x∥2≤∥x∥1≤n∥x∥2(1.2.13)∥x∥∞≤∥x∥2≤n∥x∥∞(1.2.14)∥x∥∞≤∥x∥1≤n∥x∥∞(1.2.15)∥x∥∞≤∥x∥2≤∥x∥1(1.2.16)λ∥x∥2≤∥x∥A≤Λ∥x∥2(1.2.17)
其中,∥x∥A\Vert x \Vert_A∥x∥A 表示 xxx 的椭球向量范数,AAA 是对称正定矩阵,λ\lambdaλ 是它的最小特征值,Λ\LambdaΛ 是它的最大特征值。
由以上不等式(1.2.13)~(1.2.17)是否可以说明这些范数定义是等价的呢?答案是肯定的。
设 {xk}\{ x_k\}{xk} 是向量序列,如果:
limk→∞∥xk−x∗∥=0(1.2.18)
\lim_{k\to \infty} \Vert x_k - x^*\Vert = 0 \qquad(1.2.18)
k→∞lim∥xk−x∗∥=0(1.2.18)
则称序列 {xk}\{ x_k\}{xk} 依范数收敛到 x∗x^*x∗。
在 Rn\mathbb R^nRn 中,如果序列 {xk}\{ x_k\}{xk} 满足:
limm,l→∞∥xm−xl∥=0
\lim_{m,l\to \infty} \Vert x_m - x_l\Vert = 0
m,l→∞lim∥xm−xl∥=0
则称序列 {xk}\{ x_k\}{xk} 为Cauchy 序列。这就是说,对给定的 ϵ>0\epsilon \gt 0ϵ>0,存在整数 NϵN_{\epsilon}Nϵ,使得每当 m,l>Nϵm,l\gt N_{\epsilon}m,l>Nϵ 时,就有:
∥xm−xl∥<ϵ
\Vert x_m - x_l\Vert\lt \epsilon
∥xm−xl∥<ϵ
成立。在 Rn\mathbb R^nRn 中,序列 {xk}\{ x_k\}{xk} 收敛,当且仅当 {xk}\{ x_k\}{xk} 是Cauchy 序列。
关于范数的几个重要不等式
:
(1)Cauchy-Schwarz 不等式:
∣xTy∣≤∥x∥∥y∥
\vert x^Ty \vert \le \Vert x \Vert \Vert y \Vert
∣xTy∣≤∥x∥∥y∥
当且仅当x和y线性相关时,等式成立。
(2)设 AAA 是 n×nn \times nn×n 正定矩阵,则:
∣xTAy∣≤∥x∥A∥y∥A
\vert x^T A y \vert \le \Vert x \Vert_A \Vert y \Vert_A
∣xTAy∣≤∥x∥A∥y∥A
当且仅当x和y线性相关时,等式成立。
(3)设 AAA 是 n×nn \times nn×n 正定矩阵,则:
∣xTy∣≤∥x∥A∥y∥A−1
\vert x^T y \vert \le \Vert x \Vert_A \Vert y \Vert_{A^{-1}}
∣xTy∣≤∥x∥A∥y∥A−1
当且仅当x和 A−1yA^{-1}yA−1y线性相关时,等式成立。
(4)Young不等式:假定 p 和 q 都是大于1的实数,1p+1q=1\frac{1}{p} + \frac{1}{q}=1p1+q1=1,如果 x 和 y 是实数,则:
xy≤xpp+yqq
xy\le \frac{x^p}{p} +\frac{y^q}{q}
xy≤pxp+qyq
当且仅当 xp=yqx^p = y^qxp=yq 时,等式成立。
(5)Holder不等式:
∣xTy∣≤∥x∥p∥y∥q=(∑i=1n∣xi∣p)1/p+(∑i=1n∣yi∣q)1/q
\vert x^Ty\vert \le \Vert x \Vert_p \Vert y \Vert_q = \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} +\left(\sum_{i=1}^n \vert y_i \vert^q\right)^{1/q}
∣xTy∣≤∥x∥p∥y∥q=(i=1∑n∣xi∣p)1/p+(i=1∑n∣yi∣q)1/q
其中,p和q都大于1,且满足 1p+1q=1\frac{1}{p} + \frac{1}{q}=1p1+q1=1。
(6)Minkowski不等式:
∥x+y∥p≤∥x∥p+∥y∥p 即 (∑i=1n∣xi+yi∣p)1/p≤(∑i=1n∣xi∣p)1/p+(∑i=1n∣yi∣p)1/p
\Vert x+y \Vert_p \le \Vert x \Vert_p + \Vert y \Vert_p \\ \text{ } \\ \text{即}\\ \text{ } \\
\left(\sum_{i=1}^n \vert x_i + y_i \vert^p\right)^{1/p} \le \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} + \left(\sum_{i=1}^n \vert y_i \vert^p\right)^{1/p}
∥x+y∥p≤∥x∥p+∥y∥p 即 (i=1∑n∣xi+yi∣p)1/p≤(i=1∑n∣xi∣p)1/p+(i=1∑n∣yi∣p)1/p