抄书——最优化的理论与方法(1)——数学基础(范数部分)

今天抄袁亚湘的《最优化理论与方法》。这本书1997年就出版了,距今20余年,近来翻开仍觉得很值得细细研读。于我而言,仔细研读就是抄,而把它抄在自己的博客上,是为了让自己能坚持下去,就如在朋友圈上嗮出每天跑了多少路似的。希望以这种方式,能督促我坚持下去。
.
.
1.2.1 范数
定义1.2.1 映射 ∥⋅∥:Rn→R\Vert \cdot \Vert:\mathbb R^n\rightarrow \mathbb R:RnR 称为 Rn\mathbb R^nRn 上的半范数,当且仅当它具有下列性质:
(i)∥x∥≥0,∀x∈Rn\Vert x \Vert \ge 0,\forall x \in \mathbb R^nx0,xRn ,——非负性
(ii)∥αx∥=∣α∣∥x∥,∀α∈R,x∈Rn\Vert \alpha x \Vert = \vert \alpha\vert \Vert x \Vert, \forall \alpha \in \mathbb R, x \in \mathbb R^nαx=αx,αR,xRn ,——标量乘
(iii)∥x+y∥≤∥x∥+∥y∥,∀x,y∈Rn\Vert x+y \Vert \le \Vert x \Vert + \Vert y \Vert , \forall x,y \in \mathbb R^nx+yx+y,x,yRn,——三角不等式
此外,除了上述性质外,如果映射还满足:
(iv)∥x∥=0⇐⇒x=0\Vert x \Vert=0 \Leftarrow\Rightarrow x=0x=0x=0
∥⋅∥\Vert \cdot \Vert 称为 Rn\mathbb R^nRn 上的范数
x=(x1,x2,⋯ ,xn)T∈Rnx=(x_1,x_2,\cdots,x_n)^T\in \mathbb R^nx=(x1,x2,,xn)TRn,常用的向量范数为:
∥x∥∞=max⁡i∣xi∣(1.2.1)∥x∥1=∑i=1n∣xi∣(1.2.2)∥x∥2=(∑i=1nxi2)1/2(1.2.3) \Vert x \Vert_{\infty}=\max_{i} \vert x_i \vert \qquad(1.2.1)\\ \Vert x \Vert_{1}=\sum_{i=1}^n\vert x_i \vert \qquad(1.2.2)\\ \Vert x \Vert_{2}=\left(\sum_{i=1}^n x_i^2 \right)^{1/2}\qquad(1.2.3) x=imaxxi(1.2.1)x1=i=1nxi(1.2.2)x2=(i=1nxi2)1/2(1.2.3)
这些都是 lpl_plp 范数的特例。一般地,对于 1≤p&lt;∞1\le p \lt \infty1p<lpl_plp 范数定义为:
∥x∥p=(∑i=1n∣xi∣p)1/p(1.2.4) \Vert x \Vert_{p} = \left( \sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} \qquad(1.2.4) xp=(i=1nxip)1/p(1.2.4)
类似于向量范数的定义,可以定义矩阵范数,设 A∈Rn×nA\in \mathbb R^{n\times n}ARn×n,其诱导矩阵范数定义为:
∥A∥=max⁡x≠0{∥Ax∥∥x∥}(1.2.5) \Vert A \Vert = \max_{x\neq 0}\left\{ \frac{\Vert Ax\Vert}{\Vert x\Vert}\right\} \qquad(1.2.5) A=x̸=0max{xAx}(1.2.5)
其中,x是n维空间任一不为零的矢量,∥x∥\Vert x\Vertx 是它的向量。于是,由上述常用矢量范数可以诱导出如下范数:
1)l1l_1l1 诱导矩阵范数(列和范数):
∥A∥1=max⁡j{∥a⋅j∥1}=max⁡j∑i=1n∣aij∣(1.2.6) \Vert A \Vert_1=\max_j \left \{ \Vert a_{\cdot j}\Vert_1 \right \}=\max_j\sum_{i=1}^n \vert a_{ij} \vert \qquad(1.2.6) A1=jmax{aj1}=jmaxi=1naij(1.2.6)
2)l∞l_{\infty}l 诱导矩阵范数(行和范数):
∥A∥∞=max⁡i{∥ai⋅∥1}=max⁡i∑j=1n∣aij∣(1.2.7) \Vert A \Vert_{\infty}=\max_i \left \{ \Vert a_{i\cdot }\Vert_1 \right \}=\max_i \sum_{j=1}^n \vert a_{ij} \vert \qquad(1.2.7) A=imax{ai1}=imaxj=1naij(1.2.7)
3)l2l_2l2 诱导矩阵范数(谱范数):前面博客中讨论的GAN判别器的谱范数定义相同
∥A∥2=(λATA)1/2(1.2.8) \Vert A \Vert_2=(\lambda_{A^TA})^{1/2} \qquad(1.2.8) A2=(λATA)1/2(1.2.8)
这里λATA\lambda_{A^TA}λATA 表示 ATAA^TAATA 的最大特征值。对于A的逆,有:
∥A−1∥=1min⁡x≠0∥Ax∥∥x∥ \Vert A^{-1} \Vert=\frac{1}{\min_{x\neq 0}\frac{\Vert Ax\Vert}{\Vert x \Vert}} A1=minx̸=0xAx1
此外,对于诱导矩阵范数,我们总有 ∥I∥=1\Vert I \Vert=1I=1。除了上述由矢量诱导得到的矩阵范数,还有其他范数,如:Frobenius范数,其定义如下:
∥A∥F=(∑i=1n∑j=1n∣aij∣2)1/2=[tr(ATA)]1/2(1.2.9) \Vert A \Vert_F = \left( \sum_{i=1}^n \sum_{j=1}^n \vert a_{ij}\vert^2\right)^{1/2} = [tr(A^TA)]^{1/2} \qquad(1.2.9) AF=(i=1nj=1naij2)1/2=[tr(ATA)]1/2(1.2.9)
其中 tr(A)tr(A)tr(A) 表示矩阵 A 的迹(trace)。


其实,这个也很好验证:
A=[a11a12a21a22]ATA=[a11a21a12a22]⋅[a11a12a21a22]=[a112+a212⋅⋅a212+a222]tr(ATA)=a112+a212+a212+a222 A=\left [ \begin{array} {cc} a_{11}&amp;a_{12}\\ a_{21}&amp;a_{22}\end{array} \right ] \\ \text{} \\ A^TA=\left [ \begin{array} {cc} a_{11}&amp;a_{21}\\ a_{12}&amp;a_{22}\end{array} \right ] \cdot \left [ \begin{array} {cc} a_{11}&amp;a_{12}\\ a_{21}&amp;a_{22}\end{array} \right ] =\left [ \begin{array} {cc} a_{11}^2+a_{21}^2&amp;\cdot\\ \cdot &amp;a_{21}^2+a_{22}^2\end{array} \right ] \\ \text{} \\tr(A^TA)=a_{11}^2+a_{21}^2+a_{21}^2+a_{22}^2 A=[a11a21a12a22]ATA=[a11a12a21a22][a11a21a12a22]=[a112+a212a212+a222]tr(ATA)=a112+a212+a212+a222


除了一般定义的矩阵范数外,还有加权范数,加权 Frobenius范数 和 加权 l2l_2l2 范数的定义分别为:
∥A∥M,F=∥MAM∥F∥A∥M,2=∥MAM∥2 \Vert A \Vert_{M,F} = \Vert MAM \Vert_F\\ \Vert A \Vert_{M,2} = \Vert MAM \Vert_2 AM,F=MAMFAM,2=MAM2
其中,MMMn×nn\times nn×n 对称正定矩阵。
如果,某个范数 ∥⋅∥\Vert \cdot \Vert 满足:
∥AB∥≤∥A∥∥B∥(1.2.10) \Vert AB \Vert \le \Vert A \Vert \Vert B \Vert \qquad(1.2.10) ABAB(1.2.10)
则称范数 ∥⋅∥\Vert \cdot \Vert 满足相容性条件。容易看出,诱导p-范数和Frobenius范数满足相容性条件,并且有:
∥AB∥F≤min⁡{∥A∥2∥B∥F,∥A∥F∥B∥2}(1.2.10a) \Vert AB\Vert_F \le \min\{\Vert A \Vert_2\Vert B \Vert_F,\Vert A \Vert_F\Vert B \Vert_2\}\qquad(1.2.10a) ABFmin{A2BF,AFB2}(1.2.10a)
此外,椭球向量范数也是常用的向量范数。设 x∈Rn,A∈Rn×nx\in \mathbb R^n,A\in \mathbb R^{n\times n}xRn,ARn×n 是对称正定矩阵,向量x的椭球范数定义为:
∥x∥A=(xTAx)1/2(1.2.11) \Vert x \Vert_A=(x^T A x)^{1/2} \qquad(1.2.11) xA=(xTAx)1/2(1.2.11)
直交变换下不变的矩阵范数也是一类重要的矩阵范数。设 UUUnnn 阶直交矩阵,若:
∥UA∥=∥A∥ \Vert UA \Vert = \Vert A \Vert UA=A
则称范数 ∥⋅∥\Vert \cdot \Vert直交不变矩阵范数。显然,谱范数和Frobenius范数是直交不变范数。


什么叫“直交变换”呢?好像就是“正交变换”,即矩阵乘以单位正交矩阵。也就是矩阵经过正交变换后,其谱范数Frobenius范数保持不变,也称为保范性


关于范数的等价性,我们有:
定义1.2.2∥⋅∥α\Vert \cdot \Vert_{\alpha}α∥⋅∥β\Vert \cdot \Vert_{\beta}βRn\mathbb R^nRn 上任意两个范数,如果存在 μ1,μ2&gt;0\mu_1, \mu_2 \gt 0μ1,μ2>0,使得
μ1∥x∥α≤∥x∥β≤μ2∥x∥α,∀x∈Rn(1.2.12) \mu_1 \Vert x \Vert_{\alpha} \le \Vert x \Vert_{\beta} \le \mu_2 \Vert x \Vert_{\alpha}, \forall x \in \mathbb R^n \qquad(1.2.12) μ1xαxβμ2xα,xRn(1.2.12)
则称范数 ∥⋅∥α\Vert \cdot \Vert_{\alpha}α∥⋅∥β\Vert \cdot \Vert_{\beta}β等价的。
特别,对于矢量 xxx 我们有:
∥x∥2≤∥x∥1≤n∥x∥2(1.2.13)∥x∥∞≤∥x∥2≤n∥x∥∞(1.2.14)∥x∥∞≤∥x∥1≤n∥x∥∞(1.2.15)∥x∥∞≤∥x∥2≤∥x∥1(1.2.16)λ∥x∥2≤∥x∥A≤Λ∥x∥2(1.2.17) \Vert x \Vert_2 \le \Vert x \Vert_1 \le \sqrt n\Vert x \Vert_2\qquad(1.2.13)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \sqrt n\Vert x \Vert_{\infty}\qquad(1.2.14)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_1 \le n\Vert x \Vert_{\infty}\qquad(1.2.15)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \Vert x \Vert_1\qquad(1.2.16)\\ \sqrt \lambda \Vert x \Vert_2 \le \Vert x \Vert_A \le \sqrt \Lambda \Vert x \Vert_2\qquad(1.2.17) x2x1nx2(1.2.13)xx2nx(1.2.14)xx1nx(1.2.15)xx2x1(1.2.16)λx2xAΛx2(1.2.17)
其中,∥x∥A\Vert x \Vert_AxA 表示 xxx 的椭球向量范数,AAA 是对称正定矩阵,λ\lambdaλ 是它的最小特征值,Λ\LambdaΛ 是它的最大特征值。


由以上不等式(1.2.13)~(1.2.17)是否可以说明这些范数定义是等价的呢?答案是肯定的。


{xk}\{ x_k\}{xk} 是向量序列,如果:
lim⁡k→∞∥xk−x∗∥=0(1.2.18) \lim_{k\to \infty} \Vert x_k - x^*\Vert = 0 \qquad(1.2.18) klimxkx=0(1.2.18)
则称序列 {xk}\{ x_k\}{xk} 依范数收敛x∗x^*x
Rn\mathbb R^nRn 中,如果序列 {xk}\{ x_k\}{xk} 满足:
lim⁡m,l→∞∥xm−xl∥=0 \lim_{m,l\to \infty} \Vert x_m - x_l\Vert = 0 m,llimxmxl=0
则称序列 {xk}\{ x_k\}{xk} 为Cauchy 序列。这就是说,对给定的 ϵ&gt;0\epsilon \gt 0ϵ>0,存在整数 NϵN_{\epsilon}Nϵ,使得每当 m,l&gt;Nϵm,l\gt N_{\epsilon}m,l>Nϵ 时,就有:
∥xm−xl∥&lt;ϵ \Vert x_m - x_l\Vert\lt \epsilon xmxl<ϵ
成立。在 Rn\mathbb R^nRn 中,序列 {xk}\{ x_k\}{xk} 收敛,当且仅当 {xk}\{ x_k\}{xk}Cauchy 序列
关于范数的几个重要不等式
(1)Cauchy-Schwarz 不等式:
∣xTy∣≤∥x∥∥y∥ \vert x^Ty \vert \le \Vert x \Vert \Vert y \Vert xTyxy
当且仅当x和y线性相关时,等式成立
(2)设 AAAn×nn \times nn×n 正定矩阵,则:
∣xTAy∣≤∥x∥A∥y∥A \vert x^T A y \vert \le \Vert x \Vert_A \Vert y \Vert_A xTAyxAyA
当且仅当x和y线性相关时,等式成立
(3)设 AAAn×nn \times nn×n 正定矩阵,则:
∣xTy∣≤∥x∥A∥y∥A−1 \vert x^T y \vert \le \Vert x \Vert_A \Vert y \Vert_{A^{-1}} xTyxAyA1
当且仅当x和 A−1yA^{-1}yA1y线性相关时,等式成立
(4)Young不等式:假定 p 和 q 都是大于1的实数,1p+1q=1\frac{1}{p} + \frac{1}{q}=1p1+q1=1,如果 x 和 y 是实数,则:
xy≤xpp+yqq xy\le \frac{x^p}{p} +\frac{y^q}{q} xypxp+qyq
当且仅当 xp=yqx^p = y^qxp=yq 时,等式成立
(5)Holder不等式:
∣xTy∣≤∥x∥p∥y∥q=(∑i=1n∣xi∣p)1/p+(∑i=1n∣yi∣q)1/q \vert x^Ty\vert \le \Vert x \Vert_p \Vert y \Vert_q = \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} +\left(\sum_{i=1}^n \vert y_i \vert^q\right)^{1/q} xTyxpyq=(i=1nxip)1/p+(i=1nyiq)1/q
其中,p和q都大于1,且满足 1p+1q=1\frac{1}{p} + \frac{1}{q}=1p1+q1=1
(6)Minkowski不等式:
∥x+y∥p≤∥x∥p+∥y∥p 即 (∑i=1n∣xi+yi∣p)1/p≤(∑i=1n∣xi∣p)1/p+(∑i=1n∣yi∣p)1/p \Vert x+y \Vert_p \le \Vert x \Vert_p + \Vert y \Vert_p \\ \text{ } \\ \text{即}\\ \text{ } \\ \left(\sum_{i=1}^n \vert x_i + y_i \vert^p\right)^{1/p} \le \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} + \left(\sum_{i=1}^n \vert y_i \vert^p\right)^{1/p} x+ypxp+yp  (i=1nxi+yip)1/p(i=1nxip)1/p+(i=1nyip)1/p

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值