一、范数
1.1 向量范数
- 定义:满足正定、齐次、三角不等式,则称从向量空间到实数域的非负函数的范数
- lpl_plp范数:∣∣v∣∣p=(∣v1∣p+∣v2∣p+...+∣vn∣p)1p||v||_p=(|v_1|^p+|v_2|^p+...+|v_n|^p)^{\frac{1}{p}}∣∣v∣∣p=(∣v1∣p+∣v2∣p+...+∣vn∣p)p1
- l∞范数l_{\infty}范数l∞范数:∣∣v∣∣∞=max(∣vi∣)||v||_{\infty}=max(|v_i|)∣∣v∣∣∞=max(∣vi∣)
1.2 矩阵范数
- l2范数,F范数l_2范数,F范数l2范数,F范数:∣∣A∣∣F=Tr(AAT)=∑aij2||A||_F=\sqrt{Tr(AA^T)}=\sqrt{\sum{a_{ij}^2}}∣∣A∣∣F=Tr(AAT)=∑aij2
- 正交不变性:∣∣UAV∣∣F2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣A∣∣F2||UAV||_F^2=Tr(UAVV^TA^TU^T)=Tr(UAA^TU^T)=Tr(AA^TU^TU)=Tr(AA^T)=||A||_F^2∣∣UAV∣∣F2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣A∣∣F2。
- U∈Rm×m、V∈Rn×nU\in R^{m×m}、V\in R^{n×n}U∈Rm×m、V∈Rn×n是正交矩阵
- Tr(X)=∑aiiTr(X)=\sum{a_{ii}}Tr(X)=∑aii,矩阵的迹,对角线的和。
- 正交不变性:∣∣UAV∣∣F2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣A∣∣F2||UAV||_F^2=Tr(UAVV^TA^TU^T)=Tr(UAA^TU^T)=Tr(AA^TU^TU)=Tr(AA^T)=||A||_F^2∣∣UAV∣∣F2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣A∣∣F2。
- 核范数:A∈Rm×n,∣∣A∣∣∗=∑i=1rσiA\in R^{m×n},||A||_*=\sum_{i=1}^{r}{\sigma_i}A∈Rm×n,∣∣A∣∣∗=∑i=1rσi
- σi为A的所有非零奇异值,r=rank(A)\sigma_i 为A的所有非零奇异值,r=rank(A)σi为A的所有非零奇异值,r=rank(A)
- 奇异值:设A为m∗nm*nm∗n阶矩阵,q=min(m,n)q=min(m,n)q=min(m,n),A∗AA*AA∗A的q个非负特征值的算术平方根叫作A的奇异值。
1.3 矩阵内积
- Frobenius内积:常用来表示两个矩阵(张成的空间)之间的夹角
- 定义:<A,B>=defTr(ABT)=∑∑aijbij<A,B>\overset{def}{=}Tr(AB^T)=\sum\sum{a_{ij}b_{ij}}<A,B>=defTr(ABT)=∑∑aijbij
二、导数
2.1 梯度、海瑟矩阵
- 梯度:limp→0f(x+p)−f(x)−gTp∣∣p∣∣=0\underset{p\rightarrow 0}{\lim}\frac{f(x+p)-f(x)-g^Tp}{||p||}=0p→0lim∣∣p∣∣f(x+p)−f(x)−gTp=0
- ∣∣⋅∣∣||·||∣∣⋅∣∣是任意向量范数,g为fff在x点处的梯度
- 海瑟矩阵:f(x):Rn→Rf(x):R^n\rightarrow Rf(x):Rn→R
- 二阶可微:∇2f(x)\nabla^2f(x)∇2f(x)在区域D上的每个点x都存在
- 二阶连续可微:∇2f(x)\nabla^2f(x)∇2f(x)在D上还连续,可以证明此时海瑟矩阵还是对称矩阵。
- 雅克比矩阵J(x)J(x)J(x),f:Rn→Rmf:R^n\rightarrow R^mf:Rn→Rm是向量值函数

- 梯度利普希茨连续:
- 可微函数fff,若存在L>0L>0L>0,对任意x,y∈domfx,y\in domfx,y∈domf有∣∣∇f(x)−∇f(y)∣∣≤L∣∣x−y∣∣||\nabla f(x)-\nabla f(y)||\leq L||x-y||∣∣∇f(x)−∇f(y)∣∣≤L∣∣x−y∣∣,称fff是梯度利普希茨连续的,LLL为相应的函数,称为L−光滑L-光滑L−光滑
- 二次上界:f(x)可微,且为L−光滑,则f(x)有二次上界:f(y)≤f(x)+∇f(x)T(y−x)+L2∣∣y−x∣∣2f(x)可微,且为L-光滑,则f(x)有二次上界:f(y)\leq f(x)+\nabla f(x)^T(y-x)+\frac{L}{2}||y-x||^2f(x)可微,且为L−光滑,则f(x)有二次上界:f(y)≤f(x)+∇f(x)T(y−x)+2L∣∣y−x∣∣2
- f(x)可微,存在全局极小点x∗,且f(x)为L−利普希茨连续f(x)可微,存在全局极小点x^*,且f(x)为L-利普希茨连续f(x)可微,存在全局极小点x∗,且f(x)为L−利普希茨连续则:12L∣∣∇f(x)∣∣2≤f(x)−f(x∗)\frac{1}{2L}||\nabla f(x)||^2\leq f(x)-f(x^*)2L1∣∣∇f(x)∣∣2≤f(x)−f(x∗)
2.2矩阵变量的导数
- Gâteaux可微:t→0limf(X+tV)−f(X)−t<G,V>t=0\overset{lim}{t\rightarrow0}\frac{f(X+tV)-f(X)-t<G,V>}{t}=0t→0limtf(X+tV)−f(X)−t<G,V>=0
- G,V∈Rm×nG,V\in R^{m×n}G,V∈Rm×n
2.3自动微分
- 链式法则
本文介绍了向量和矩阵范数的概念,包括l_p范数、l_{infty}
4252

被折叠的 条评论
为什么被折叠?



