文章链接:paper
目录
Starting Point
当给定扰动半径内存在单个极小值或多个极小值时,零阶平坦度不足以区分具有低泛化误差的极小值与具有高泛化误差的极小值。
提出了一阶平坦性,这是一种更强的平坦性度量,关注扰动半径内的最大梯度范数,该扰动半径既包含局部极小值处的Hessian最大特征值,也包含SAM的正则化函数。
提出了一种新的优化器GAM,相较于SAM (Sharpness Aware Minimization) 能够寻找更平坦的最小值
In Depth: first order flatness
zeroth-order flatness
L s a m ( θ ) = L ^ ( θ ) + max θ ′ ∈ B ( θ , ρ ) ( L ^ ( θ ′ ) − L ^ ( θ ) ) L^{\mathrm{sam}}(\boldsymbol{\theta})=\hat{L}(\boldsymbol{\theta})+\max _{\boldsymbol{\theta}^{\prime} \in B(\boldsymbol{\theta}, \rho)}\left(\hat{L}\left(\boldsymbol{\theta}^{\prime}\right)-\hat{L}(\boldsymbol{\theta})\right) Lsam(θ)=L^(θ)+maxθ′∈B(θ,ρ)(L^(θ′)−L^(θ))
ρ-zeroth-order flatness
R ρ ( 0 ) ( θ ) ≜ max θ ′ ∈ B ( θ , ρ ) ( L ^ ( θ ′ ) − L ^ ( θ ) ) , ∀ θ ∈ Θ R_\rho^{(0)}(\boldsymbol{\theta}) \triangleq \max _{\boldsymbol{\theta}^{\prime} \in B(\boldsymbol{\theta}, \rho)}\left(\hat{L}\left(\boldsymbol{\theta}^{\prime}\right)-\hat{L}(\boldsymbol{\theta})\right), \quad \forall \boldsymbol{\theta} \in \Theta Rρ(0)(θ)≜maxθ′∈B(θ,ρ)

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



