催化剂加速坐标下降法的计算效率
1. 引言
凸优化领域中,加速优化方法的发展是一项重要的理论成果。早期,针对不同问题提出了许多加速算法,但每种情况都需特殊考虑加速的可能性,这些设计差异大,难以找到通用的推广方法。
后来提出了名为Catalyst的算法,它基于特定思想,能通过求解多个Moreau - Yosida正则化辅助问题来加速其他优化方法。此后,该方法及其改进有了多种应用变体,还被推广到张量方法。
本文的主要动机是探讨通用加速近端包络在构建计算和oracle高效优化方法中的实际应用。下面我们来看看经典坐标下降法和加速坐标下降法的情况。
- 经典坐标下降法 :对于凸函数$f: R^n \to R$,其迭代形式为$x_{k + 1}^i = x_k^i - \eta\nabla_if(x_k)$,其中$i \sim U{1, …, n}$,$\eta > 0$。该方法常用于优化那些计算单个梯度分量比计算完整梯度向量更高效的函数(很多稀疏问题满足此条件)。当方法在达到$\varepsilon$小的函数值残差时停止,其oracle复杂度为$O(\frac{nLR^2}{\varepsilon})$,其中$R^2 = |x_0 - x^ | 2^2$,$L = \frac{1}{n}\sum {i = 1}^{n}L_i$是梯度分量Lipschitz常数的平均值。不过,这个估计对于凸问题类并非最优。
- 加速坐标下降法 *:由Yu.E. Nesterov提出,其oracle复杂度达到最优界$O(n\sqrt{\frac{LR^2}{\varepsilon}}
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



