非凸分布式优化中的推和算法解析
1. 算法基础与收敛到临界点
在分布式优化中,推和算法是一种重要的方法。在每个时间点 ( t \in Z^+ ),每个节点 ( i ) 会维护向量变量 ( z_i(t) )、( x_i(t) )、( w_i(t) \in R^d ) 以及标量变量 ( y_i(t) ),且初始时 ( y_i(0) = 1 ) (( i \in [n] ))。这些量会根据以下规则更新:
- ( x_i(t + 1) = w_i(t + 1) - a(t + 1)f_i(z_i(t + 1)) )
- 平均状态 ( \overline{x}(t) ) 遵循动态方程 ( \overline{x}(t + 1) = \overline{x}(t) - a(t + 1)\frac{1}{n}\sum_{i = 1}^{n}f_i(z_i(t + 1)) ),可改写为 ( \overline{x}(t + 1) = \overline{x}(t) - a(t + 1)[f(\overline{x}(t)) + q(t, \overline{x}(t))] ),其中 ( f(z) = \frac{1}{n}\sum_{i = 1}^{n}f_i(z) ),( q(t, \overline{x}(t)) = \frac{1}{n}\sum_{i = 1}^{n}f_i(z_i(t + 1)) - f(\overline{x}(t)) )。
若函数 ( F_i(z_i) ) 是满足特定假设的凸函数,且存在问题的解,在合适的步长序列 ( a(t) ) 选择下,上述过程会收敛到函数 ( F ) 的最优解。这里对梯度 ( f_i(x) ) 和目标函数 ( F(z) ) 有如下假设:
超级会员免费看
订阅专栏 解锁全文
86

被折叠的 条评论
为什么被折叠?



