异步全去中心化随机梯度下降与平面无交叉最短路径长度计算
异步全去中心化随机梯度下降
在集群模型中,异步随机梯度下降(SGD)有着独特的性质和挑战。
非凸函数与SGD收敛问题
非凸函数 $Q$ 可能存在多个驻点,即满足 $\nabla Q(x) = 0$ 的点 $x \in R^d$。驻点可以是全局或局部的最小值、最大值,或者是鞍点(非函数的局部极值点)。虽然SGD会收敛到一个驻点,但从相同的初始点出发,在不同的随机执行中,SGD可能会收敛到不同的驻点。如果这些驻点之间的距离为 $\gamma$($\gamma$ 足够大),并且到达这些驻点的概率足够大,那么可以证明,没有一种分布式SGD实现能够同时满足内部和外部收敛并容忍系统分区。
为了更准确地描述这种现象,给出以下定义:
设 $A_{seq}(Q, T, x_0)$ 是一个从 $x_0$ 开始,对函数 $Q$ 进行 $T$ 次迭代优化的顺序SGD算法。$x_{seq}$ 是一个随机变量,对应于顺序算法的输出。对于 $\beta \in R$ 和点 $x \in R^d$,$E_{seq}(\beta, x)$ 表示 $|x_{seq} - x| 2 \leq \beta$ 的事件。对于点集 $S \subseteq R^d$,$E {seq}(\beta, S)$ 表示对于某些 $x \in S$,$|x_{seq} - x| 2 \leq \beta$ 的事件,即 $E {seq}(\beta, S) = \bigcup_{x \in S} E_{seq}(\beta, x)$。
定义1 :对
超级会员免费看
订阅专栏 解锁全文
1565

被折叠的 条评论
为什么被折叠?



