基于集群模型的异步全分布式随机梯度下降算法
在分布式随机梯度下降(SGD)算法领域,有许多相关的研究工作。本文将介绍一种基于集群模型的异步全分布式SGD算法,该算法在处理强凸和非凸代价函数时都有良好的表现。
1. 相关工作
在分布式SGD算法的大量文献中,弹性一致性框架假设进程计算随机梯度所用参数与实际全局参数的差异是有界的。在这个假设下,SGD对于凸和非凸目标函数都能收敛。例如在共享内存和消息传递场景中,都有符合这一假设的情况,但它们都假设了有界异步性,即梯度陈旧性有最大延迟。
本文的算法是完全异步的,不假设不同进程在执行过程中所处迭代的差异有任何界限,并且会忽略早期轮次的陈旧消息。一些类似的SGD算法主要处理恶意故障,且未将收敛速率与进程数量建立函数关系,也未针对崩溃故障进行优化。还有一些去中心化算法假设通信由图决定,而本文考虑的是全连通通信图的系统,所有进程都可以相互发送消息。
2. 预备知识
2.1 计算模型
系统中有 $n$ 个进程,被划分为 $m\leq n$ 个不相交的集群 $P_1, …, P_m$。每个进程可能会崩溃并停止执行步骤,不崩溃的进程为非故障进程。每个集群有一个共享内存,只有该集群内的进程可以进行读写操作。进程之间通过异步可靠通信链路发送消息,非故障进程之间的消息最终会送达,但送达时间无上限。
设 $f$ 为最多可崩溃的进程数,$f^ $ 是一个最大整数,使得任何大小为 $n - f^ $ 的进程集合 $P$ 能代表多数进程。若 $f\leq f^*$,则任意两个代表 $n - f$ 个进程的集合 $P$ 和 $Q$ 必定包含来自同一个集群的进
超级会员免费看
订阅专栏 解锁全文
1058

被折叠的 条评论
为什么被折叠?



