搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多人工智能、机器学习干货
论文报告PPT下载方式:可以在我上传的资源中找到
报告题目:SketchML: Accelerating Distributed Machine Learning with Data Sketches
中文翻译:SketchML:使用数据草图加速分布式机器学习
论文来源:2018 ACM SIGMOD International Conference on Management of Data
一、 摘要
- 背景:由于许多由随机梯度下降(SGD)训练的分布式ML算法都涉及到通过网络传输梯度,因此压缩传输梯度非常重要。
- 遇到的问题:现有的低精度方法不适用于梯度稀疏和非均匀分布的情况。
- 提出的问题:是否有一种压缩方法能否有效地处理由键值对组成的稀疏非均匀梯度?
- 提出的解决方法:
- 用Quantile-Bucket Quantification来压缩梯度值。
- 用MinMaxSketch来压缩桶索引值,解决哈希冲突。
- 用Delta-Binary Encoding来通多一种增量的方式压缩梯度建。
- 先进性:第一次将data sketch与ML相结合,并通过实验表明我们的方法比现有方法快10倍。
二、 介绍
- 背景与动机
随着数据量的空前增长,集中式系统无法有效地运行ML任务。因此,在分布式环境中部署ML是不可避免的。在这样的背景下,一个主要的问题是如何有效的交换节点之间的梯度,因为沟通往往占总成本。
- 案例1:大型模型
- 案例2:云计算环境
- 案例3:地理分布的机器学习
- 案例4:物联网
在上述机器学习情况中,在保证算法正确性的同时,减少通过网络传输的梯度具有重要意义。通常,使用压缩技术来解决这个问题。现有的压缩方法可归纳为两类:无损压缩方法和有损压缩方法。重复整数数据的无损方法,不能用于非重复梯度键和浮点梯度值。提出了一种基于阈值截断或量化策略来压缩浮点梯度的有损方法,但基于阈值的截断过于激进,无法使ML算法收敛。
从以上分析可以看出,现有的压缩方法对于大规模梯度优化算法还不够强大。在这个挑战的激励下,我们研究了一个问题:
我们应该用那种数据结构来压缩系数梯度向量?
- 技术贡献综述
- 数据模型
我们主要研究一类用随机梯度下降(SGD)训练的机器学习算法,如逻辑回归和支持向量机。在分布式设置中,我们选择数据并行策略,将数据集划分到W个工作站之上。 - 如何压缩梯度值
第一个目标是压缩键值对中的梯度值。由于均匀量化不适用于非均匀分布梯度,一种替代的概率数据结构是Sketch算法,它被广泛用于分析数据流。现有的草图算法包括Quan
- 数据模型

本文介绍了SketchML,一种结合数据草图技术加速分布式机器学习的方法。针对梯度传输效率问题,SketchML使用Quantile-Bucket Quantification压缩梯度值,用MinMaxSketch处理键值冲突,Delta-Binary Encoding压缩梯度键。实验证明,SketchML比现有方法快2-10倍,适用于大规模梯度优化算法。
最低0.47元/天 解锁文章
1376

被折叠的 条评论
为什么被折叠?



