《A Survey on Distributed Machine Learning》笔记

最新推荐文章于 2024-06-05 10:11:04 发布

原创

最新推荐文章于 2024-06-05 10:11:04 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

摘要：通过分布式系统进行机器学习，大概就是联邦学习吧

1. 引言

通过分布式系统来增加并行和I/O带宽总量，第二节探讨机器学习的系统挑战以及如何采用高性能计算（HPC）的想法来加速和提高整个机器学习的可扩展性，第三节描述了分布式机器学习的参考架构；第四节介绍了最广泛使用的系统和库的生态，以及底层设计；第五节探讨了机器学习的主要挑战。

2. 机器学习-高性能计算挑战？

目前机器学习的实际应用包括对于Commodity Off-The-Shelf High Performance Computing（商品现成的高性能计算？）；英特尔上的神经网络训练；再大型并行HPC系统上优化和有效扩展诸如提取天气模式之类的深度学习问题。

2.1纵向扩展

通常采用增加GPU的方式，或者使用专用的集成电路（ASIC），通过高度优化的设计实现专门的功能，例如谷歌的TPU，旨在加速tensorflow；也有设计了一种用于大规模神经网络的硬件加速器，再管道中引入了一个神经功能单元（NFU），将管道的输入相乘并将结果相加，并以交错的方式可选择的激活函数；或者利用深度压缩技术。这些都是采用提高单台机器的处理能力以进行大规模机器学习。

2.2横向扩展

对比于纵向，横向的优势是：1.设备成本较低；2.具有故障恢复能力；3.与单台机器相比，总I/O带宽增加了。当训练机器学习模型时，需要收集大量数据，对于每一个节点都有一个I/O是一个不错的选择，挑战在于不是所有的ML算法都适用于分布式计算模型，因此横向扩展一般用于能够高度实现并行的算法。

3. 分布式机器学习的架构

文章设计并提出了涵盖整个设计空间的通用架构，概述：在训练阶段，使用训练数据并调整超参数来优化ML模型，然后部署经过训练的模型，并为新数据提供预测。在训练阶段通常使用大量的算力，但是预测可以使用较少的计算能力。而且训练阶段和预测阶段并不排斥，二者可以并行，这里涉及到增量学习，结合了训练和预测，并通过使用自预测阶段的新数据不断训练模型。