分布式机器学习:联邦学习与弹性模型训练及服务
1. 联邦学习与边缘设备
在分布式机器学习中,联邦学习是一种新方法,其核心概念是能够在不共享每个工作节点本地数据的情况下进行协作模型训练。例如,多个银行可以利用联邦学习协作训练一个欺诈检测模型,而无需共享各自的本地数据,保障了数据隐私。
TensorFlow Lite在其中发挥了重要作用,它能减少通信的高延迟,实现更快(实时)的模型推理,具体通过以下方式:
- 减少代码占用空间。
- 直接将数据输入模型,无需解包。
此外,为保证数据的本地性,TensorFlow Lite主要针对模型推理阶段,即每个设备上的本地数据仅在本地模型中进行推理,设备之间无需通信。更多信息可参考其官方网站:https://www.tensorflow.org/lite 。
2. 弹性模型训练与服务的挑战与假设
在分布式深度神经网络(DNN)训练中,一个重大挑战是确定为单个训练或推理任务使用多少GPU或加速器。若分配过多GPU,会浪费计算资源;若分配过少,则可能导致训练时间过长。同时,GPU数量的选择与整个DNN训练过程中的超参数(如批量大小和学习率)选择密切相关。
在讨论弹性模型训练与服务之前,有以下假设:
- 拥有无限数量的GPU、TPU或其他加速器用于DNN训练和推理。
- 使用同质的GPU或其他加速器。
- 在单个任务的训练期间调整使用的GPU数量。
- 跨机器通信带宽较低,机器内通信带宽较高。
- 不允许任务抢占或中断。
- 每个训练/服务任务独占整个GPU,不同任务之间不共享资源。
- 在训练过程中
超级会员免费看
订阅专栏 解锁全文
68

被折叠的 条评论
为什么被折叠?



