分布式机器学习中的自适应模型训练与弹性推理
1. 联邦学习与边缘设备
在分布式机器学习中,联邦学习是一种新方法。其核心概念是在不共享每个工作节点本地数据的情况下实现协作式模型训练。例如,多个银行可以利用联邦学习协作训练一个欺诈检测模型,同时保护各自的数据隐私。
TensorFlow Lite在联邦学习和边缘设备应用中有重要作用:
- 降低通信延迟 :通过减少代码占用空间,以及直接将数据输入模型(无需解包),实现更快(实时)的模型推理。
- 保证数据本地性 :主要针对模型推理阶段,设备上的本地数据仅传入本地模型进行推理,部署模型的设备之间无通信。更多信息可参考:https://www.tensorflow.org/lite 。
2. 弹性模型训练与服务的挑战
分布式深度神经网络(DNN)训练的一大挑战是确定单个训练或推理任务使用的GPU或加速器数量。若分配过多GPU,会浪费计算资源;若分配过少,会导致训练时间过长。而且,GPU数量的选择与整个DNN训练过程中的超参数(如批量大小和学习率)选择密切相关。
在讨论弹性模型训练与服务前,有以下假设:
|假设内容|详情|
| ---- | ---- |
|计算资源|有无限数量的GPU、TPU或其他加速器用于DNN训练和推理|
|加速器类型|使用同质的GPU或其他加速器|
|GPU调整|在单个任务的训练期间调整使用的GPU数量|
|通信带宽|跨机器通信带宽较低,机器内通信带宽较高|
|任务调度|不允许任务抢占或中断|
|资源使
超级会员免费看
订阅专栏 解锁全文
1421

被折叠的 条评论
为什么被折叠?



