分布式机器学习中的自适应模型训练与弹性服务
1. 联邦学习与边缘设备
在分布式机器学习中,联邦学习是一种新方法,其核心概念是在不共享各工作节点本地数据的情况下进行协作模型训练。例如,多个银行可以利用联邦学习协作训练欺诈检测模型,保障数据隐私。
TensorFlow Lite在其中起到重要作用,它通过以下方式减少通信延迟,实现更快(实时)的模型推理:
- 减少代码占用空间。
- 直接将数据输入模型,无需解包。
为保证数据的本地性,TensorFlow Lite主要针对模型推理阶段,即设备上的本地数据仅在本地模型中进行推理,部署模型的设备之间无通信。更多信息可参考其官方网站:https://www.tensorflow.org/lite 。
2. 弹性模型训练与服务的挑战
分布式深度神经网络(DNN)训练面临的一大挑战是确定单个训练或推理任务所需的GPU或加速器数量。若分配过多GPU,会浪费计算资源;若分配过少,则会导致训练时间过长。同时,GPU数量的选择与整个DNN训练过程中的超参数(如批量大小和学习率)选择密切相关。
在讨论弹性模型训练与服务前,有以下假设:
- 有无限数量的GPU、TPU或其他加速器用于DNN训练和推理。
- 使用同质的GPU或其他加速器。
- 在单个任务的训练期间调整使用的GPU数量。
- 跨机器通信带宽较低,机器内通信带宽较高。
- 不允许任务抢占或中断。
- 每个训练/服务任务独占整个GPU,不同任务间无资源共享。
- 在训练过程中调整批量大小和学习率。
- 机器间和机器内通信具有全带宽。
超级会员免费看
订阅专栏 解锁全文
48

被折叠的 条评论
为什么被折叠?



