深度神经网络高级加速技术揭秘
在深度学习领域,深度神经网络(DNN)的训练和推理效率至关重要。为了进一步提升速度,我们将探讨一些高级技术,包括性能调试、作业迁移与复用,以及异构环境下的模型训练。
前提假设
在深入讨论这些技术之前,我们先明确一些前提假设:
1. 默认使用同质的GPU或其他加速器进行模型训练和服务。
2. 对于异构模型训练和推理,在同一训练/服务作业中使用异构硬件加速器。
3. 使用Windows Server以便直接使用NVIDIA性能调试工具。
4. 仅由单个作业独占使用GPU或其他硬件加速器。
5. 单个机器内的所有GPU之间具有高通信带宽。
6. 不同机器之间的GPU通信带宽较低。
7. GPU之间的网络也仅由单个训练或服务作业独占使用。
8. 若在GPU之间迁移训练/服务作业,假设数据移动的开销仅为一次性的。
9. 在异构环境中进行模型训练和服务时,假设不同加速器之间易于实现负载均衡。
技术要求
在实施这些技术时,你应使用PyTorch及其相关平台作为实现平台。代码的主要库依赖如下:
- NVIDIA Nsight Graphics >= 2021.5.1
- NVIDIA驱动 >= 450.119.03
- pip > 19.0
- numpy >= 1.19.0
- python >= 3.7
- ubuntu >= 16.04
- cuda >= 11.0
- torchvision >= 0.10.0
超级会员免费看
订阅专栏 解锁全文

85

被折叠的 条评论
为什么被折叠?



