深度学习网络训练与部署:从大型模型支持到边缘设备应用
1. 大型模型支持
深度学习网络模型正朝着拥有数十亿甚至更多神经元的方向发展。当下流行的深度学习应用都在使用大型模型,并结合必要的数据集进行训练。大型模型在推理时往往能带来较高的准确性。
例如,大型城市的电力输送网络需要大型模型来呈现其电力传输网络。每栋房屋在模拟一天或一晚的负载模式时,可能会贡献数亿个神经元。对于一个城市范围的电力输送网络,神经元数量可能接近万亿甚至更多。训练这样的模型需要软件基础设施来进行分布式训练,还需要另一个大型模型来模拟和理解实时需求。再如,对特定城市进行天气预报,为了在时间和空间位置上达到精确预测,也需要大型模型以数字孪生的形式来呈现上述物理过程。
DLtrain平台具备支持大型模型的能力。近期在大型模型支持方面的研究吸引了在并行计算和高性能计算(HPC)方面经验丰富的新一代研究人员。除了CPU和GPU的计算能力外,拥有超高速的输入输出链接能力也很重要,这样才能共享训练数据,并将GPU资源分配给多个CPU。
数学理论也在不断发展,以支持基于大型模型的并行计算,例如使用CUDA Core和Tensor Cores。同时,神经网络在处理海量数据方面展现出了强大的能力,像NN、CNN、RNN等多种模型都得到了广泛应用。
分布式深度学习(DDL)领域正在发生令人瞩目的变革,这也催生了处理器间通信的新技术。例如,NVLINK就是一种CPU与GPU以及GPU与GPU之间的连接方式。IBM和NVIDIA在分布式计算领域开展了大量工作。在DDL中,计算负载的定制化程度很高,这一研究领域正在兴起,意味着处理器之间需要实现快速计算和快速通信。
大型模型支持是一
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



