分布式深度学习工具对比与云服务组合请求策略优化
1. 分布式深度学习工具性能分析
1.1 ResNet准确率分析
在ResNet中,数据并行下的准确率曲线在不同模式有不同表现。同步模式下,如图9(a)所示,准确率曲线有明显分层现象。由于没有陈旧梯度,工作节点越多,每次迭代训练的样本量越大,准确率越高。而异步模式下,如图9(b),陈旧梯度对下降方向有负面影响,准确率处于抖动状态,P2 - W16并行时波动幅度最大,最终准确率最低。
1.2 BigDL性能指标分析
1.2.1 平均通信时间
BigDL依赖Apache Spark实现跨计算节点的分布式训练,使用多节点加速计算任务时,各节点启动的CPU核心数需相同。平均通信时间指驱动程序在一次迭代中汇总和更新参数所需的平均时间,该时间越长,通信开销越大,分布式并行训练的可扩展性越差。
- 节点数量不变时,随着核心总数增加,通信时间略有下降。
- 节点核心数不变时,通信时间随节点数量呈指数增长。
这是因为同步模式下,工作节点需等待所有梯度信息上传,数据并行度上升时,等待时间增加,通信时间变长。LeNet模型参数少,通信时间较短。
1.2.2 平均数据加载时间
数据加载过程是每个工作节点获取待训练数据的过程。其趋势与平均通信时间相似,因为Spark存储分布式数据集,不可避免要从其他节点获取训练数据。但节点数量不变且各节点核心数增加时,由于共享内存多进程编程,数据加载时间变化不明显。
1.2.3 单次迭代时间
BigDL中的单次迭代时间指从驱动程序和工作节点进程创建到训练完成
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



