深度学习与缓存架构性能研究
1. TensorFlow性能评估
在评估TensorFlow性能时,使用了GitHub上的TF基准测试套件(tensorflow/benchmarks)。具体而言,使用了位于 scripts/tf_cnn_benchmark
目录下的 tf_cnn_benchmark.py
脚本。该脚本在TF社区中常被用于验证和比较各种硬件配置的性能,它自带合成训练数据,大大简化了部署过程,并且是根据TF的高性能建议设计的。TF项目还公布了几种GPU的性能结果,方便用户验证其硬件是否达到预期性能。
这个脚本会报告每秒处理的图像数量,这实际上是对处理带宽的一种衡量。它接受多个命令行选项,使用户可以轻松选择深度学习模型、批量大小、步数,以及控制在多个GPU和计算节点上执行的选项。
1.1 TF分布式训练的最佳参数
TF基准测试脚本提供了多个用于控制变量分布和梯度聚合的选项,其中最重要的两个是 parameter_device
和 variable_update
。 parameter_device
可以取值为 cpu
或 gpu
,而 variable_update
有三个可能的选项: replicated
(仅单节点)、 parameter_server
和 distributed_replicated
(仅多节点)。