硬件加速与分布式计算系统的定制优化
1. 硬件加速器性能分析
在硬件加速领域,训练加速器原型与无加速效果的 Tesla K40C 相比具有一定合理性。若主要考虑性能因素,GPU 确实是出色的平台。
1.1 功率效率
对比 Intel Core i7 CPU、Nvidia Tesla K40C GPU 和训练加速器的功率效率,以 ml - 100k 数据集为例,结果如下:
|对比平台|功率倍数(相对于训练加速器)|
| ---- | ---- |
|Core i7 1 - thread|约 33× - 88×(随线程数变化)|
|Core i7 2 - threads|约 33× - 88×(随线程数变化)|
|Core i7 4 - threads|约 33× - 88×(随线程数变化)|
|Core i7 8 - threads|约 33× - 88×(随线程数变化)|
|Tesla K40C|约 100×|
从数据可知,CPU 运行时功率随线程数增加而上升,GPU 的运行功率也远高于训练加速器原型。
1.2 能源效率
- 与 Intel Core i7 CPU 对比 :在 ml - 100k 数据集中,基于用户的协同过滤(CF),CPU 能耗约为训练加速器的 41 倍;基于物品的 CF 和 SlopeOne 算法,能耗约为 21 倍。可见训练加速器原型相比 CPU 具有显著的节能优势。
- 与 Nvidia Tesla K40C 对比