使用cblus_sgemm接口进行CPU矩阵乘法运算
上一篇博客讲过了GPU比对乘法运算,使用的是cublas库的cublasSegmm和cublasGemmEx接口,速度很快,但当时也提出了问题,就是GPU的内存不够大,就算是损失一定精度压缩成int8型数据,也只是会比FP32型多存储4倍数据。如果在很大型的千亿级别数据项目中,就需要很大很大的显存才可以放得下这么多数据。但GPU成本比较高,显然也存在不便之处。并且在效能上,GPU比...
原创
2019-01-20 20:09:41 ·
970 阅读 ·
0 评论