19、CUDA-CHiLL与UPC扩展:并行计算的新突破

CUDA-CHiLL与UPC扩展:并行计算的新突破

1. CUDA-CHiLL性能评估

在单精度矩阵 - 向量(sgemv)和矩阵 - 矩阵(sgemm)乘法的计算中,我们对自动生成的CUDA - CHiLL代码进行了性能评估。具体操作如下:
- 应用转换脚本 :将转换脚本应用于sgemv和sgemm乘法,对于C2050的sgemm还使用了额外未展示的脚本来进行优化。
- 选择矩阵大小 :我们选取了范围在128 - 8192的一系列方形矩阵大小来测试生成代码的性能。
- 性能对比 :将自动生成的代码与Nvidia发布的CUBLAS 2.2和3.2库版本进行性能对比,所有结果均在Nvidia GTX280和Tesla C2050上获得,且是三次运行的平均性能,标准差小于0.1毫秒。

在与CUBLAS 2.2在GTX 280上对比时,CUDA - CHiLL代码在sgemv的全问题规模范围内都优于CUBLAS 2.2,在sgemm方面,几乎在所有实验使用的问题规模上也表现更优。CHiLL在sgemv上比CUBLAS 2.2平均提速1.78倍,在sgemm上提速1.5倍,其生成代码的最大GFlops达到366GF。

在与CUBLAS 3.2在Tesla C2050上对比时,自动生成的sgemv代码始终优于CUBLAS 3.2,最高可达44GFlops;sgemm代码与CUBLAS 3.2的差距在11 - 13%以内,最高可达565 GFlops。部分C2050 sgemm性能差距源于CUDA - CHiLL目前未使用的带有专用硬件的纹理内存,不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值