brook+编程之GPU加速到底多快?

本文介绍了显卡GPU浮点运算的基本公式,并通过实例计算展示了理论峰值与实际应用中的性能表现。以AMD RV770为例,计算了其理论峰值性能,并比较了不同程序优化下GPU的实际运行效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    显卡GPU浮点运算的公式如下:

          理论峰值 = 流处理器数目 X 2 X 显卡核心频率

    以AMD的RV770为例,10个SIMD引擎,每个SIMD有16个SPU,每个SPU有5个流核心,核心频率750MHz,带入得

理论峰值1.2Tflops。我的显卡是HD3650,算的结果是0.6Gflops。程序实际运行时,能达到20%的峰值就时很高效的了。

    以计算矩阵乘法,以前一篇文章的代码运算,经过g++优化,也需要大约5秒,而选择brook+的samples里面的简单

矩阵乘法的例子,大约需要0.47秒,加速比为10左右。

    用优化的分块矩阵乘法对于2048X2048规模的矩阵做乘法运算,实际的浮点运算性能大概时22Gflops。由此可见,GPU

的加速性能还是很好的,一般而言,至少有10倍的加速吧。当然,这一方面依赖于显卡硬件,还依赖于算法的设计和程序的优化。

对于我的E2140来说,10倍的加速比,还是很诱人的。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值