台式计算机运行fdtd配置,基于CPU-GPU 异构机群的FDTD 并行算法加速研究(三)...

该研究对比分析了基于CPU、MPI、OpenCL和CUDA的FDTD程序,实验显示在GPU上运行的OpenCL和CUDA程序相对于CPU有显著加速,特别是对于高计算密度的函数。在LARGE数据集上,多GPU扩展性能良好,展现出GPU在FDTD计算中的潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

相关资料:

3 测试结果与分析

实验平台包括 HD5870 GPU、Tesla C2050 GPU

和IntelXeon X5650 处理器机群,其主要的处理器体系结构参数如表3

所示。实验中所使用的数据集与第二节分析程序中的数据一致,如表1 所示。

a4c26d1e5885305701be709a3d33442f.png

为了实验的对比分析,我们实现了4 个版本的FDTD程序:CPU 上执行的FDTD-serial 串行程序、多核CPU

上执行的FDTD-MPI 并行程序、ATI GPU 上执行的FDTDOpenCL加速程序和NVIDIA GPU

上执行的FDTD-CUDA加速程序。目前而言,单精度计算可以满足所测试FDTD实验场景的需求,所以不开启OpenCL

的双精度浮点运算支持。评价总体性能的标准为GPU 版相对CPU 版的加速比,计算公式为CPU 执行时间/GPU

执行时间。

3.1 GPU 加速分析

图 7 显示FDTD 在SMALL 数据集下,在1 个CPU 核、4 个CPU 核、8 个CPU

核、Tesla C2050 GPU 和HD5870 GPU下计算时间对比。多CPU 核使用MPI 调度数据,GPU

加速代码为OpenCL.由图可见,在SMALL 数据集下,使用HD5870,OpenCL 加速相对CPU

加速比可达到8.11,且性能比8 个CPU 的MPI 加速性能还要好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值