62、GPU编程相关知识与实践

GPU编程相关知识与实践

1. GPU架构与概念

在进行幽灵单元交换时,即便使用向量版本,也需注意不能修改仍在发送过程中的缓冲区。当不发送角落数据时,这种情况发生的概率较小,但仍有可能出现。为确保安全,在更改数组之前,需要检查发送是否完成。

尝试将幽灵交换例程中的显式标签替换为 MPI_ANY_TAG ,使用 MPI_ANY_TAG 作为标签参数是可行的,可能会稍微快一些,但提升幅度可能不显著。使用显式标签可以增加对接收正确消息的检查。

移除幽灵交换示例中同步计时器里的屏障,移除屏障后,性能可能会更好,并且进程可以更独立地异步运行,但可能会使计时测量更难理解。

另外,有一个关于不同GPU在1 flop/load应用中的可实现性能表格:
| GPU | 可实现性能(Gflops/sec) | 价格 | Flops/$ |
| — | — | — | — |
| V100 | 108.23 | | |
| Vega 20 | 91.38 | | |
| P100 | 74.69 | | |
| GeForce GTX1080Ti | 44.58 | | |
| Quadro K6000 | 31.25 | | |
| Tesla S2050 | 18.50 | | |

可以查找市场上这些GPU的当前价格,填充最后两列,以得到每个GPU的每美元浮点运算数,从而判断哪个GPU性价比最高。如果应用程序的周转时间是最重要的标准,也可以据此选择最合适的GPU。

2. GPU编程模型
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值