17、优化与自动调优GPU上的置信传播及编程接口

火锅TCP

于 2025-06-29 16:25:15 发布

阅读量57

点赞数

CC 4.0 BY-SA版权

分类专栏：并行计算语言与编译器的前沿探索文章标签： GPU计算置信传播优化自动调优

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/r7s8t/article/details/149376261

并行计算语言与编译器的前沿探索专栏收录该内容

34 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

优化与自动调优GPU上的置信传播及编程接口

在GPU计算领域，优化和自动调优对于提升性能至关重要。下面将详细介绍在不同GPU上进行置信传播优化和自动调优的实验，以及一种用于描述转换和代码生成的编程语言接口。

不同GPU的实验

为了比较多代GPU的性能，我们在Tesla C870、GTX 285和GTX 470这三款GPU上进行了混合实现和自动调优实验。
- GPU架构信息
- Tesla C870 ：采用G80架构，早于GTX 285。它有16个多处理器，每个多处理器包含8个处理器，总共128个处理器。每个多处理器有16 KB共享内存和8192个寄存器，寄存器数量是GTX 285每个多处理器的一半。
- GTX 470 ：采用GF100（Fermi）架构，晚于GTX 285。它有14个多处理器，每个多处理器包含32个处理器，总共448个处理器。每个多处理器有32768个寄存器和64 KB，这64 KB在共享内存和L1缓存之间共享。L1缓存和全局L2缓存可降低本地内存的延迟，程序员可以为每个多处理器分配16 KB共享内存 / 48 KB L1缓存，或者48 KB共享内存 / 16 KB L1缓存。
- 实验编译环境 ：GTX 285和Tesla C870的实验使用CUDA 3.1编译和运行，GTX 470的实验使用CUDA 3.2的beta版本。
- 实验结果分析
- 在GTX 470上，将循环展开以将数据放入寄存器并不会像在GTX 285和Tesla C

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。