清华大学副教授都志辉讲座笔记

最新推荐文章于 2025-06-03 14:53:24 发布

原创最新推荐文章于 2025-06-03 14:53:24 发布 · 783 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

文章专栏收录该内容

10 篇文章

订阅专栏

本文讨论了将MPI并行代码移植到CUDA过程中遇到的问题及解决方案。指出直接移植会导致计算错误，建议采用单元拆分的方式逐步分析和重写代码。同时介绍了如何针对GPU优化数据结构，以及何时使用CUDA或OpenACC来提升性能。

第一版中，讲MPI并行代码直接用cuda重写，一个月完成，发现有大量计算错误，并且不能排查。（结果不一样原因就是移植的代码错了，因为移植过程不可能完全想明白程序逻辑，总会有各种各样的问题出来，这也是大型应用程序移植的难点）

第二版中的解决方法就是要做单元拆分。并且一直的时候分析代码并重写，写成适合cuda计算的数据结构。

在能提升性能地方的代码用cuda一直，没有什么提升余地的地方用OpenACC。即使有些代码在一直到GPU上提升不大也要移植，因为这样需要CPU和GPU之间进行数据交换，这个数据交换的开销非常大。nvlink在数据交换的时候性能提升非常大。

对于大型程序来说，找到真正能提升性能的地方是非常难的。

大部分时候，CPU代码在移植到GPU上的时候都要进行数据结构的重组，不然会对性能有负影响。

性能优化的三个方面：应用、算法、硬件体系结构。

对写论文吧来说：在优化之前或者优化过程中提很多问题，把这些问题弄明白以后，有了优化结果，就容易找到创新点。他们之前也容易犯一种错误：一上来有一个任务就搞，搞快一点就可以了，虽然最后搞出来。但没有反思这么做有什么好处，为什么这么做，有没有什么别的更好的方法，这个方法的瓶颈和极限在哪里。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。