
CUDA并行算法
文章平均质量分 94
張行之
GitHub: https://github.com/chaolongzhang
展开
-
CUDA程序性能分析-矩阵乘法
矩阵乘法非常适合在GPU上并行运行,但是使用GPU并行后能获得多大的性能提升?本文将通过一些实验分析CUDA程序的性能。本文主要记录了本人测试CUDA程序性能的结果,并对结果进行了分析,从测试结果和分析可以为并行程序和优化性能带来一些启示。原创 2016-12-02 21:05:56 · 3956 阅读 · 0 评论 -
CUDA并行算法系列之FFT快速卷积
本文首先简要介绍了卷积运算,然后使用Python实现了卷积运行的代码,接着讨论了基于FFT的快速卷积算法,并使用Python实现了FFT卷积,接着对直接卷积和基于FFT的快速卷积算法的性能进行了分析,从实验结果可以看出,FFT卷积相比直接卷积具有更快的运行速度。最后,基于CUDA实现了直接卷积算法,并且使用cuFFT和thrush在CUDA平台实现了基于FFT的快速卷积算法。原创 2016-09-21 11:53:26 · 7958 阅读 · 0 评论 -
CUDA并行算法系列之规约
CUDA并行算法系列之规约前言规约是一类并行算法,对传入的N个数据,使用一个二元的符合结合律的操作符⊕,生成1个结果。这类操作包括取最小、取最大、求和、平方和、逻辑与/或、向量点积。规约也是其他高级算法中重要的基础算法。除非操作符⊕的求解代价极高,否则规约倾向于带宽受限型任务(bandwidthbound)。本文将介绍几种规约算法的实现,从两遍规约、block的线程数必须为2的幂,一步一步优化。原创 2016-09-21 11:49:54 · 6030 阅读 · 2 评论