
papers
i_dont_give_a_fxxk
专注。。。坚持。。。
展开
-
An Analytical Model for a GPU Architecture with Memory-level and Thread-level Parallelism Awareness
文章发表在ISCA‘09上的,原创 2014-04-15 14:09:59 · 662 阅读 · 0 评论 -
OpenMP to GPGPU:一种实现自动翻译和调优的编译框架[1]
也算是源到源原创 2014-04-13 15:49:14 · 917 阅读 · 0 评论 -
CUDA-lite:为减低GPU编程的复杂性而生[1]
作者中有大名鼎鼎的原创 2014-04-11 21:33:49 · 678 阅读 · 0 评论 -
一种面向GPU程序优化的交叉输入适应框架[1]
文章是很久之前的了,发表在IPDPS'09上。按changli原创 2014-04-11 19:34:45 · 480 阅读 · 0 评论 -
实时streamlining GPU应用---通过运行时的线程数据重匹配减少线程分支[1]
文章中作者提出了两种在运行时的方法减少分支:引用重定向(reference redirection)和数据安排转换(data layout transformation) 。两者的思想差不多,就是通过变换下标或者数据使得相同path的分支尽可能在一个warp里。但是具体方案有所不同。引用重定向主要是通过一个转换函数重新映射线程的输入数据,而数据结构转换是使用了保存转换后的数据排列的临时变量作为输入原创 2014-03-27 16:33:49 · 514 阅读 · 0 评论 -
减少GPU应用中的分支方法[1]
这篇文章中作者主要是研究一个WARP中的分支情况,提出了两种减少分支以提高性能的方法:(1)延迟迭代(Iteration Delay)这个方法主要内容是在不同线程第i次循环中,执行同一个path的线程就一起执行,剩余不同path的线程就延迟到下一次循环再同时执行,这个想法的主要意义在于可以充分利用warp的SIMT性质,理论上来说是比原来的warp中分支并行变串行的效率要高。这个方法有一个原创 2014-03-25 21:28:26 · 978 阅读 · 0 评论 -
一种基于众核GPU上高性能的基于比较的排序算法[1]
这篇文章发表在IPDPS'10上(比较牛的会啊)的,作者是中科院的,也是非常的溜。文章中提出了一种在GPU上实现的双调排序算法(bitonic sort),号称性能非常的好。文章提出的这个算法的优越性在于很高效地利用了CUDA编程模型的特点:(1)WARP中的SIMT特性:在NVDIA GPU中,一个SM在一个时间内只能执行一个WARP。在这个时间中WARP内的线程是按照SIMT的特性原创 2014-03-21 22:53:45 · 1126 阅读 · 0 评论 -
基于GPU上的非结构化网格应用的性能分析和改进[1]
对于传统的数据分布不均匀(unstructured grid)的应用在GPU上跑的话,会造成workload分布不均匀从而产生memory latency比较严重不一最终影响到GPU的性能。基于这样的motivation,文章提出一种改进的可以达到硬件高利用率和更有效的内存读取的目的的算法。文章中研究的应用是计算流体力学应用CFD,举了一个简单的例子:一个每条边上有4个点的三角形网格,每个点有原创 2014-03-20 22:53:01 · 847 阅读 · 0 评论