
CUDA
LeeLi_1992
深度学习工程化部署、移动端性能优化、GPU并行计算、高性能计算
展开
-
CUDA学习笔记(持续更新)
1.显示芯片已经具有高度的可程序化能力,由于显示芯片通常具有相当高的内存带宽,以及大量的执行单元,因此开始有利用显示芯片来帮助进行一些计算工作的想法.显示芯片的性质类似 stream processor,适合一次进行大量相同的工作。CPU 则比较有弹性,能同时进行变化较多的工作。2.由于 CPU 存取显卡内存时只能透过 PCI Express 接口,因此速度较慢(PCI Expre原创 2017-04-10 21:05:03 · 397 阅读 · 0 评论 -
CUDA编程优化及学习心得(持续更新)
针对在实时选帧算法并行开发中,总结如下:1.实现共享内存优化,规约法求和(再优化,单遍规约、注意二次调用规约时要考虑块内线程数是否为2的指数)。2.代码中,再global内部写global实现多级并行策略。3.4.由于并行不方便调试,在调试时,可以在核函数中限制输出一个线程执行下的变量值,进行验证。5.6.核函数调用核函数,多级并行(已试验很慢,100帧的数据量效果特别差。原创 2017-04-10 21:28:24 · 1586 阅读 · 0 评论