
CUDA
文章平均质量分 58
lanyijia
快乐
展开
-
CUDA中三维数组的创建,读取,拷贝
<br />CUDA中三维数组的创建,读取,拷贝。以下创建float4类型的width*height*depth大小的数组,在线性存储器中。<br /> <br />Host Code:<br />...<br />cudaPitchedPtr data;<br />cudaExtent extent = make_cudaExtent(width* sizeof(float4), height, depth);<br />cudaMalloc3D(&(d_data), extent);<br原创 2011-05-24 16:04:00 · 5222 阅读 · 1 评论 -
CUDA 存储器种类分析及使用方法指南
寄存器 局部存储器 共享存储器 全局存储器 主机端内存 主机端页锁定内存 常数存储器 纹理存储器 <br />存储器位置拥有缓存访问权限变量生存周期registerGPU (芯)片内N/Adevice 可读/写与thread相同local memory板载显存无device 可读/写与thread相同shared memoryGPU 片内N/Adevice 可读/写与block相同constant memory板载显存有device 可读,host可读/写可在程序中保持texture memory板载显存有转载 2011-05-23 22:30:00 · 1429 阅读 · 0 评论 -
CUDA程序优化
<br />CUDA程序优化应该考虑的点:<br />精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡;<br /> 延迟:需要首先缓冲一部分数据,缓冲的大小应该可以保证每个内核程序处理的一批数据能够让GPU慢负荷工作;<br /> 计算量:计算量太小的程序使用CUDA很不合算;当需要计算的问题的计算密集度很低的时候,执行计算的时间远远比IO花费的时间短,整个程序的瓶颈出现在PCI-E带宽上。<br />优秀的CUDA程序特征:<b转载 2011-05-30 16:15:00 · 1800 阅读 · 1 评论 -
基于GPU实现的高效的并行数据结构
基于GPU实现的高效的并行数据结构(Implementing Efficient Parallel Data Structures on GPUs)现代的GPU,在计算历史中第一次把数据并行、流式计算平台放入几乎每台台式计算机和笔记本电脑中。一些最近的学术派研究论文——以及本书的其他章节——演示了这些流式处理器有能力加速范围很广的应用程序,而不仅仅是它们本来所针对的实时渲染。然而,要利用这个计转载 2011-06-27 21:41:00 · 3484 阅读 · 0 评论