
CUDA
文章平均质量分 76
ouczoe
Master candidate in Computer department of Ocean University of China.
Research Interests: Gpu Programming, Virtual Reality, Geologic Modeling, Image Processing.
展开
-
error LNK2005:*** already defined in ***
写了一个cuda程序,事实上是把cuda自带的一个程序写到了自己新建的一个工程里。 编译………… 提示两个warining,在前面的文章里,已经讲了解决方法。 提示有 error LNK2005:*** already defined in *** ,很费解,差了很多资料都没有解决。后来终于找到症结所在,把kernel函数设置为不参与编译。在matrixMul_ke原创 2009-12-03 14:47:00 · 6207 阅读 · 4 评论 -
(转)编译器原理
转载自: http://tb.donews.net/TrackBack.aspx?PostId=211668 一.预处理器-编译器-汇编器-链接器预处理器会处理相关的预处理指令,一般是以"#"开头的指令。如:#include "xx.h" #define等。编译器把对应的*.cpp翻译成*.s文件(汇编语言)。汇编器则处理*.s生成对应的*.o文件(obj目标文件)最后链接器把所有转载 2009-12-03 15:51:00 · 1447 阅读 · 1 评论 -
CUDA学习小记
断断续续看了一个星期cuda,然后就感冒了(cuda的魅力真是大==!),今天原地复活,复习一下,做下学习笔记。 CPU代码作用:在kernel启动前进行数据准备和设备初始化的工作,以及在kernel之间进行的一些串行运算。理想状况下 ,CPU串行代码的作用只是清理上一个kernel函数,并启动下一个kernel函数。 CUDA并行计算函数kernel:它是整个CUDA程序中的一个原创 2009-12-18 21:17:00 · 2729 阅读 · 0 评论 -
CUDA学习笔记之 CUDA存储器模型
CUDA存储器模型:GPU片内:register,shared memory;板载显存:local memory,constant memory, texture memory, texture memory,global memory;host 内存: host memory, pinned memory. register: 访问延迟极低; 基原创 2010-01-03 20:32:00 · 8578 阅读 · 1 评论 -
cuda学习笔记之异步并行执行
异步函数使得主机端与设备端并行执行:控制在设备还没有完成前就被返回给主机线程; 包括: kernel启动; 以Async为后缀的内存拷贝函数; device到device内存拷贝函数;存储器初始化函数,比如cudaMemset(),cudaMemset2D(),cudaMemset3D(); 一些设备能够在kernel执行期间,执行pinned memory和显原创 2010-01-03 21:13:00 · 8277 阅读 · 1 评论 -
CUDA学习笔记之Tesla图形与计算架构和通用计算模型
Tesla图形与计算架构:流处理器阵列(scalable streaming processor array,SPA)+存储器系统,由片上互联网络连接;存储器系统:存储器控制器(MMC)、固定功能的光栅操作单元(raster operation processors,ROP),二级纹理缓存; MMC:负责控制片外的DRAM显存,每个存储器可以提供64bit位宽;原创 2010-01-04 16:04:00 · 3216 阅读 · 0 评论 -
CUDA学习笔记之程序优化
CUDA程序优化CUDA程序优化应该考虑的点:精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡; 延迟:需要首先缓冲一部分数据,缓冲的大小应该可以保证每个内核程序处理的一批数据能够让GPU慢负荷工作; 计算量:计算量太小的程序使用CUDA很不合算;当需要计算的问题的计算密集度很低的时候,执行计算的时间远远比原创 2010-01-05 17:18:00 · 7112 阅读 · 5 评论