
CUDA学习
文章平均质量分 76
something的马甲
学习
展开
-
CUDA学习--一维矩阵的加
//实现一个一维1*16的小矩阵的加法。 //矩阵大小:1*16 //分配一个block,共有16个线程并发。 #include #include #include #include #include #define VEC_SIZE 16 //kernel function __global__ void vecAdd(float* d_A,float* d_B,float* d_C)原创 2009-10-30 21:17:00 · 2240 阅读 · 2 评论 -
cudaMallocPitch()使用
名称 cudaMallocPitch – 向GPU分配存储器概要 cudaError_t cudaMallocPitch( void** devPtr,size_t* pitch,size_t widthInBytes,size_t height )说明 向设备分配至少widthInBytes*height字节的线性存储器,并以*devPtr的形式返回指向所分配存储器的指针。该函数可以填充原创 2009-11-15 20:59:00 · 16547 阅读 · 1 评论 -
CUDA学习—cudaMallocArray()
名称: cudaMemcpyToArray – 在主机和设备间复制数据概要: cudaError_t cudaMemcpyToArray(struct cudaArray* dstArray,size_t dstX,size_t dstY,const void* src,size_t count,enum cudaMemcpyKind kind) cudaError_t cudaMemcpyT原创 2009-11-15 22:05:00 · 10293 阅读 · 1 评论 -
CUDA学习——统计时间
在CUDA中统计运算时间,大致有三种方法: 使用cutil.h中的函数unsigned int timer=0;//创建计时器cutCreateTimer(&timer);//开始计时cutStartTimer(timer);{ //统计的代码段 …………}//停止计时cutStopTimer(timer);//获得从开始计时到停止之间的时间cutGetTimerValue( time原创 2009-11-20 19:00:00 · 9287 阅读 · 7 评论 -
CUDA学习——CUDA代码常用编写技巧(转)
1. 声明 __shared__ 变量或数组:__shared__ float sh_farr[ 256];__shared__ int a;2.结构体指针成员的分配设备内存:typedef struct Teacher_t...{ int a; unsigned int *g_mem1; float *g_mem2;}转载 2009-11-21 09:41:00 · 3219 阅读 · 0 评论 -
CUDA学习——BMP文件格式
现在开始学习有关数字图像处理部分,首先接触的是BMP图像。 刚开始以为很多有关图像格式的定义需要自己来完成,后来才知道,这些已经被包含在内库中了,感觉比较方便。 首先介绍一下BMP图像的文件格式: 位图文件头->文图信息头->彩色表->位图数据。 以下源代码是《数字图像处理实训教程》中有关raw数据到bmp格式的转换,是八位的bm原创 2009-11-26 10:18:00 · 1412 阅读 · 0 评论