
cuda
文章平均质量分 74
dumeichen
这个作者很懒,什么都没留下…
展开
-
cuda——数组相加(矢量和)
#include #define N 65535//数组长度#define M 128//指定的每个线程块的线程数量int a[N],b[N],c[N];__global__ void add(int* a,int* b,int* c){ int tid = threadIdx.x+blockIdx.x*blockDim.x;//计算线程索引 while(tid < N){ c[t原创 2014-05-04 19:42:47 · 1417 阅读 · 0 评论 -
cuda——测试页锁定内存
/*测试cudaMemcpy()在可分页内存和页锁定内存上的性能差异步骤:分配一个GPU缓冲区,以及一个同样大小的Host缓冲区,然后在这两个缓冲区上面进行一系列的复制操作。用户指定方向(从主机到GPU定义为up)为了获得精确的时间统计,我们设计CUDA时间以进行测试*/#include #define N 100//复制的次数#define SIZE 1024*1024*10/*在原创 2014-05-04 19:44:24 · 886 阅读 · 0 评论 -
cuda——向量内积
/*求两个向量的内积(点积)。两个向量由数组a和数组b给出*/#include #include #define N 100#define M 128//指定的每个线程块的线程数量int a[N],b[N],c[N];__global__ void dot(int* a,int* b,int* c){ int tid = threadIdx.x + blockIdx.x*blockD原创 2014-05-04 19:45:29 · 1732 阅读 · 0 评论 -
cuda——使用多个stream
/*/*对stream的介绍,使用两个流*/#include #define N 1024*1024//每次从CPU传输到GPU的数据块大小#define M N*20//CPU上的总数据量/*测试设备是否支持边执行核函数边复制数据*/bool support_overlap(){ cudaDeviceProp prop; int preDev; cudaGetDevice(&pr原创 2014-05-04 19:47:45 · 2860 阅读 · 0 评论 -
cuda——使用stream
/*对stream的介绍*/#include #define N 1024*1024//每次从CPU传输到GPU的数据块大小#define M N*10//CPU上的总数据量/*测试设备是否支持边执行核函数边复制数据*/bool support_overlap(){ cudaDeviceProp prop; int preDev; cudaGetDevice(&preDev);原创 2014-05-04 19:46:26 · 2202 阅读 · 0 评论