本文首先利用CUDA实现了两个50000维向量加法的并行运算,然后对两个向量串行相加,对两者的计算时间做了比较。
1. CUDA 向量相加
A、B为随机生成的长度为50000的数组。核函数:
__global__ void vecAdd(const float* A, const float* B, float* C, int N)
{
int i = blockDim.x * blockIdx.x + threadIdx.x;
if (i < N)
{
C[i] = A[i] + B[i];
}
}
调用:
vecAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);
2. 串行相加
void vecAdd(float* X, float* Y, float* Z, int n)
{
for (int i=0; i<n; i++)
{
Z[i] = X[i] + Y[i];
}
}
3. 运算时间
CUDA: 串行:
由于CUDA中每个block中的线程数目设置为256,每次有256个核函数的拷贝并行执行。
所以起运行时间比串行执行快了100多倍~
本文通过实现CUDA并行计算与串行计算两种方式对50000维向量进行加法操作,并对比了两者在CUDA环境下的运行时间和效率,展示了CUDA并行计算的显著优势。
6538

被折叠的 条评论
为什么被折叠?



