[菜鸟每天来段CUDA_C]向量相加的CUDA实现和顺序执行比较

本文通过实现CUDA并行计算与串行计算两种方式对50000维向量进行加法操作,并对比了两者在CUDA环境下的运行时间和效率,展示了CUDA并行计算的显著优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文首先利用CUDA实现了两个50000维向量加法的并行运算,然后对两个向量串行相加,对两者的计算时间做了比较。


1. CUDA 向量相加

A、B为随机生成的长度为50000的数组。核函数:

__global__ void vecAdd(const float* A, const float* B, float* C, int N)
{
      int i = blockDim.x * blockIdx.x + threadIdx.x;
      if (i < N)
      {
          C[i] = A[i] + B[i];
      }
}

调用:

vecAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);

2. 串行相加

void vecAdd(float* X, float* Y, float* Z, int n)
{
     for (int i=0; i<n; i++)
     {
          Z[i] = X[i] + Y[i];
     }
}

3. 运算时间

CUDA:                                                          串行:

     

由于CUDA中每个block中的线程数目设置为256,每次有256个核函数的拷贝并行执行。

所以起运行时间比串行执行快了100多倍~



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值