[菜鸟每天来段CUDA_C]向量相加的CUDA实现和顺序执行比较

最新推荐文章于 2025-09-18 14:18:17 发布

原创最新推荐文章于 2025-09-18 14:18:17 发布 · 2.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#cuda #向量相加 #运算时间

CUDA编程专栏收录该内容

18 篇文章

订阅专栏

本文通过实现CUDA并行计算与串行计算两种方式对50000维向量进行加法操作，并对比了两者在CUDA环境下的运行时间和效率，展示了CUDA并行计算的显著优势。

部署运行你感兴趣的模型镜像

本文首先利用CUDA实现了两个50000维向量加法的并行运算，然后对两个向量串行相加，对两者的计算时间做了比较。

1. CUDA 向量相加

A、B为随机生成的长度为50000的数组。核函数：

__global__ void vecAdd(const float* A, const float* B, float* C, int N)
{
      int i = blockDim.x * blockIdx.x + threadIdx.x;
      if (i < N)
      {
          C[i] = A[i] + B[i];
      }
}

调用：

vecAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);

2. 串行相加

void vecAdd(float* X, float* Y, float* Z, int n)
{
     for (int i=0; i<n; i++)
     {
          Z[i] = X[i] + Y[i];
     }
}

3. 运算时间

CUDA：串行：

由于CUDA中每个block中的线程数目设置为256，每次有256个核函数的拷贝并行执行。

所以起运行时间比串行执行快了100多倍~

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jonny_super

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

在.c文件中调用cuda函数

wang11234514的专栏

04-19

6538

问题描述：假设在Ubuntu的一个用户目录下有2个文件，main.c， VectorAdd.cpp，其中 VectorAdd.cpp有vectorAdd函数，main.c提供程序的入口main函数。现在为了在main.c中实现两个向量相加的操作，就需要调用 VectorAdd.cpp中的vectorAdd函数首先列出三个文件中的内容 //VectorAdd.cpp extern "C"

CUDA GPU高性能运算

ytffhew的博客

11-11

1411

CUDA GPU高性能运算

参与评论您还未登录，请先登录后发表或查看评论

【CUDA 基础】4.5 使用统一内存的向量加法

weixin_30674525的博客

06-26

196

title: 【CUDA 基础】4.5 使用统一内存的向量加法 categories: - CUDA - Freshman tags: - 统一内存 - Uniform Memory toc: true date: 2018-05-14 17:24:55 Abstract: 使用统一内存的CUDA程序——向量加法 Keywords: 统一内存，U...

第一个cuda程序-基于VS2010+CUDA5.0 两个向量相加的GPU实现

夕心木的专栏

12-30

1581

第一个cuda程序-基于VS2010+CUDA5.0 两个向量相加的GPU实现第一个cuda程序-基于VS2010+CUDA5.0 两个向量相加的GPU实现 1.新建一个空白的控制台应用程序。

cuda、GPU实现向量相加

06-27

cuda、GPU实现向量相加

CUDA(六):多种方法实现向量加

hjxu2016的博客

07-06

2988

文章目录一、单block 单thread相加二、单block多thread相加向量加法是高性能运算中最简单的运算，本章节将通过CUDA中的几种加法例子来理解CUDA中thread/block的概念一、单block 单thread相加 GPU端的向量加法与CPU端类似，只是核函数申明需要用__global__限定符标识；核函数调用时需要<<< X, X>>>配置grid和block维度。 /**====================================

VS2010+cuda4.2向量加法时间比较

wufenxia的专栏

12-11

1640

VS2010+cuda4.2向量加法时间比较 #include #include #include #include void output(float *arr,int n);//输出向量中的元素值 void VectorAdd(float *A,float *B,float *C,int n);//CPU上计算两向量相加 //device code __global__ v

CUDA学习

03-20

# 示例：简单的向量加法 CUDA Python 实现 (伪代码形式展示逻辑思路) import pycuda.autoinit from pycuda import gpuarray as ga import numpy as np def vector_addition(a, b): a_gpu = ga.to_gpu(np.array(a)...

transformer（下）机器翻译+pytorch实现

最新发布

garlic的博客

09-18

本文介绍了TensorFlow的基础入门知识，涵盖从安装配置到实际操作的完整流程。内容包括TensorFlow环境验证、张量的表示与创建、常用操作符的使用、会话执行机制以及将代码理解为计算图的核心概念。同时提供了常见问题解决方案、练习示例和操作步骤总结，帮助初学者快速掌握TensorFlow的基本用法，为后续深入学习机器学习打下坚实基础。

一个CUDA的小例子（向量相加）

smsmn的专栏

04-11

3018

<br />一个实现用CUDA技术来实现向量相加的小例子：<br />用每一个线程来计算两个向量相对应的数据：<br />#include<stdio.h> #include<cutil_inline.h> //主机端变量 float* h_A; float* h_B; float* h_C; //设备端变量 float* d_A; float* d_B; float* d_C; bool noprompt = false; //Functions void Cleanu

cuda核函数再调用核函数，多层并行

linger(心怀梦想，活在当下，知乎ID：linger liu)

05-29

7192

#include __global__ void childKernel(int i) { int tid = blockIdx.x*blockDim.x+threadIdx.x; printf("parent:%d,child:%d\n",i,tid); for(int j=i;j<i+10;j++) { printf(",%d",j); } printf("\n");

CUDA kernel的执行顺序

不甘平凡的小鸟的专栏

04-11

2069

一般来说，cuda的kernel是顺序执行的，不管是在哪个流上执行kernel，kernel执行引擎会顺序执行kernel。不过对于支持并发kernel的gpu来说，kernel是可以并发执行的。参见CUDA的sample ：6_Advanced\concurrentKernels ...

CUDA By Examples 2 - 并行计算向量相加

Full_Speed_Turbo

05-03

1170

向量相加的并行计算编程示例

CUDA编程：向量加法

愿世界和平的IT劝退师

11-03

3512

Hello World： #include using namespace std; __global__ void kernel(void) { } int main() { kernel>>; cout return 0; } 【注意】 1. 运行在GPU上的程序称为kernel函数，表示设备

cuda_c学习笔记-向量加法

weixin_34088598的博客

04-30

346

用cuda计算向量加法A+B=C 流程： 1.申请主机内存。向量A，向量B，计算结果C 2.初始化数据。用0-1之间的随机数初始化向量A，B，C 3.GPU内存申请。申请A，B，C需要的GPU内存空间 4.数据拷贝。把数据从主机内存拷贝至GPU内存 5.计算需要的线程数和线程块数。 6.调用GPU加法函数 7.数据拷贝。把结果从GPU内存拷贝至主机内存。 8.在CPU上重新运行一...

CUDA C编程向量加法-第3章 CUDA 简介

qq_40491305的博客

03-08

882

第3章 CUDA 简介这章主要以向量加法 vector add 为切入点，讲述了如何把一个 c 语言向量加法代码改写为 cuda扩展的c语言向量加法。 1.1 传统向量加法传统向量加法是通过循环实现的 1.2 CUDA 加法加速 cuda向量加法是通过多线程控制的cuda加法并行实现的，即同时打开n个线程，每个线程计算1个加法，则长度为n的向量被同步计算。使用CUDA扩展的程序，需要三个步骤：先申请设备（device, cuda）的内存（memory），将数据从主机（host）复制到设备（de

CUDA学习笔记04：向量之和

weixin_42130300的博客

03-05

622

学习笔记，代码片段留下来用来参考备忘

CUDA——向量化内存

xiaohu的博客

11-25

1618

cuobjdump 从 CUDA 二进制文件（独立的和嵌入在主机二进制文件中的文件）中提取信息，并以人类可读的格式呈现它们。此外，如前所述，如果您的指针未对齐或您的数据类型大小（以字节为单位）不是 2 的幂，则您不能使用矢量化加载。在本文中，我将向您展示如何在 CUDA C/C++ 中使用矢量加载和存储来帮助提高带宽利用率，同时减少执行指令的数量。最后，我们启动的线程数是我们在标量内核中执行的线程数的一半。所有其他指令都是相同的。但是，需要注意的是，执行的指令数量将减少一半，因为循环只执行了 N/2 次。

jetson nano的CUDA_ARCH_BIN应该设置多少

05-03

Jetson Nano的CUDA_ARCH_BIN应该设置为"5.3"。这是因为Jetson Nano使用的GPU架构是NVIDIA Maxwell，它的计算能力为5.3。如果您的应用程序需要在Jetson Nano上运行CUDA加速，那么在编译CUDA代码时，需要设置CUDA_ARCH_BIN为5.3以确保代码能够正确编译和运行。