CUDA
文章平均质量分 63
大道@至简
大道至简
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CUDA各种内存和使用方法
例如:blockSize = 128,一个SM有2048个线程,那么一个SM能同时处理16个block。如果SM有96K的共享内存,每个block则分配96 / 16 = 6K,太大其他block无法获得使用。每个SM的共享内存数量是一定的,也就是说,如果在单个线程块中分配过度的共享内存,将会限制活跃线程束的数量;合适分配单个线程块的共享内存,使得SM的使用率最大化,起到加速的作用。特点:存储只读数据,访问速度快,广播式访问。使用:存储线程块中的共享数据,加速线程间的数据处理。使用:频繁访问的常量数据,原创 2024-12-26 22:18:43 · 1418 阅读 · 0 评论 -
显卡对应的算力表
显卡对应算力。GeForce RTX 3070, 3080, 3090ARCH= -gencode arch=compute_86,code=[sm_86,compute_86]转载 2024-05-01 23:09:49 · 5760 阅读 · 0 评论 -
CUDA共享内存详解
对于CUDA,一个grid 有多个Block 块,一个block块多个线程。共享内存只是Block 块内的线程共享,不同Block块之间的共享内存是不会共享的。shared。原创 2023-06-19 13:04:46 · 1675 阅读 · 0 评论 -
CUDA 图像编程
CUDA 图像编程一个 Grid 分成 按维度分成多个Block,个数为 GridDim.x * GridDim.y遍历: blockIdx.x , blockIdx.y一个Block 按维度分成多个Thread,个数为 BlockDim.x * BlockDim.yThread 是最小的运行单元遍历:threadIdx.x , threadIdx.y图像处理中,一个像素对应到一个...原创 2019-12-04 20:57:18 · 1527 阅读 · 0 评论 -
linux 下 CUDA + Opencv 编程 之 CMakeLists.txt
CMAKE_MINIMUM_REQUIRED(VERSION 2.8)PROJECT(medianFilterGPU)# CUDA packageFIND_PACKAGE(CUDA REQUIRED) INCLUDE(FindCUDA)# CUDA include directoriesINCLUDE_DIRECTORIES(/usr/local/cuda/include)# OpenCV packageFIND_PACKAGE(OpenCV REQUIRED) # OpenCV in原创 2021-09-27 15:35:43 · 525 阅读 · 0 评论 -
CUDA 二维、三维数组遍历
一个 Grid 分成 按维度分成多个Block,Block 个数为 GridDim.x * GridDim.y遍历: blockIdx.x , blockIdx.y一个Block 按维度分成多个Thread,Thread个数为 BlockDim.x * BlockDim.yThread 是最小的运行单元遍历:threadIdx.x , threadIdx.ycudaMemcpy2D( d_A, // 目的指针d_pitch, // 目的pitchbmp1, // 源原创 2022-06-26 23:04:57 · 1612 阅读 · 0 评论 -
CUDA reduce 并行规约求和
例如, 1024 * 1024 大小的数据, 每一个block处理1024个数据, 一共1024 个block, 处理完后剩下1024个数据, 接着在处理, 就有加速的效果:每一个block 块作为。原创 2022-12-28 22:47:36 · 1354 阅读 · 1 评论
分享