CUDA-GPU programming introduction (2)

本文介绍了CUDA编程的基本概念,包括存储类别限定符、数据类型、内置内核变量等,并详细阐述了如何定义和调用CUDA内核函数,以及如何利用dim3进行网格和块的配置。

CUDA extension to C language:
storage class qualifiers:
functions:
1*__global__ Device kernels callable from host (and from device on CC 3.x or higher
2*__device__ Device functions (only callable from device)
3*__host__ Host functions (only callable from host)
- default if not specified
- can be combined with *__device__
(实际编程的时候没有前面的*,这里是因为前后下划线的书写与Markdown语法冲突)

data:
*__shared__ Memory shared by a block of threads executing on a
multiprocessor.
*__constant__ Special memory for constants (cached)

CUDA数据类型:

• C primatives:
– char, int, float, double, …
• Short vectors:
– int2, int3, int4, uchar2, uchar4, float2, float3, float4, …
– no built-in vector math (although a utility header, cutil_math.h, defines some
common operations)
• Special type used to represent dimensions
– dim3
• Support for user-defined structures, e.g.:
struct particle
{
float3 position, velocity, acceleration;
float mass;
};

主要就是在C语言基础上拓展了一些vector类型和dim这个表示维度的类型。
以dim为类型,十分重要的几个CUDA内置参数如下:

Built-in kernel variables
dim3 gradDim – number of blocks in grid
dim3 blockDim – number of threads per block
dim3 blockIdx – number of current block within grid
dim3 threadIdx – index of current thread within block

CUDA函数基本限制:

CUDA kernels: limitations
• No recursion in *__global__ functions
• Can have recursion in *__device__ functions on cards with CC 2.x or higher
• No variable argument lists
• No dynamic memory allocation
• Function pointers to *__device__ functions in device code only supported on CC 2.x or higher
• No static variables inside kernels (except *__shared__)

注意:我们可以根据不同的GPU计算能力(CC)设置不同的code,
这里写图片描述

Launching kernels
• Launchable kernels must be declared as ‘*__global__ void’

__global__ void myKernel(paramList);

• Kernel calls must specify device execution environment

grid definition – number of blocks in grid
block definition – number of threads per block
optionally, may specify amount of shared memory per block (more on that later)

• Kernel launch syntax:

myKernel<<<GridDef, BlockDef>>>(paramList);

GridDef and BlockDef can be specified as dim3
objects
– grids can be 1D, 2D or 3D
– blocks can be 1D, 2D or 3D
• This makes it easy to set up different memory addressing for multi-dimensional data.

Thread addressing:

1D addressing example: 100 blocks with 256 threads per block:
dim3 gridDef1(100,1,1);
dim3 blockDef1(256,1,1);
kernel1<<<gridDef1, blockDef1>>>(paramList);

• 2D addressing example: 10x10 blocks with 16x16 threads per block:
dim3 gridDef2(10,10,1);
dim3 blockDef2(16,16,1);
kernel2<<<gridDef2, blockDef2>>>(paramList);

• Both examples launch the same number of threads, but block and thread
indexing is different
– kernel1 uses blockIdx.x, blockDim.x and threadIdx.x
– kernel2 uses blockIdx.[xy], blockDim.[xy], threadIdx.[xy]

one dimensional addressing example:

__global__ void kernel1(float *idata, float *odata)
{
    int i;
    i = blockIdx.x * blockDim.x + threadIdx.x;
    odata[i] = func(idata[i]);
}

two dimensional addressing example:

__global__ void kernel2(float *idata, float *odata, int pitch)
{
    int x, y, i;
    x = blockIdx.x * blockDim.x + threadIdx.x;
    y = blockIdx.y * blockDim.y + threadIdx.y;
    i = y * pitch + x;
    odata[i] = func(idata[i]);
}
...
dim3 gridDef2(10,10,1);
dim3 blockDef2(16,16,1);
kernel2<<<gridDef2, blockDef2>>>(paramList);

addressing 示意图:
这里写图片描述

### 光流法C++源代码解析与应用 #### 光流法原理 光流法是一种在计算机视觉领域中用于追踪视频序列中运动物体的方法。它基于亮度不变性假设,即场景中的点在时间上保持相同的灰度值,从而通过分析连续帧之间的像素变化来估计运动方向和速度。在数学上,光流场可以表示为像素位置和时间的一阶导数,即Ex、Ey(空间梯度)和Et(时间梯度),它们共同构成光流方程的基础。 #### C++实现细节 在给定的C++源代码片段中,`calculate`函数负责计算光流场。该函数接收一个图像缓冲区`buf`作为输入,并初始化了几个关键变量:`Ex`、`Ey`和`Et`分别代表沿x轴、y轴和时间轴的像素强度变化;`gray1`和`gray2`用于存储当前帧和前一帧的平均灰度值;`u`则表示计算出的光流矢量大小。 #### 图像处理流程 1. **初始化和预处理**:`memset`函数被用来清零`opticalflow`数组,它将保存计算出的光流数据。同时,`output`数组被填充为白色,这通常用于可视化结果。 2. **灰度计算**:对每一像素点进行处理,计算其灰度值。这里采用的是RGB通道平均值的计算方法,将每个像素的R、G、B值相加后除以3,得到一个近似灰度值。此步骤确保了计算过程的鲁棒性和效率。 3. **光流向量计算**:通过比较当前帧和前一帧的灰度值,计算出每个像素点的Ex、Ey和Et值。这里值得注意的是,光流向量的大小`u`是通过`Et`除以`sqrt(Ex^2 + Ey^2)`得到的,再乘以10进行量化处理,以减少计算复杂度。 4. **结果存储与阈值处理**:计算出的光流值被存储在`opticalflow`数组中。如果`u`的绝对值超过10,则认为该点存在显著运动,因此在`output`数组中将对应位置标记为黑色,形成运动区域的可视化效果。 5. **状态更新**:通过`memcpy`函数将当前帧复制到`prevframe`中,为下一次迭代做准备。 #### 扩展应用:Lukas-Kanade算法 除了上述基础的光流计算外,代码还提到了Lukas-Kanade算法的应用。这是一种更高级的光流计算方法,能够提供更精确的运动估计。在`ImgOpticalFlow`函数中,通过调用`cvCalcOpticalFlowLK`函数实现了这一算法,该函数接受前一帧和当前帧的灰度图,以及窗口大小等参数,返回像素级别的光流场信息。 在实际应用中,光流法常用于目标跟踪、运动检测、视频压缩等领域。通过深入理解和优化光流算法,可以进一步提升视频分析的准确性和实时性能。 光流法及其C++实现是计算机视觉领域的一个重要组成部分,通过对连续帧间像素变化的精细分析,能够有效捕捉和理解动态场景中的运动信息
CUDA示例:通用GPU编程入门》是一本介绍使用CUDA编程的书籍。CUDA是一种通用计算架构,可以使开发者能够在GPU上执行复杂的并行计算任务。这本书通过大量的示例代码,介绍了如何使用CUDA来利用GPU的并行计算能力。 这本书首先介绍了GPU的工作原理和CUDA的基本概念,激发了读者对GPU编程的兴趣。然后,它详细介绍了CUDA的核心概念,包括线程、线程块和网格,以及CUDA内存模型。读者可以了解如何编写CUDA核函数,并了解如何在不同的线程间进行通信和同步。 随后,这本书通过一系列实际的示例代码,展示了如何使用CUDA来解决不同类型的问题。这些示例包括向量加法、矩阵乘法、图像处理等。每个示例都详细介绍了问题的背景、解决方案和实现细节。读者可以通过阅读这些示例代码,学习如何将问题转化为可在GPU上运行的并行计算任务,并了解如何优化GPU程序的性能。 此外,这本书还介绍了一些高级的CUDA主题,如共享内存、纹理内存和流式处理器等。这些主题可以帮助读者进一步扩展他们的GPU编程知识,并实现更复杂和高效的并行计算任务。 总之,《CUDA示例:通用GPU编程入门》是一本很好的介绍CUDA编程的书籍。它深入浅出地介绍了CUDA的基本概念和技术,通过丰富的示例代码,帮助读者从零开始学习并掌握CUDA编程。无论是初学者还是有一定CUDA编程经验的开发者,都可以从这本书中获得很多有价值的知识和经验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值