CUDA学习之五（通用运行时组件）

最新推荐文章于 2025-03-16 20:29:32 发布

原创最新推荐文章于 2025-03-16 20:29:32 发布 · 4.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#cuda #存储 #float #图形 #c

CUDA 专栏收录该内容

27 篇文章

订阅专栏

本文介绍了CUDA编程的基本要素，包括内置向量类型、dim3类型、数学和计时函数、以及纹理类型的详细说明。重点讲解了纹理参考的声明方式及其属性。

部署运行你感兴趣的模型镜像

主机和设备函数均可使用通用运行时组件。

内置向量类型：char1、uchar1、char2、uchar2、char3、uchar3、char4、uchar4、short1、ushort1、short2、ushort2、short3、ushort3、short4、ushort4、int1、uint1、int2、uint2、int3、uint3、int4、uint4、long1、ulong1、long2、ulong2、long3、ulong3、long4、ulong4、float1、float2、float3、float4、double2

dim3 类型：此类型是一种整形向量类型，基于用于指定维度的 uint3。在定义类型为 dim3 的变量时，未指定的任何组件都将初始化为 1。

数学函数：包含了当前支持的 C/C++ 标准库数学函数的完整列表，还分别给出了在设备上执行时的误差范围。

在主机代码中执行时，给定函数将在可用的前提下使用 C 运行时实现。

计时函数：

clock_t clock();

在设备代码中执行时，返回随每一次时钟周期而递增的每个多处理器计数器的值。在内核启动和结束时对此计数器取样，确定两次取样的差别，然后为每个线程记录下结果，这为各线程提供一种度量方法，可度量设备为了完全执行线程而占用的时钟周期数，但不是设备在执行线程指令时而实际使用的时钟周期数。前一个数字要比后一个数字大得多，因为线程是分时的。

纹理类型：

CUDA 支持 GPU 用于图形的纹理硬件子集，使之可访问纹理存储器。从纹理存储器而非全局存储器读取数据可带来多方面的性能收益。

内核使用称为纹理获取（texture fetch）的设备函数读取纹理存储器。纹理获取的第一个参数指定称为纹理参考的对象。

纹理参考定义获取哪部分的纹理存储器。必须通过主机运行时函数（将其绑定到存储器的某些区域（即纹理），之后才能供内核使用。多个不同的纹理参考可绑定到同一个纹理，也可绑定到在存储器中存在重叠的纹理。

纹理参考有一些属性。其中之一就是其维度，指定纹理是使用一个纹理坐标（texture coordinate）将纹理作为一维数组寻址、使用两个纹理坐标作为二维数组寻址，还是使用三个纹理坐标作为三维数组寻址。数组的元素称为 texel，即“texture elements（纹理元素）”的简写。

其他属性定义纹理获取的输入和输出数据类型，并指定如何介绍输入坐标、应进行怎样的处理。

纹理参考的部分属性是不变的，在编译时必须为已知，这些属性是在声明纹理参考时指定的。纹理参考在文件作用域内声明，形式为 texture 类型的变量：

texture<Type, Dim, ReadMode> texRef;

其中：

Type 指定获取纹理时所返回的数据类型；Type 仅限于基本整型、单精度浮点类型和第 4.3.1.1 节定义的 1 组件、2 组件和 4 组件向量类型；

Dim 指定纹理参考的维度，其值为 1、2 或 3；Dim 是一个可选的参数，默认值为 1；

ReadMode 等于 cudaReadModeNormalizedFloat 或 cudaReadModeElementType；如果是cudaReadModeNormalizedFloat，且 Type 为 16 位或 8 位整型类型，则值将作为浮点类型返回，对于所有整型数据而言，无符号整型将映射为 [0.0, 1.0]，有符号整型将映射为 [-1.0, 1.0]，例如，一个值为 0xff 的无符号 8 位纹理元素将被读取为 1；如果是 cudaReadModeElementType，则不执行任何转换操作；ReadMode 是一个可选的参数，默认值为 cudaReadModeElementType。

纹理参考的其他属性是可变的，可通过主机运行时在运行时更改。它们指定纹理坐标是否为规范化的，以及寻址模式和纹理过滤，下面将介绍相关内容。

默认情况下，使用 [0, N）范围内的浮点坐标引用纹理，其中的 N 是纹理在对应于坐标的维度中的大小。例如，有一个大小为 64x32 的纹理，在 x 和 y 维度引用此纹理时坐标分别处于 [0, 63] 和 [0, 31] 范围内。规范化的纹理坐标将在 [0.0, 1.0) 的范围内指定，而非 [0, N)，因此在规范化的坐标内，同一 64x32 纹理的寻址范围在 x 和 y 维度均为 [0, 1)。一般情况下，纹理坐标与纹理大小无关，规范化的纹理坐标通常足以满足一些应用程序的需求。

寻址模式定义在纹理坐标超出范围时将出现怎样的情况。在使用非规范化纹理坐标时，超出 [0, N) 范围的纹理坐标将被调整：小于 0 的值被设置为 0，大于或等于 N 的值被设置为 N-1。在使用规范化纹理坐标时，默认寻址模式也是调整坐标：小于 0.0 或大于 1.0 的值将被调整到范围 [0.0, 1.0) 内。对于规范化坐标，“warp 块”的寻址模式也可指定。Warp 块寻址往往在纹理包含周期信号时使用。它仅使用纹理坐标的一部分，例如，1.25 被视为 0.25，-1.25 被视为 0.75.

线性纹理过滤只能对配置为返回浮点数据的纹理进行。这将在相邻 texel 间执行低精度插值。在启用时，位于纹理获取位置周围的 texel 将被读取，纹理获取的返回值将根据纹理坐标在 texel 间的位置进行插值。对于一维纹理执行简单的线性插值，而对于二维纹理则执行双线性插值。

纹理可以是线性存储器或 CUDA 数组的任意区域。

在线性存储器内分配的纹理：

维度仅能为 1；

不支持纹理过滤；

仅可使用非规范化整型纹理坐标寻址；

不支持多种寻址模式：超出范围的纹理访问将返回零。

硬件会对纹理基址实施对齐要求。为了抽象这种来自程序员的对齐要求，绑定设备存储器上的纹理参考的函数将传回一个字节偏移，必须将其应用到纹理获取，之后才能读取所需的存储器。CUDA 分配例程返回的基址指针符合这种对齐限制，因此应用程序可通过向 cudaBindTexture()/cuTexRefSetAddress() 传递所分配的指针来完全避免偏移。

您可能感兴趣的与本文相关的镜像