主机和设备函数均可使用通用运行时组件。
内置向量类型:char1、uchar1、char2、uchar2、char3、uchar3、char4、uchar4、short1、ushort1、short2、ushort2、short3、ushort3、short4、ushort4、int1、uint1、int2、uint2、int3、uint3、int4、uint4、long1、ulong1、long2、ulong2、long3、ulong3、long4、ulong4、float1、float2、float3、float4、double2
dim3 类型:此类型是一种整形向量类型,基于用于指定维度的 uint3。在定义类型为 dim3 的变量时,未指定的任何组件都将初始化为 1。
数学函数:包含了当前支持的 C/C++ 标准库数学函数的完整列表,还分别给出了在设备上执行时的误差范围。
在主机代码中执行时,给定函数将在可用的前提下使用 C 运行时实现。
计时函数:
clock_t clock();
在设备代码中执行时,返回随每一次时钟周期而递增的每个多处理器计数器的值。在内核启动和结束时对此计数器取样,确定两次取样的差别,然后为每个线程记录下结果,这为各线程提供一种度量方法,可度量设备为了完全执行线程而占用的时钟周期数,但不是设备在执行线程指令时而实际使用的时钟周期数。前一个数字要比后一个数字大得多,因为线程是分时的。
纹理类型:
CUDA 支持 GPU 用于图形的纹理硬件子集,使之可访问纹理存储器。从纹理存储器而非全局存储器读取数据可带来多方面的性能收益。
内核使用称为纹理获取(texture fetch)的设备函数读取纹理存储器。纹理获取的第一个参数指定称为纹理参考的对象。
纹理参考定义获取哪部分的纹理存储器。必须通过主机运行时函数(将其绑定到存储器的某些区域(即纹理),之后才能供内核使用。多个不同的纹理参考可绑定到同一个纹理,也可绑定到在存储器中存在重叠的纹理。
纹理参考有一些属性。其中之一就是其维度,指定纹理是使用一个纹理坐标(texture coordinate)将纹理作为一维数组寻址、使用两个纹理坐标作为二维数组寻址,还是使用三个纹理坐标作为三维数组寻址。数组的元素称为 texel,即“texture elements(纹理元素)”的简写。
其他属性定义纹理获取的输入和输出数据类型,并指定如何介绍输入坐标、应进行怎样的处理。
纹理参考的部分属性是不变的,在编译时必须为已知,这些属性是在声明纹理参考时指定的。纹理参考在文件作用域内声明,形式为 texture 类型的变量:
texture<Type, Dim, ReadMode> texRef;
其中:
Type 指定获取纹理时所返回的数据类型;Type 仅限于基本整型、单精度浮点类型和第 4.3.1.1 节定义的 1 组件、2 组件 和 4 组件向量类型;
Dim 指定纹理参考的维度,其值为 1、2 或 3;Dim 是一个可选的参数,默认值为 1;
ReadMode 等于 cudaReadModeNormalizedFloat 或 cudaReadModeElementType;如果是cudaReadModeNormalizedFloat,且 Type 为 16 位或 8 位整型类型,则值将作为浮点类型返回,对于所有整型数据而言,无符号整型将映射为 [0.0, 1.0],有符号整型将映射为 [-1.0, 1.0],例如,一个值为 0xff 的无符号 8 位纹理元素将被读取为 1;如果是 cudaReadModeElementType,则不执行任何转换操作;ReadMode 是一个可选的参数,默认值为 cudaReadModeElementType。
纹理参考的其他属性是可变的,可通过主机运行时在运行时更改。它们指定纹理坐标是否为规范化的,以及寻址模式和纹理过滤,下面将介绍相关内容。
默认情况下,使用 [0, N) 范围内的浮点坐标引用纹理,其中的 N 是纹理在对应于坐标的维度中的大小。例如,有一个大小为 64x32 的纹理,在 x 和 y 维度引用此纹理时坐标分别处于 [0, 63] 和 [0, 31] 范围内。规范化的纹理坐标将在 [0.0, 1.0) 的范围内指定,而非 [0, N),因此在规范化的坐标内,同一 64x32 纹理的寻址范围在 x 和 y 维度均为 [0, 1)。一般情况下,纹理坐标与纹理大小无关,规范化的纹理坐标通常足以满足一些应用程序的需求。
寻址模式定义在纹理坐标超出范围时将出现怎样的情况。在使用非规范化纹理坐标时,超出 [0, N) 范围的纹理坐标将被调整:小于 0 的值被设置为 0,大于或等于 N 的值被设置为 N-1。在使用规范化纹理坐标时,默认寻址模式也是调整坐标:小于 0.0 或大于 1.0 的值将被调整到范围 [0.0, 1.0) 内。对于规范化坐标,“warp 块”的寻址模式也可指定。Warp 块寻址往往在纹理包含周期信号时使用。它仅使用纹理坐标的一部分,例如,1.25 被视为 0.25,-1.25 被视为 0.75.
线性纹理过滤只能对配置为返回浮点数据的纹理进行。这将在相邻 texel 间执行低精度插值。在启用时,位于纹理获取位置周围的 texel 将被读取,纹理获取的返回值将根据纹理坐标在 texel 间的位置进行插值。对于一维纹理执行简单的线性插值,而对于二维纹理则执行双线性插值。
纹理可以是线性存储器或 CUDA 数组的任意区域。
在线性存储器内分配的纹理:
维度仅能为 1;
不支持纹理过滤;
仅可使用非规范化整型纹理坐标寻址;
不支持多种寻址模式:超出范围的纹理访问将返回零。
硬件会对纹理基址实施对齐要求。为了抽象这种来自程序员的对齐要求,绑定设备存储器上的纹理参考的函数将传回一个字节偏移,必须将其应用到纹理获取,之后才能读取所需的存储器。CUDA 分配例程返回的基址指针符合这种对齐限制,因此应用程序可通过向 cudaBindTexture()/cuTexRefSetAddress() 传递所分配的指针来完全避免偏移。