CUDA学习之五(通用运行时组件)

本文介绍了CUDA编程的基本要素,包括内置向量类型、dim3类型、数学和计时函数、以及纹理类型的详细说明。重点讲解了纹理参考的声明方式及其属性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主机和设备函数均可使用通用运行时组件。

内置向量类型char1uchar1char2uchar2char3uchar3char4uchar4short1ushort1short2ushort2short3ushort3short4ushort4int1uint1int2uint2int3uint3int4uint4long1ulong1long2ulong2long3ulong3long4ulong4float1float2float3float4double2

 

dim3 类型:此类型是一种整形向量类型,基于用于指定维度的 uint3。在定义类型为 dim3 的变量时,未指定的任何组件都将初始化为 1

 

数学函数:包含了当前支持的 C/C++ 标准库数学函数的完整列表,还分别给出了在设备上执行时的误差范围。

在主机代码中执行时,给定函数将在可用的前提下使用 C 运行时实现。

 

计时函数

clock_t clock();

在设备代码中执行时,返回随每一次时钟周期而递增的每个多处理器计数器的值。在内核启动和结束时对此计数器取样,确定两次取样的差别,然后为每个线程记录下结果,这为各线程提供一种度量方法,可度量设备为了完全执行线程而占用的时钟周期数,但不是设备在执行线程指令时而实际使用的时钟周期数。前一个数字要比后一个数字大得多,因为线程是分时的。

 

纹理类型

CUDA 支持 GPU 用于图形的纹理硬件子集,使之可访问纹理存储器。从纹理存储器而非全局存储器读取数据可带来多方面的性能收益。

内核使用称为纹理获取(texture fetch)的设备函数读取纹理存储器。纹理获取的第一个参数指定称为纹理参考的对象。

纹理参考定义获取哪部分的纹理存储器。必须通过主机运行时函数(将其绑定到存储器的某些区域(即纹理),之后才能供内核使用。多个不同的纹理参考可绑定到同一个纹理,也可绑定到在存储器中存在重叠的纹理。

纹理参考有一些属性。其中之一就是其维度,指定纹理是使用一个纹理坐标(texture coordinate)将纹理作为一维数组寻址、使用两个纹理坐标作为二维数组寻址,还是使用三个纹理坐标作为三维数组寻址。数组的元素称为 texel,即“texture elements(纹理元素)”的简写。

其他属性定义纹理获取的输入和输出数据类型,并指定如何介绍输入坐标、应进行怎样的处理。

纹理参考的部分属性是不变的,在编译时必须为已知,这些属性是在声明纹理参考时指定的。纹理参考在文件作用域内声明,形式为 texture 类型的变量:

texture<Type, Dim, ReadMode> texRef;

其中:

Type 指定获取纹理时所返回的数据类型;Type 仅限于基本整型、单精度浮点类型和第 4.3.1.1 节定义的 1 组件、2 组件 4 组件向量类型;

Dim 指定纹理参考的维度,其值为 12 3Dim 是一个可选的参数,默认值为 1

ReadMode 等于 cudaReadModeNormalizedFloat cudaReadModeElementType;如果是cudaReadModeNormalizedFloat,且 Type 16 位或 8 位整型类型,则值将作为浮点类型返回,对于所有整型数据而言,无符号整型将映射为 [0.0, 1.0],有符号整型将映射为 [-1.0, 1.0],例如,一个值为 0xff 的无符号 8 位纹理元素将被读取为 1;如果是 cudaReadModeElementType,则不执行任何转换操作;ReadMode 是一个可选的参数,默认值为 cudaReadModeElementType

纹理参考的其他属性是可变的,可通过主机运行时在运行时更改。它们指定纹理坐标是否为规范化的,以及寻址模式和纹理过滤,下面将介绍相关内容。

默认情况下,使用 [0, N 范围内的浮点坐标引用纹理,其中的 N 是纹理在对应于坐标的维度中的大小。例如,有一个大小为 64x32 的纹理,在 x y 维度引用此纹理时坐标分别处于 [0, 63] [0, 31] 范围内。规范化的纹理坐标将在 [0.0, 1.0) 的范围内指定,而非 [0, N),因此在规范化的坐标内,同一 64x32 纹理的寻址范围在 x y 维度均为 [0, 1)。一般情况下,纹理坐标与纹理大小无关,规范化的纹理坐标通常足以满足一些应用程序的需求。

寻址模式定义在纹理坐标超出范围时将出现怎样的情况。在使用非规范化纹理坐标时,超出 [0, N) 范围的纹理坐标将被调整:小于 0 的值被设置为 0,大于或等于 N 的值被设置为 N-1。在使用规范化纹理坐标时,默认寻址模式也是调整坐标:小于 0.0 或大于 1.0 的值将被调整到范围 [0.0, 1.0) 内。对于规范化坐标,“warp 块”的寻址模式也可指定。Warp 块寻址往往在纹理包含周期信号时使用。它仅使用纹理坐标的一部分,例如,1.25 被视为 0.25-1.25 被视为 0.75.

线性纹理过滤只能对配置为返回浮点数据的纹理进行。这将在相邻 texel 间执行低精度插值。在启用时,位于纹理获取位置周围的 texel 将被读取,纹理获取的返回值将根据纹理坐标在 texel 间的位置进行插值。对于一维纹理执行简单的线性插值,而对于二维纹理则执行双线性插值。

纹理可以是线性存储器或 CUDA 数组的任意区域。

在线性存储器内分配的纹理:

维度仅能为 1

不支持纹理过滤;

仅可使用非规范化整型纹理坐标寻址;

不支持多种寻址模式:超出范围的纹理访问将返回零。

硬件会对纹理基址实施对齐要求。为了抽象这种来自程序员的对齐要求,绑定设备存储器上的纹理参考的函数将传回一个字节偏移,必须将其应用到纹理获取,之后才能读取所需的存储器。CUDA 分配例程返回的基址指针符合这种对齐限制,因此应用程序可通过向 cudaBindTexture()/cuTexRefSetAddress() 传递所分配的指针来完全避免偏移。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值