Overview
NVIDIATensorRT™是一个C ++库,可以帮助NVIDIA图形处理器(GPU)进行高性能推理。 TensorRT通过合并张量和图层,转换权重,选择高效的中间数据格式,并根据图层参数和测量的性能从大型内核目录中进行选择,从而对网络进行定义并对其进行优化。
TensorRT包含导入方法,可帮助您为TensorRT表达训练有素的深度学习模型以优化和运行。 它是一种优化工具,可以应用图形优化和图层融合,并利用各种高度优化的内核集合找到该模型的最快实现,以及可用于在推理上下文中执行此网络的运行时方法。
TensorRT包含一个基础架构,可让您利用Pascal和Volta GPU的高速降低精度功能作为可选优化。
TensorRT是基于GCC4.8的。
1. TensorRT Layers
TensorRT可以直接支持下面类型的网络层:
Activation
(激活层):
激活层是每个元素的激活方法,它目前支持一下几种类型的激活层:
ReLU
,
tanh
,
sigmod
Concatenation
(连接层):
连接层链接通过通道维度链接多个相同高度和宽度的张量
Convolution(
卷基层
):
卷基层是一个三维的卷积操作,有时会加入bias(偏置量)
Deconvolution
反卷基层是一个反卷积操作,有时会加入bias(偏置量)
ElementWise
ElementWise层是一些常用的元素操作。目前支持的有:
sum,
product,
maximum,
subtraction,
division
和
power.
Flatten
Flatten层的作用是使输入的张量在大小不变的情况下,变得扁平化。举个例子:一个输入张量形状为:n*c*w*h(4维);输出为一个大小为n*(c*w*h)(一维)的向量
FullyConnected
FullyConnected实现的是一个矩阵向量的乘积,有时会加入bias(偏置量)
LRN
LRN层实现了一个跨通道的局部响应归一化

NVIDIA TensorRT是一个用于GPU高性能推理的C++库,它通过模型优化和运行时方法实现网络定义和性能提升。TensorRT支持多种网络层,如激活、卷积、连接等,并能利用Pascal和Volta GPU的特性。库还包含Python接口,支持从NVCaffe和其他框架导入模型,并提供了示例应用。TensorRT的API允许开发人员进行网络导入、校准、生成和部署。
最低0.47元/天 解锁文章
458





