目录
1. TensorRT是什么?
在介绍TensorRT之前,先介绍一下GPU、CUDA和cuDNN。GPU具有强大的并行计算能力,尤其对于简单的大量的计算,如矩阵计算等,这与其固有的体系结构设计有关。
1.1 GPU体系结构
GPU采用了一种被称为SIMT的体系结构,也就是相对于CPU中的SIMD的概念。SIMT就是Single Instruction Multiple Threads,也就是一条指令多个线程同时执行,但是与SIMD有所不同的是SIMT同时执行的每个线程是可以有不同分支的。
GPU这种高并行计算能力是由其本身的硬件结果决定的。下图可以看到GPU由大量SM构成,每个SM又由被称为CUDA core构成,每一个core就是一个单独的处理器,执行运算。而

本文详细介绍了TensorRT的原理与优势,包括GPU、CUDA、cuDNN的基础,以及TensorRT作为深度学习部署加速器的角色。重点讨论了TensorRT的高性能特性,如离线模型优化、动态张量内存、多流并行计算,以及易扩展性和跨平台应用。同时,文章提供了使用TensorRT的步骤,包括自定义Plugin和量化技术的应用,展示了TensorRT在AI落地中的关键作用。
订阅专栏 解锁全文
967

被折叠的 条评论
为什么被折叠?



