一、Engine 文件的核心作用
-
优化后的推理载体
Engine 文件是 TensorRT 对原始模型(如 ONNX)进行优化的最终产物,包含层融合、内核自动调优、内存优化后的执行计划。其核心目标是减少 GPU 计算冗余,提升推理速度。 -
硬件与配置绑定
Engine 文件针对特定 GPU 架构生成,包含动态形状配置(如 batch size 范围)和精度策略(FP32/FP16/INT8),不可跨硬件直接复用。
二、Engine 文件生成流程
-
模型转换与优化
- 步骤 1:将 PyTorch/TensorFlow 模型导出为 ONNX 格式(需注意输入/输出名称对齐)。
- 步骤 2:使用
trtexec
工具或 Python API(tensorrt.Builder
)解析 ONNX 模型,配置优化参数:# 示例:构建 FP16 引擎(Python A