参数解释
--onnx # 指定ONNX model
# build option
# eg: input0:1x3x256x256,input1:1x3x128x128
--minShapes # 模型输入的最小shape, 可动态
--optShapes # 模型输入的推荐hape, 可动态
--maxShapes # 模型输入的最大shape, 可动态
--inputIOFormats=spec # 以什么样的格式获取值, 默认fp32
--outputIOFormats=spec # 以什么样的格式输出值, 默认fp32
# build options
--memPoolSize=poolspec # 分配的最大的内存容量
# eg: --memPoolSize=workspace:1024.5,dlaSRAM:256 单位M
--profillingVerbosity=mode # 打印消息的详细程度
# eg: --mode ::=layer_names_only|detailed|none(default=layer_names_only)
# 只打印ops name, 详细(会打印ops参数), none(不打印)
--fp16 # 默认default 是否对模型执行fp16加速
--int8 # 默认default 是否对模型执行int8量化
--calib=<file> # 当执行int8量化时用来标定参数的文件, 如果给的是带QDQ节点的model, 则不用给。如果给的不是QDQ model且没给定calib文件,默认会把dynamic range设置为4, 这时model量化会产生很大误差
--best # 默认disabled, 是否开启全精度方案来达到最优性能FP32+FP16+INT8 使用三种方案同时运行, 然后选最快的
--saveEngine=<file> # 保存序列化的engine
--loadEngine=<file> # 加载engine进行反序列化, infer时用到
# === Build Options ===
--tacticSources=tactics # 默认所有库都允许使用
# 某些平台使用某些库可能会报错, 且各种lib有各自缺点
# 通过 加上(+), 去掉(-) 指定什么包能用, 什么包不能用: +lib -lib
# eg: --taticSources=-CUDNN,+CUBLAS
# ==== inference Options ==== 推理的时候指定
--shapes=spec # 给推理设置输入tenosr形状(支持动态)
# eg: --shapes=input0:1x3x256x256,input1:1x3x128x128
--loadInputs=spec # 从文件中加载输入, tensor文件
# eg: --loadInputs=input0:input0.binary,input1:input1.binary
--iterations=N # 推理至少 运行几次 (默认10次)
--warmUp=N # 默认200ms, 设置多少毫秒用来热启动, 可以缩减误差
--duration=N # 默认3s, 运行inference所消耗的最少时间
--sleepTime=N # 默认0s, inference从开始到计算延迟多少s
--idleTime=N # 默认0s, 两次infer间隔多少s
--streams=N # 默认1, 使用多个流来运行推理, 多线程下可能会得到加速
--separateProfileRun # 默认False, 是否在infer时将profiler和benchmark分开, 做benchmark时设置为True
--buildOnly