深度学习模型部署框架之ONNX Runtime

最新推荐文章于 2025-03-24 16:54:09 发布

J心流

最新推荐文章于 2025-03-24 16:54:09 发布

阅读量2.5k

点赞数 15

分类专栏：模型部署框架文章标签：深度学习人工智能

本文链接：https://blog.youkuaiyun.com/m0_62603533/article/details/144328783

版权

模型部署框架专栏收录该内容

3 篇文章

订阅专栏

文章目录

0 前言
1 简介
2 模型准备
3 模型优化
4 利用onnx模型推理的demo
5 参考文档
总结

0 前言

本文是深度学习模型部署框架的第一篇，更多部署框架可以查看本专栏的其他文章。

1 简介

概念：onnx一种开源模型格式，专注于推理所需的能力。同时，它还是一个中间深度学习框架，用于连接不同深度学习框架之间的转换。
优势：跨平台兼容性好；性能优化；支持多种框架。
坑点：onnx只是一个格式，就和json一样，只要满足规则，就是合法的。因此单纯从pytorch转成onnx格式很简单，但是不同后端框架接受的onnx是不一样的。比如pytorch自带的torch.onnx.export转换得到的onnx，onnxruntime 需要的onnx，TensorRT需要的onnx都是不同的，因此这才是坑的来源。

2 模型准备

2.1 导出模型为onnx格式

使用模型转换工具，torch.onnx.export和tf2onnx

# pt->onnx
# 示例数据
dummy_input = torch.randn(1,1, 16000*5)  # 只有第三个维度可能会变化，前两个都不会变
# 导出模型为 ONNX 格式
torch.onnx.export(
    model,                   # PyTorch 模型
    dummy_input,             # 示例输入
    "denoiser_model_12_3_3_dongtai_5s.onnx",  # ONNX 文件的保存路径
    input_names=['input'],   # 输入层的名字
    output_names=['output'], # 输出层的名字
    dynamic_axes={
        'input': {2: 'audio_length'},  # 设置动态维度,如果输入是三维的，那就是第三个维度是动态的，否则是第二个维度是动态的
        'output': {2: 'audio_length'}
    },  # 可选，设置哪些维度是动态的
    opset_version=12        # ONNX opset 版本，建议使用 11 或更高
)

# tf->onnx
python -m tf2onnx.convert
    --saved-model SOURCE_SAVED_MODEL_PATH |
    --checkpoint SOURCE_CHECKPOINT_METAFILE_PATH |
    --tflite TFLITE_MODEL_PATH |
    --tfjs TFJS_MODEL_PATH | 
    --input | --graphdef SOURCE_GRAPHDEF_PB
    --output TARGET_ONNX_MODEL

2.2 导出时注意事项

动态形状的支持，对于音频来说基本上都需要动态输入，这需要在模型转换的时候自定义
模型的opset版本

2.3 onnx模型检查

onnx.checker验证模型
Netron可视化模型
检验onnx的输出与原始模型的输出是否一致，或输出的误差是否可以容忍

3 模型优化

3.1 量化

量化分为动态量化和静态量化，常用的方法是动态量化，相对来说简单一些。
动态量化：对于动态量化，缩放因子和零点是在推理时计算的，并且特定用于每次激活，因此它们更准确，但引入了额外的计算开销。

from onnxruntime.quantization import QuantType, quantize_dynamic
 
# 模型路径
model_fp32 = 'models/denoiser.onnx'
model_quant_dynamic = 'models/denoiser_quant_dynamic.onnx'
 
# 动态量化
quantize_dynamic(
    model_input=model_fp32, # 输入模型
    model_output=model_quant_dynamic, # 输出模型
    weight_type=QuantType.QUInt8, # 参数类型 Int8 / UInt8
    optimize_model=True # 是否优化模型
)

静态量化：对于静态量化，使用校准数据集离线计算，所有激活都具有相同的缩放因子和零点。这点类似于tfl的int8量化。
通常来说，对 RNN 和基于 Transformer 的模型使用动态量化，对 CNN 模型使用静态量化

3.2 算子融合

其实就是使用onnx-simplifier简化模型，例如 Conv+BatchNorm 融合。

pip install onnx-simplifier
python -m onnxsim model.onnx model_optimized.onnx

3.3 硬件加速

ONNX Runtime 支持多种硬件加速器，如 CUDA 加速。

import onnxruntime as ort

# 加载模型
sess_options = ort.SessionOptions()
sess = ort.InferenceSession("model_quantized.onnx", sess_options, providers=['CUDAExecutionProvider', 'CPUExecutionProvider'])

3.4 多线程

ONNX Runtime 支持多线程执行，可以通过设置环境变量或通过 API 设置线程数来控制。

sess_options.intra_op_num_threads = 4  # 设置线程数量
sess = ort.InferenceSession("model_quantized.onnx", sess_options)

4 利用onnx模型推理的demo

import onnxruntime as rt
import onnx
import numpy as np
import time
 
ONNX_Model_Path = 'path_to_onnx_model'
 
img = np.ones((1, 3, 640, 640)).astype(np.float32)
 
# 加载模型，传入模型路径
model = onnx.load_model(ONNX_Model_Path)
 
# 创建一个SessionOptions对象
rtconfig = rt.SessionOptions()
 
# 设置CPU线程数为4
cpu_num_thread = 4
 
# 设置执行模式为ORT_SEQUENTIAL(即顺序执行)
rtconfig.intra_op_num_threads = cpu_num_thread
rtconfig.execution_mode = rt.ExecutionMode.ORT_SEQUENTIAL
 
# 设置使用的ExecutionProvider为CPUExecutionProvider
providers = ['CPUExecutionProvider']
 
# 创建一个InferenceSession对象
sess = rt.InferenceSession(model.SerializeToString(), providers=providers, sess_options=rtconfig)
 
# 模型的输入和输出节点名，可以通过netron查看
input_name = 'audio'
outputs_name = ['output']
 
# 模型推理:模型输出节点名，模型输入节点名，输入数据
 
net_outs = sess.run(outputs_name, {input_name: img})
result = np.array(net_outs)

5 参考文档

文档：https://onnx.ai/onnx
onnx model：https://github.com/onnx/models
onnx tutorials：https://github.com/onnx/tutorials
参考示例的demo：https://onnxruntime.ai/docs/build/android.html、 https://github.com/microsoft/onnxruntime-inference-examples