3行代码搞定多平台部署：YOLOv5全格式转换与推理实战指南-优快云博客

3行代码搞定多平台部署：YOLOv5全格式转换与推理实战指南

【免费下载链接】yolov5 yolov5 - Ultralytics YOLOv8的前身，是一个用于目标检测、图像分割和图像分类任务的先进模型。项目地址: https://gitcode.com/GitHub_Trending/yo/yolov5

还在为模型部署适配不同硬件发愁？本文将带你掌握YOLOv5模型的全平台部署方案，通过简单几步即可实现ONNX、TensorRT和CoreML等主流格式的转换与推理，让你的目标检测模型在任何设备上高效运行。读完本文你将学会：全格式模型导出方法、跨平台推理代码实现、性能优化关键参数调优。

模型导出准备工作

在开始部署前，需确保环境依赖已正确安装。YOLOv5提供了统一的导出脚本export.py，支持12种不同格式的模型转换。根据目标平台需求，安装对应依赖：

# CPU环境
pip install -r requirements.txt coremltools onnx onnx-simplifier onnxruntime openvino-dev tensorflow-cpu
# GPU环境
pip install -r requirements.txt coremltools onnx onnx-simplifier onnxruntime-gpu openvino-dev tensorflow

导出脚本支持的格式包括PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、CoreML等，完整格式列表可查看export.py头部注释。每种格式对应不同的应用场景，例如ONNX适合跨平台部署，TensorRT适合NVIDIA GPU加速，CoreML专用于Apple设备。

ONNX格式导出与推理

ONNX(Open Neural Network Exchange)是一种跨框架的模型格式，几乎所有深度学习框架和推理引擎都支持ONNX，是跨平台部署的首选格式。使用以下命令将YOLOv5模型导出为ONNX格式：

python export.py --weights yolov5s.pt --include onnx --imgsz 640 --simplify

关键参数说明：

--include onnx 指定导出ONNX格式
--simplify 使用onnxslim简化模型结构
--dynamic 启用动态输入尺寸（适合处理不同大小的图像）
--opset 指定ONNX算子集版本（默认12）

导出成功后会生成yolov5s.onnx文件，可使用ONNX Runtime进行推理：

import onnxruntime as ort
import numpy as np
import cv2

# 加载模型
session = ort.InferenceSession("yolov5s.onnx")
input_name = session.get_inputs()[0].name

# 预处理图像
img = cv2.imread("test.jpg")
img = cv2.resize(img, (640, 640))
img = img.transpose(2, 0, 1).astype(np.float32) / 255.0
img = np.expand_dims(img, axis=0)

# 推理
outputs = session.run(None, {input_name: img})

也可直接使用YOLOv5提供的detect.py脚本进行ONNX推理：

python detect.py --weights yolov5s.onnx --source data/images --dnn

TensorRT加速部署

TensorRT是NVIDIA推出的高性能推理引擎，可针对NVIDIA GPU进行深度优化，通常能获得比ONNX Runtime更高的推理速度。导出TensorRT引擎文件需满足：

安装TensorRT库
拥有NVIDIA GPU并安装对应驱动
确保CUDA环境正确配置

导出命令：

python export.py --weights yolov5s.pt --include engine --imgsz 640 --half

参数说明：

--include engine 指定导出TensorRT格式
--half 启用FP16精度（减少显存占用并提高速度）
--workspace 设置工作空间大小（单位GB，默认4GB）

导出成功后生成yolov5s.engine文件，使用detect.py进行推理：

python detect.py --weights yolov5s.engine --source data/videos/test.mp4

TensorRT推理速度通常比原生PyTorch快2-5倍，特别适合在NVIDIA Jetson系列边缘设备上部署。对于需要实时性的应用，建议优先考虑TensorRT格式。

CoreML格式与Apple设备部署

CoreML是Apple推出的机器学习框架，专为iPhone、iPad和Mac设备优化。使用YOLOv5导出CoreML模型后，可直接集成到iOS或macOS应用中。

导出命令：

python export.py --weights yolov5s.pt --include coreml --imgsz 640 --nms

关键参数：

--include coreml 指定导出CoreML格式
--nms 内置非极大值抑制（简化移动端后处理）
--int8 启用INT8量化（减小模型大小，提高速度）
--mlmodel 导出旧版.mlmodel格式（默认导出.mlpackage）

导出成功后生成yolov5s.mlpackage文件，可使用CoreML框架在Swift中加载推理：

import CoreML
import Vision

let model = try yolov5s(configuration: MLModelConfiguration())
let visionModel = try VNCoreMLModel(for: model.model)
let request = VNCoreMLRequest(model: visionModel) { request, error in
    // 处理检测结果
}
let handler = VNImageRequestHandler(cgImage: cgImage)
try handler.perform([request])

在macOS上可直接使用detect.py测试CoreML模型：

python detect.py --weights yolov5s.mlpackage --source data/images/apple.jpg

多平台推理统一接口

YOLOv5提供了统一的推理接口detect.py，无论使用何种模型格式，推理命令基本一致。以下是不同格式模型的推理示例：

# PyTorch模型
python detect.py --weights yolov5s.pt --source 0  # 摄像头实时推理

# ONNX模型
python detect.py --weights yolov5s.onnx --dnn --source data/images  # 使用OpenCV DNN后端

# TensorRT模型
python detect.py --weights yolov5s.engine --source data/videos/test.mp4  # 视频文件推理

# CoreML模型（仅macOS）
python detect.py --weights yolov5s.mlpackage --source screen  # 屏幕捕捉推理

推理脚本支持多种输入源，包括图像文件、视频文件、摄像头、屏幕捕捉、网络流等。输出结果默认保存在runs/detect目录下，包含带检测框的图像/视频及可选的标签文件。

性能对比与优化建议

不同格式的模型在各种硬件上的性能表现差异较大，以下是在常见设备上的推理速度对比（基于yolov5s模型，640x640输入）：

模型格式	CPU (ms)	GPU (ms)	模型大小(MB)	适用场景
PyTorch	150-300	20-50	14	开发调试
ONNX	80-150	15-40	14	跨平台部署
TensorRT	-	5-20	14	NVIDIA GPU加速
CoreML	40-80	-	7	Apple设备
OpenVINO	30-60	-	14	Intel CPU/GPU

性能优化建议：

根据硬件选择合适的模型格式（如NVIDIA设备优先TensorRT）
使用量化技术（INT8/FP16）减小模型大小并提高速度
调整输入尺寸（--imgsz）平衡速度与精度
对于视频流，使用--vid-stride跳帧处理提高帧率
在边缘设备上启用模型简化（--simplify）减少计算量

常见问题解决

Q: 导出TensorRT模型时提示缺少nvcc？
A: 需安装CUDA Toolkit并确保nvcc在PATH中，或使用Docker镜像：docker run --gpus all -it ultralytics/yolov5:latest

Q: ONNX模型推理结果与PyTorch不一致？
A: 尝试禁用常量折叠：python export.py --weights yolov5s.pt --include onnx --do_constant_folding False

Q: CoreML模型在iOS上推理速度慢？
A: 启用INT8量化（--int8），并确保使用最新的.mlpackage格式，可配合Metal加速。

Q: 如何在ARM设备上部署？
A: 可导出ONNX格式后使用ONNX Runtime for ARM，或使用OpenVINO格式在Intel Movidius神经棒上加速。

总结与后续学习

本文详细介绍了YOLOv5模型的多平台部署方案，包括ONNX、TensorRT和CoreML等主流格式的导出方法与推理实践。通过export.py和detect.py两个核心脚本，可轻松实现模型的跨平台部署。

下一步建议：

尝试不同模型尺寸（yolov5n/s/m/l/x）在目标硬件上的性能表现
探索模型优化技术，如剪枝、蒸馏进一步提高部署效率
学习如何将导出的模型集成到实际应用中（如移动APP、嵌入式系统）

完整的API文档和更多高级用法，请参考项目README.md和detect.py源码注释。如有部署问题，可提交issue或参与项目讨论。

点赞+收藏本文，关注获取更多YOLOv5实战教程，下期将带来TensorRT量化精度优化专题。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考