【开源大模型本地化部署开发】ONNX Runtime平台

最新推荐文章于 2025-03-04 14:37:37 发布

云博士的AI课堂

最新推荐文章于 2025-03-04 14:37:37 发布

阅读量824

点赞数 12

分类专栏：大模型技术开发与实践文章标签： ONNX Runtime 大模型 deepseek 人工智能 pytorch 机器学习深度学习

本文链接：https://blog.youkuaiyun.com/l35633/article/details/145842768

版权

大模型技术开发与实践专栏收录该内容

194 篇文章

订阅专栏

ONNX Runtime介绍

ONNX Runtime 是由微软开发的一款高效的跨平台推理引擎，专为ONNX（Open Neural Network Exchange）格式的机器学习模型设计。ONNX是一个开放的深度学习框架中立的标准，旨在实现不同框架间的互操作性，如TensorFlow、PyTorch、MXNet、Caffe2等。ONNX Runtime支持这些框架导出的模型，可以在多种硬件平台上高效运行推理任务，支持CPU、GPU、VPU等硬件加速，并且具有非常高的性能。

ONNX Runtime的特点

跨平台支持：
- 操作系统：支持Linux、Windows、macOS等主流操作系统。
- 硬件加速：支持多种硬件加速，包括CUDA、TensorRT（NVIDIA GPU加速）、DirectML（Windows GPU加速）、OpenVINO（Intel硬件加速）等。
高效的推理引擎：
- ONNX Runtime对推理过程进行了多种优化，包括图优化、内存管理和执行效率提升，使得其在推理性能上优于许多传统的深度学习框架。
多语言支持：
- 支持Python、C++、C#、Java等多种编程语言，方便开发者进行集成和开发。
灵活性和扩展性：
- ONNX Runtime允许开发者自定义操作（Custom Operations）和集成第三方库，以便支持特定硬件或加速库。
- 支持异步推理，允许在大规模分布式系统中进行高效的推理工作负载。
多框架支持：
- 可以加载通过不同深度学习框架训练并转换为ONNX格式的模型，提供框架无关的推理支持。

ONNX Runtime的主要功能

快速推理：通过高效的内存管理、图优化和硬件加速，ONNX Runtime提供极快的推理性能。
跨平台支持：支持Linux、Windows、macOS，能够在多种硬件上运行，包括CPU、GPU等。
多种加速库支持：支持CUDA、TensorRT、DirectML、OpenVINO等多种硬件加速技术，优化推理性能。

安装ONNX Runtime

可以通过pip安装ONNX Runtime，也可以选择安装GPU版本以加速推理过程。

CPU版本：
```
pip install onnxruntime
```
GPU版本（CUDA加速）：
```
pip install onnxruntime-gpu
```

ONNX Runtime开发示例

1. 加载并推理ONNX模型（基本示例）

假设已经有一个ONNX格式的模型文件model.onnx，下面是一个简单的推理代码示例：

import onnxruntime as ort
import numpy as np

# 加载ONNX模型
session = ort.InferenceSession("model.onnx")

# 获取模型输入名
input_name = session.get_inputs()[0].name

# 准备输入数据（假设输入为单个图像数据，大小为1x3x224x224）
input_data = np.random.random([1, 3, 224, 224]).astype(np.float32)

# 进行推理
outputs = session.run(None, {input_name: input_data})

# 打印输出结果
print(outputs[0])

在这个简单示例中：

InferenceSession用于加载ONNX模型。
get_inputs()获取模型的输入信息（名称、类型、形状等）。
session.run()用于执行推理，其中None表示返回所有输出，字典形式传入输入数据。

2. 使用GPU加速推理

如果你安装了onnxruntime-gpu，ONNX Runtime会自动利用可用的GPU加速推理。以下是使用GPU的推理示例：

import onnxruntime as ort
import numpy as np

# 设置执行提供者为CUDA（NVIDIA GPU）
providers = ['CUDAExecutionProvider']

# 加载ONNX模型，并指定使用CUDA进行推理
session = ort.InferenceSession("model.onnx", providers=providers)

# 获取模型输入名
input_name = session.get_inputs()[0].name

# 准备输入数据
input_data = np.random.random([1, 3, 224, 224]).astype(np.float32)

# 进行推理
outputs = session.run(None, {input_name: input_data})

# 打印输出结果
print(outputs[0])

在这个示例中：

CUDAExecutionProvider被指定为推理的执行提供者，确保在GPU上运行推理任务。

3. 异步推理

ONNX Runtime支持异步推理，可以通过run_async接口实现。以下是一个异步推理的示例：

import onnxruntime as ort
import numpy as np

# 加载ONNX模型
session = ort.InferenceSession("model.onnx")

# 获取模型输入名
input_name = session.get_inputs()[0].name

# 准备输入数据
input_data = np.random.random([1, 3, 224, 224]).astype(np.float32)

# 异步推理
future = session.run_async(None, {input_name: input_data})

# 等待推理完成并获取结果
outputs = future.result()

# 打印输出结果
print(outputs[0])

4. 自定义操作（Custom Operations）

ONNX Runtime允许使用自定义操作进行扩展。这对于需要特定硬件加速或无法在标准操作库中找到的操作非常有用。以下是一个自定义操作的简单示例：

import onnxruntime as ort
import numpy as np

# 定义自定义操作
class CustomOp(ort.GraphOptimizationLevel):
    def __init__(self):
        pass
    
    def compute(self, input_data):
        # 这里可以编写自定义推理逻辑
        return input_data * 2  # 例如，将输入数据乘以2

# 注册自定义操作
session = ort.InferenceSession("model.onnx", custom_ops=[CustomOp()])

# 进行推理
input_data = np.random.random([1, 3, 224, 224]).astype(np.float32)
outputs = session.run(None, {'input': input_data})

# 打印输出
print(outputs[0])

总结

ONNX Runtime是一个强大且高效的推理引擎，能够跨平台、跨硬件地加速深度学习模型的推理任务。它支持多种硬件加速，并且通过图优化、内存管理等技术提供高效的推理性能。通过ONNX Runtime，开发者可以轻松地将不同框架训练的模型转换为ONNX格式，并在不同平台上进行推理，极大地提升了机器学习模型的互操作性。

【哈佛博后带小白玩转机器学习】 【限时5折-含直播】哈佛博后带小白玩转机器学习_哔哩哔哩_bilibili

总课时超400+，时长75+小时