深度学习模型使用GPU/cuda推理刚开始会很慢，CUDA/GPU预热加速

最新推荐文章于 2025-06-14 22:12:33 发布

原创最新推荐文章于 2025-06-14 22:12:33 发布 · 2.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #pytorch #机器学习 #算法 #python

文章讨论了在使用深度学习模型基于GPU进行推理时，遇到的第一个批次速度特别慢的问题，原因在于GPU/CUDA需要预热。作者建议通过在正式推理前运行模型多次进行预热，给出的Python示例展示了如何使用循环进行预热。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在之前实现了torch转tensorRT加速后，发现推理速度确实大幅加快了，加速效果见
【torch-onnx-tensorRT加速】torch转tensorRT后加速效果
以及使用onnx实现tensorRT速度的方式：
torch转onnx模型加速，onnx模型推理直接达到tensorRT速度，省去onnx转tensorRT的流程

问题

但是，发现在使用深度学习模型基于GPU进行推理过程时，前几个批次格外的慢，正常跑起来后每次循环只要50ms，但第一个批次的时间要好几秒，后续速度逐渐加快，平稳后达到50ms每批次。

所以严重影响了整体的平均速度，通过搜索发现应该是由于GPU或CUDA需要预热，比如一些显存的开辟、数据交换等，解决方法就是在开始正式推理前，先让推理模型运行几次，以python为例

import torch 
input = torch.randn((batch, x, y, z), device='cuda')
for _ in range(n_warm):
	out = inference_model(input)

使用循环进行模型预热后的验证效果

待更新

参考:
https://blog.youkuaiyun.com/z240626191s/article/details/126291864
https://blog.youkuaiyun.com/qq_40231159/article/details/120901785

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

↣life♚

关注关注

15
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

如何使用Python代码实现给GPU预加热

笔者从事电信媒体开发多年，愿意将多年的开发经验分享给同行

11-23

281

在高性能计算和深度学习领域，GPU（图形处理器）已经成为不可或缺的加速工具。然而，在实际应用中，我们有时会遇到GPU在初次执行任务时性能不佳的问题，这通常是由于GPU从闲置状态到全速运行状态需要一定的“预热”时间。为了解决这个问题，我们可以通过在正式计算之前执行一些轻量级的计算任务来给GPU“预加热”，从而确保其在执行主要任务时能够达到最佳性能。本文将详细介绍如何使用Python代码实现给GPU预加热，包括使用深度学习框架（如TensorFlow和PyTorch）以及直接使用CUDA进行编程的方法。

优化GPU服务器首次请求响应时间的策略

TechEnthusiast的博客

09-14

432

在深度学习推理服务中,GPU服务器的首次请求往往会遇到响应时间异常长的问题。这不仅影响用户体验,还可能导致系统不稳定。本文将深入探讨这个问题的原因,并提供一系列优化策略。

1 条评论您还未登录，请先登录后发表或查看评论

RapidOCR项目中使用ONNX Runtime GPU加速的注意事项

gitblog_01312的博客

04-25

583

RapidOCR项目中使用ONNX Runtime GPU加速的注意事项在深度学习推理领域，ONNX Runtime是一个广泛使用的跨平台推理引擎，支持多种硬件加速。然而，在RapidOCR项目中使用ONNX Runtime的GPU版本时，开发者可能会遇到一些性能问题。 GPU加速的反效果许多开发者在使用RapidOCR时会尝试启用CUDA加速，期望获得更快的推理速度。但实际测试表明，在某些情...

解决｜onnxruntime gpu 推理比 torch 慢，session 初始化

weixin_44212848的博客

03-26

6674

用 pytorch 几秒就能跑完的，用 onnxruntime 反而慢了10 倍不止，下图中 ‘CUDAExecutionProvider’ 也说明 onnxruntime 确实是用上了 GPU。

快速解决深度学习推理过程cuda或tensorRT推理速度变慢的办法【亲测有效】

virobotics的博客

02-20

7111

如果你在使用CUDA或者TensoRT实现深度学习推理检测过程中发现推理检测的速度很慢，那可以查看本文快速解决深度学习推理过程cuda或tensorRT推理速度变慢的问题

【经验】为什么用GPU运行深度学习代码还是很慢

MJy65535的博客

12-04

1435

显存（第二栏）仅仅用了十分之一不到，所以说明batch_size设置的太小了。当时设置的是20，10。这样程序运行的快了很多。

关于GPU推理速度的两个问题

热门推荐

qq_40231159的博客

10-22

1万+

关于GPU推理速度的两个问题 1、为什么GPU的第一次推理速度会慢很多？答：GPU在使用过程的开始，需要进行CUDA初始化（CUDA initialization），CUDA 初始化过程是一个"懒惰"的初始化，这意味着需要完成足够的初始化进程，才能支持所要的操作执行。在首次CUDA初始化时，有些初始化间接花费（cost）并没有进行，这些花费（cost）可以理解为设备和主机内存映射的协调，即内存的调度，这也是cpu和gpu都会有一定的内存（gpu为显存）变化的原因。表现出来的是虽然gpu的核心性能不如cpu

利用GPU预热以及同步执行正确计算卷积神经网络推理性能【附代码】

z240626191s的博客

08-11

2896

利用GPU预热来更准确的获得卷积神经网络的推理时间【附代码】。什么叫GPU的预热呢，打个比方，我们打开电脑或者其他电子产品的时候，如果你立马用设备，会感觉有些卡顿，但如果你稍微等一下，让后台程序都跑起来再用，就明显快很多了，这就是设备的预热。同理的，GPU在你不用的时候是低功耗状态，它会把有些高性能的功能暂时关闭或降低性能，这时候如果你把模型放上面处理，你就能明显感觉到有点满，甚至你从点击程序运行以后要等个几秒钟才出结果，因为这个阶段GPU要完成很多初始化工作【当然了，这也和显卡好坏有关系】。......

CUDA优化之隐藏GPU预热时间

weixin_42702728的博客

11-25

1782

在CUDA实际开发中，CUDA中API启动之前，存在隐藏的上下文初始化时间，这也是为什么在nvvp中查看时间线，发现第一个cudaMalloc时长200ms左右的原因。这部分时间有时候相对于核函数运行时间较长，但又不能不预热GPU。在大多数的CUDA示例中，都是先给主机端数据分配空间和初始化，再给设备端分配空间和数据传输。此时预热时间和主机端初始化时间是串行的。 int* a = new int[N]; int* b = new int[N]; for (size_t i = 0; i <

Pytorch GPU模型推理时间探讨2——显卡warm up

一个苦逼研究僧的博客

08-05

2929

pytorch模型在GPU的推理时间探讨-part2

选择合适的GPU：YOLOv8深度学习任务的GPU加速指南

YOLOv8简介与深度学习中的GPU加速在近年来计算机视觉与深度学习领域，YOLO（You Only Look Once）系列模型因其高速度和高准确率而广受欢迎。作为该系列最新成员的YOLOv8，它不仅继承了前代的优秀性能，还融入了...

【YOLO实战】5倍推理加速！YOLO工业模型TensorRT部署全攻略

06-14

226

摘要：在工业视觉领域，模型推理速度与资源利用率是产线智能化升级的关键瓶颈。本文系统阐述基于TensorRT的YOLO模型工业级部署方案，通过从PyTorch模型到TensorRT引擎的全流程优化，实现最高10倍推理加速。详细解析ONNX转换、精度控制、层融合等核心技术，提供FP16/INT8量化策略与校准实现，以及Jetson Orin NX、昇腾Atlas 500等边缘设备的部署实战。

onnx部署之针对单张图片的检测---opencv的cuda版本推理比cpu更慢？

Fan1534的博客

03-31

570

一度有点怀疑是不是opencv的编译出现了问题，恰好最近认识了一个csdn的朋友也在搞这个东西，所以相互交流了一下，发现原来问题就出在与检测单张图片上，将代码更改为检测视频，获取逐帧检测解决，最终yolov5s.onnx在我的电脑上gpu的推理时间为10ms左右一张，在cpu上推理时间为300-400ms一张。另外，单张图片的处理可能会导致 GPU 的负载不足，无法充分利用 GPU 的并行性能，而处理多张图片可以更充分地利用 GPU 的并行性能，从而提高整体处理速度。

[cuda 技术总结1] 第一次调用 cuda 库函数耗时很长

驽马十驾，功在不舍；锲而不舍，金石可镂。

07-14

1688

在cuda编程中，发现调用cuda文件总耗时一百多ms，而纯kernel计算时间才3ms。时间都去哪了？查资料，trouble shooting，最后才发现这多出来的时间，就是第一次调用cuda api的时间：隐式cuda初始化，加载上下文…2.Linux下将驱动加载的默认模式改成“持久保存”

onnx模型推理速度慢/ onnx模型推理时gpu没有被占用

zxz669的博客

07-06

890

看看是不是用的onnxruntime （这个是cpu版本的）换成onnruntime-gpu 就好了。

机器学习笔记 - 基于TensorRT或CUDA推理第一次速度慢的解决方案参考

学以致用知行合一

06-26

1567

不管是基于CUDA还是基于TensorRT进行模型推理，都是分三个阶段，将数据从内存拷贝到显存，进行推理，将推理结果从显存拷贝到内存。关于TensorRT推理，可以参考之前的博客。机器学习笔记 - windows基于TensorRT的UNet推理部署_坐望云起的博客-优快云博客NVIDIA TensorRT是一个用于高性能深度学习推理的平台。TensorRT适用于使用CUDA平台的所有NVIDIA GPU。

深度学习模型推理部署常用的框架总结记录

Together_CZ的博客

07-21

2547

深度学习模型推理部署常用的框架总结记录

pytorch模型推理提速

RichardoMu的博客

07-10

5221

PyTorch 是一种使用动态计算图形的常见深度学习框架，借助它，我们可以使用命令语言和常用的 Python 代码轻松开发深度学习模型。推理是使用训练模型进行预测的过程。对于使用 PyTorch 等框架的深度学习应用程序，推理成本占计算成本的90%。由于深度学习模型需要不同数量的 GPU、CPU 和内存资源，为推理选择适当的实例有难度。在一个独立的 GPU 实例上对其中一个资源进行优化通常会导致其他资源利用不足。因此，我们可能要为未使用的资源付费。 Amazon Elastic Inference 通过支持

模型推理时间计算，模型精度，推理batch size设置，取模型的权重，调用模型中的某个函数，版本号的对比

weixin_62848630的博客

08-08

903

模型推理之前要先进行warm up预热。参考：Chinese-CLIP中的代码。