在模型进行inference的时候爆显存

最新推荐文章于 2025-11-11 15:35:22 发布

原创最新推荐文章于 2025-11-11 15:35:22 发布 · 1.9k 阅读

3 ·

CC 4.0 BY-SA版权

环境配置与使用专栏收录该内容

49 篇文章

订阅专栏

在模型训练与推理过程中，因改变特征计算流程致CUDA显存不足。原以为model.eval()能停止梯度计算，实则仅禁用BN与Dropout。通过加入torch.set_grad_enabled(False)有效降低显存消耗。

部署运行你感兴趣的模型镜像

使用相同的参数进行模型的训练和inference。但居然在inference时出现：

RuntimeError: CUDA out of memory

后来发现可能是由于改变了inference出来的特征之后的计算过程，导致使用了更多的显存来计算梯度。原来计算出特征之后直接去算loss，而在inference时计算出特征之后是一些其他的操作。

之前以为model.eval()就可以停止计算梯度，但事实上model.eval()貌似只有禁用BatchNormalization和Dropout的功能。

在代码中加入torch.set_grad_enabled(False)后显存就够用了。

您可能感兴趣的与本文相关的镜像

PyTorch 2.6

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

夜淡

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Ollama vs Xinference: AI推理引擎对比报告

maxcode

02-05

3953

Ollama 和 Xinference 都是强大的AI推理引擎，旨在提升机器学习和深度学习模型的推理性能，但它们的应用场景、性能优化、以及支持的技术栈各自有所不同。本报告将详细比较这两者的架构、性能、应用场景、易用性、社区支持等方面，帮助开发者和企业根据自身需求选择合适的推理引擎。Ollama 适合开发者和小团队，特别是希望在本地进行推理的小型项目。其简洁易用的API和本地化推理能力，非常适合需要离线运行或本地资源有限的场景。

xinference搭建

liuzhenghua66的博客

04-09

6598

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。帮助文档：https://inference.readthedocs.io/zh-cn/latest/models/index.html 运维部署内置模型以及调用示例：https://inference.readthedocs.io/zh-cn/latest

1 条评论您还未登录，请先登录后发表或查看评论

大模型平台搭建（五）本地模型Xinference平台部署

最新发布

qq_25305625的博客

11-11

1419

本文介绍了本地Xinference平台的部署流程，重点解决Rerank模型支持问题。

大语言模型推理系列-Xinference企业级大语言模型部署

czdemo的博客

12-26

1477

Xinference 是针对生成式 AI 场景度身定制的能力全面的推理服务平台。功能覆盖算力、模型和高可用可观测的企业级能力。对于个人开发者还是企业来说都十分的好用。

Flask 推理MXnet 模型时显存泄漏

weixin_41683534的博客

01-19

1767

Flask、MXnet模型推理、显存泄漏

pytorch做inference的时候如何减少显存占用

nkhgl的博客

09-27

2372

1、采用with torch.no_grad(): with torch.no_grad(): tc_data = netG_A(input_data, d_f) 相比于直接做inference，加上with torch.no_grad()能够占用更少的显存。即使设置了netG_A.eval(),占用显存和没设置时是一样的。难道eval()模式也还会保留中间梯度？ tc_data = netG_A(input_data, d_f) 2、删除中间变量： with torch.no_gr

尝试在 vLLM 里预测大模型的最小显存占用

weixin_43408232的博客

10-24

4367

按照的定义，“ large language models (LLMs) refer to Transformer language models that contain hundreds of billions (or more) of parameters, which are trained on massive text data”，即大型语言模型（LLM）是指包含数千亿（或更多）参数的 Transformer 语言模型，这些模型是在海量文本数据上进行训练的。

LLM 大语言模型显存消耗估计与计算

weixin_42823298的博客

07-24

2567

这个工具的计算的结果，针对代码加入到Transformers中的模型，计算结果有参考价值。针对本地模型，计算可能会不准确。这个工具可以做什么？如何使用？此工具如何设置？什么情况下需要设置？处理来自第三方的自定义配置Timm是什么？是huggingface的开发库，主要面向图像处理模型此工具的计算值与实际运行时的差异有多大？造成差异的原因有那些？本文使用Wanda方法，已在Github上开源**源码：**https://github.com/locuslab/wanda环境配置。

8G 显存玩转书生大模型 Demo

qq_42137576的博客

07-23

857

8G显存玩转书生大模型。

在inference的时候如何解决内存不足

08-14

在进行批量推理时，显存需求会随着批量大小线性增长。可以通过适当减小 `batch_size` 来降低显存压力。例如： ```python batch_size = 8 # 可根据显存容量调整 ``` #### 启用模型量化或低精度推理使用 **FP16**...

AlphaFold3预测在4090爆显存

03-22

好的，用户在使用AlphaFold3时遇到了NVIDIA GeForce RTX 4090显存不足的问题，需要解决方案。首先，我需要了解AlphaFold3的显存需求以及可能的原因。RTX 4090虽然有24GB显存，但处理大型蛋白质结构时可能仍然不足。...

解决Tensorflow占用GPU显存问题

09-18

今天小编就为大家分享一篇解决Tensorflow占用GPU显存问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

【xinference】（4）：在autodl上，使用xinference部署sd-turbo模型，可以根据文本生成图片，在RTX3080-20G上耗时1分钟，占用显存11G

freewebsys的专栏

02-01

1025

效果上还是不错的，可以画出苹果的细节。但是还是粗糙点，确实因为模型比较小。速度还是不错的。

TensorRT模型推理内存泄露问题解决

liguiyuan的博客

12-22

5389

问题描述：在使用tensorRT部署模型时，发现随着客户端不断地请求服务，显存会持续的增长，当超过显卡内存时就会出现申请不到显存而报错的情况。经过分析是我在tensorrt模型前向推理是造成的问题，在代码里： trt_engine_path = './model/resnet50.trt' trt_runtime = trt.Runtime(TRT_LOGGER) engine = load_engine(trt_runtime, trt_engine_path) context = engi

深度学习CUDA Out of Memory原因总结和方法

PeterClerk的博客

06-30

2740

CUDA Out of Memory原因总结和方法

Xinference：一款性能强大且功能全面的大模型部署与分布式推理框架

热门推荐

qq_46094651的博客

08-13

2万+

除了使用LLM模型的Web界面进行操作外，Xinference还提供了API接口，通过调用API接口来使用LLM模型。在API文档中，存在大量API接口，不仅有LLM模型的接口，还有其他模型(如Embedding)的接口，并且这些接口都是兼容OpenAI API的接口。通过访问来查看API文档。Xinference提供了管理模型整个生命周期的能力。

部署快捷、使用简单、推理高效！大模型部署和推理框架 Xinference 来了！

2201_75499313的博客

03-14

1万+

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于各种模型的推理。通过 Xinference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xinference 与最前沿的 AI 模型，发掘更多可能。

【大模型】Xinference的安装和部署

magic_ll的博客

12-29

1万+

Xinference通过提供简单API和强大的功能，使得私有化模型的大规模部署成为可能，无论是在个人电脑还是分布式集群中，都能够发挥异构硬件的全部潜力，达到最极致的吞吐量与最低的推理延迟。：Xinference简化了包括大语言模型、多模态模型、语音识别模型等模型部署的过程，允许用户轻松一键部署自己的模型或内置的前沿开源模型。：Xinference专注于优化模型的推理性能，并支持多种类型的模型，包括深度学习模型。如下图，待参数设置OK后，点击小火箭，则下载模型和加载模型，模型下载到默认路径。

推理框架 Xinference和大模型部署（ChatGLM为例）

weixin_52514174的博客

07-04

1万+