使用FVD时遇到的问题记录：使用tensorflow时batch_size不变的情况下使用数据量更大的dataset发生了显存溢出(OOM)问题的解决

最新推荐文章于 2025-09-11 01:23:45 发布

原创最新推荐文章于 2025-09-11 01:23:45 发布 · 715 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #batch #人工智能 #计算机视觉

在计算FVD时遇到显存溢出（OOM）问题，原因是输入数据维度不匹配。原本应为[bs,t,h,w,c]的格式误处理为[bs,c,t,h,w]，导致resize操作后尺寸错误。通过调整resize前的vidshape并使用tensor.permute()修复了问题。注意，batch_size过大可能导致OOM，但数据量大小本身不是直接原因。

情况：计算 FVD 时，使用 dataset-1 时运行成功，使用数据量(data size)更大的 dataset-2 时运行失败。报错OOM：显存溢出。

查找问题：比较两次计算时的 input video 的 data shape，发现成功的那个是：[2, 64, 224, 224, 3]，失败的那个是：[2, 180, 224, 224, 3]。

注：shape各dim的含义是：[batch_size, num_frames, height, weight, depth]

发现不对劲：input 的 num_frame 的大小应该相同，都是 16。此处的 64 和 180 是 input vid 在 resize 前的 weight 大小。

找到原因：resize 时的 vid shape 没有调整好。要求热size 的 input shape 是 [bs, t, h, w, c]，而我的是 [bs, c, t, h, w]。例如，错误输入：[2, 3, 16, 144, 180] 的 resize 结果为 [2, 180, 224, 224, 3]，而不是期待的 [2, 16, 224, 224, 3]。

解决方案：将 resize 前的 vid shape 用 tensor.permuter() 调好后，问题解决。

小结：所以，bs大小可能会造成显存溢出(OOM)，而使用的数据量(data size)大小不会。起码此处不会。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xdhsCS_cv_ml

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

Tensorflow 程序内存泄漏+显存分配不足数据预处理

微积分，日子久了就是无穷积分

10-03

3020

1. 目的在循环中，从硬盘中读取每个batch 的图片。 2. 错误步骤及原因图片截取从here。 3. 修改方法方法一：可以将图片数据预处理部分不使用 tensor ,用的python 常见的numpy 等类型，这样就不会产生新的tensor 结点。 ...

Tensorflow2数据集过大，GPU内存不够

darlingqx的博客

10-09

3081

在我们平时使用tensorflow训练模型时，有时候可能因为数据集太大(比如VOC数据集等等)导致GPU内存不够导致终止，可以自制一个数据生成器来解决此问题。方法就是将数据集图片的路径保存到一个列表之中，然后使用while循环在训练时进行不断读取，，我在训练时出现了这样的问题，这是我的猜测。

参与评论您还未登录，请先登录后发表或查看评论

完美解决TensorFlow和Keras大数据量内存溢出的问题

12-17

内存溢出问题是参加kaggle比赛或者做大数据量实验的第一个拦路虎。以前做的练手小项目导致新手产生一个惯性思维——读取训练集图片的时候把所有图读到内存中，然后分批训练。其实这是有问题的，很容易导致OOM。现在内存一般16G，而训练集图片通常是上万张，而且RGB图，还很大，VGG16的图片一般是224x224x3，上万张图片，16G内存根本不够用。这时候又会想起——设置batch，但是那个batch的输入参数却又是图片，它只是把传进去的图片分批送到显卡，而我OOM的地方恰是那个“传进去”的图片，怎么办？解决思路其实说来也简单，打破思维定式就好了，不是把所有图片读到内存中，而是只把所有图片的

Open-Sora-Plan模型评估工具：自动生成FVD/LPIPS对比报告

gitblog_00460的博客

09-11

380

你是否还在为视频生成模型的评估效率低下而困扰？手动计算FVD（Fréchet Video Distance，视频弗雷歇距离）、LPIPS（Learned Perceptual Image Patch Similarity，感知图像块相似度）等指标不仅耗时费力，还容易因参数设置不一致导致结果不可比。Open-Sora-Plan开源项目提供了一套自动化评估工具链，能够一键生成标准化的视频质量对比报告，...

使用gpu版的tensorflow时出现OOM错误(显存溢出错误)： CUDA out of memory的解决办法。

m0_56192771的博客

03-15

5502

gpu版的tensorflow 在执行过程中会默认使用全部的 GPU 内存，给系统保留 200 M，但是在我的系统上会在分配内存时被拒绝导致报错，因此我们可以使用如下语句指定 GPU 内存的分配空间：下面以我自己的电脑为例，进行相关设置。因为我的电脑的显存是6G，所以我可以设置tensorflow程序运行时所占用的显存不能超过6G，这里限制在4G大小。 import tensorflow as tf #限制消耗固定大小的显存（程序不会超出限定的显存大小，若超出的报错）。 physical_gpus = t

tensorflow2.1的一次由numpy数据集引起的out of memory

qq_41034308的博客

04-02

1417

x与y都是numpy数据，x，y都是由1千张图片组成采用下面这条代码创建数据集。 train_dataset=tf.data.Dataset.from_tensor_slices((x,y)) 在训练的过程中程序内存占用一直在增长，直到程序因为内存溢出而崩溃。官方教程的解释是上述这种由numpy创建数据集的方法只适用于小型数据，因为这种数据集被植入TensorFlow graph中，且数据会被...

关于TensorFlow和PyTorch共同安装的兼容版本尝试的记录 - env_name: tftorch

xdhsCS_cv_ml的博客

04-16

6590

因为要使用的代码需要TensorFlow，而原本代码是基于PyTorch的，所以正在研究哪些TensorFlow和PyTorch版本可以兼容。因为要尽量保证两个代码都能够运行，所以比较麻烦。在这里专门记录一下，主要是寻找合适兼容版本的思路，以及相关零散但有用信息的命令、用于查找的网站的记录。.........

FVD_Video_Downloader：Chrome插件视频下载利器

它会详细说明如何安装扩展、如何使用扩展来下载视频，以及在使用过程中可能遇到的问题及其解决办法。这个文件对于刚接触该扩展的新用户来说是很有帮助的，因为它可以指导用户完成下载和解决常见问题。 ### 新云软件...

精选资源

duochedao.zip_FVD_FVD模型代码_MIT_跟驰模型_跟驰模型仿真

07-14

《FVD模型与跟驰模型在MIT环境下的交叉口仿真》在交通工程领域，模拟车辆行驶行为是一项关键任务，特别是在复杂交通环境中如交叉口的管理与优化。本压缩包"duochedao.zip"包含了MIT（Massachusetts Institute of ...

【FVD_Video_Downloader跨平台使用攻略】：无缝安装与运行在所有操作系统

![FVD_Video_Downloader](https://ask.qcloudimg.com/http-save/yehe-5552817/8a860b691b8be559200ae608aaab349f.jpeg) # 摘要 ...文章还提供了详尽的安装指南和常见问题解决方案，旨在帮助用户高效使用

(recammaster) kl.yang@samsung-7960-35-Tower:~/code/fid-metrics-main$ python fid_metrics/main.py 'paths=["/data/kl.yang/code/ori_100open_100web/*.mp4", "/data/kl.yang/code/gen_100open_100web/*.mp4"]' metrics: - type: fid model: dims: 2048 data: dataset: resize_shape: - 256 - 512 batch_size: 64 num_workers: 16 - type: fvd model: type: videogpt path: /data/kl.yang/code/fid-metrics-main/fid_metrics/i3d_pretrained_400.pt data: dataset: sequence_length: 16 resize_shape: - 224 - 224 batch_size: 4 num_workers: 16 paths: - /data/kl.yang/code/ori_100open_100web/*.mp4 - /data/kl.yang/code/gen_100open_100web/*.mp4 Using device: cuda Error executing job with overrides: ['paths=["/data/kl.yang/code/ori_100open_100web/*.mp4", "/data/kl.yang/code/gen_100open_100web/*.mp4"]'] Traceback (most recent call last): File "/data/kl.yang/code/fid-metrics-main/fid_metrics/main.py", line 71, in main dls = build_loaders(type, cfg.paths, metric_cfgs.data) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/data/kl.yang/code/fid-metrics-main/fid_metrics/main.py", line 32, in build_loaders if is_video_path(path): ^^^^^^^^^^^^^^^^^^^ File "/data/kl.yang/code/fid-metrics-main/fid_metrics/../fid_metrics/dataset.py", line 147, in is_video_path return glob.glob(path)[0].endswith(f'.{ext}') ~~~~~~~~~~~~~~~^^^ IndexError: list index out of range Set the environment variable HYDRA_FULL_ERROR=1 for a complete stack trace.

最新发布

09-29

你遇到的错误是： ``` IndexError: list index out of range ``` 出现在这一行： ```python return glob.glob(path)[0].endswith(f'.{ext}') ``` --- ### ❓ 错误原因：你传入的路径是： ```bash paths=["/...

TensorFlow 显存使用机制详解

09-18

今天小编就为大家分享一篇TensorFlow 显存使用机制详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Tensorflow显存溢出

u012743859的博客

03-04

4353

报错信息一直是 InternalError: Dst tensor is not initialized. 然后显示一大堆信息，通过谷歌大部分找到的就是 GPU 显存溢出。然后加上 CUDA_VISIBLE_DEVICES=1 Environment Variable Syntax Results CUDA_VISIBL

解决Tensorflow显存溢出的问题

Ben出没冇注意的博客

01-04

1778

import tensorflow as tf import tensorflow.keras.backend as K os.environ["TF_FORCE_GPU_ALLOW_GROWTH"] = "true" config = tf.ConfigProto() config.gpu_options.allow_growth = True sess = tf.Session(config=config) K.set_session(sess) 加入上面几.

在训练过程中跑验证集导致显存out of memory问题。

等待戈多的博客

05-02

4297

文章目录前言正文总结前言在训练模型时，笔者想要每训练一个epoch，记录一下val的准确率，但是每当训练完第一个epoch开始准备跑val数据集的时候，就会出现显存double然后溢出的情况（batch_size在验证和训练时设置相同）。此处将复现笔者出现的问题，并给出解决方案。正文原始训练流程： for eopch in epochs: for data,label in train_dataloader： model.train() train(model,data,label)

Tensorflow中迁移学习出现 OOM 解决方案

我爱学习的博客

10-28

1949

tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shape[] 出现以上情况要注意以下两个方式： 1.batch_size值设置过大，导致内存溢出，batch_size是每次送入模型中的值，由于GPU的关系，一般设为16,32,64,128。 2. ima...

Pytorch GPU 显存溢出 Out of Memory 如何处理

郑哲东的博客

05-19

8125

在不修改网络结构的情况下, 有如下操作：同意 @Jiaming , 尽可能使用inplace操作，比如relu 可以使用 inplace=True 。一个简单的使用方法，如下： def inplace_relu(m): classname = m.__class__.__name__ if classname.find('ReLU') != -1: m.inplace=True #model.apply(inplace_relu) 2.进一步，...

DataSet 的 Merge 方法

平凡酿就非凡

06-14

1698

在ADO.NET中我们在合并两个相同或相近的DataSet对象时，通常会使用DataSet的Merge方法，该方法有多个重载版本，在介绍它之前我们先复习Merge方法，以下是MSDN中对Merge方法使用说明:Merge 方法用于合并架构大致相似的两个 DataSet 对象。合并在客户端应用程序上通常用于将数据源中最近的更改合并到现有的 DataSet 中。这使客户端应用程序能够拥有用数据源中的最

文本生成视频相关指标整理