hdf5内存问题

最新推荐文章于 2025-06-25 09:26:50 发布

ANONYMOUSLYCN

最新推荐文章于 2025-06-25 09:26:50 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习

本文链接：https://blog.youkuaiyun.com/geng333abc/article/details/92800704

深度学习专栏收录该内容

4 篇文章

订阅专栏

博客指出当重复执行代码生成H5文件时，虽内部keys和主键下数据大小未变，但文件大小每次增加1 - 2M，原因是HDF5不会释放已用空间。提出用ptrepack工具重新打包解决，还提到因该问题内存撑爆，需定时关闭打开，待研究与Hadoop保存追加信息的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

h5 = pd.HDFStore('test_c4.h5','a', complevel=4, complib='blosc')
for tpath in files[:5]:
    code = tpath.split('\\')[-1][:-4]
    data = pd.read_csv(tpath, encoding='gbk')
    
    
    h5['min1'+code] = data
h5.close()

上面这个是代码，当 h5 文件未创建时，这段测试代码生成的 H5 文件大约是 5M 左右，但当重复执行这个代码，其内部的 keys 并未发生变化，每一个主键下的数据大小读出来之后发现也没有变化。

但是文件大小确实在增加，每次增加 1~2M

hdf5 是不会释放已用空间的,每次新增数据,都会重新申请一次,一个比较简单的解决方法是用自带的工具重新打包一下,叫做 ptrepack <新文件> <源文件> ,新文件的大小就是重新计算过的

我就是以上问题把内存撑爆了的然后，我只能是每隔一段关闭打开一次，估计是和李斯特一样的内存开辟，但是没有内存回收机制，导致了内存不断的开销而没有释放。不知道和hadoop的那种保存追加信息的有什么区别。待研究

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ANONYMOUSLYCN

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

HDF5 Diskmap 类：允许将 HDF5 数据集作为 Matlab 变量轻松读/写访问。-matlab开发

06-01

Matlab 类以类似于 Matlab 的 memmapfile 的内存映射方式处理大数据文件。 HDF5 文件可以作为具有下标引用和赋值方法的基本 matlab 变量创建和访问。进一步发展成为可能。在处理大型数据集以及需要重复处理相对较小的数据部分时非常有用。这是由于实现了对 HDF5 mex 函数的直接调用。参见： http : //www.mathworks.com/matlabcentral/newsreader/view_thread/173805

HDF5

qq_35608277的博客

12-15

445

HDF5 Hierarchical Data Format，可以存储不同类型的图像和数码数据的文件格式，并且可以在不同类型的机器上传输，同时还有统一处理这种文件格式的函数库。大多数普通计算机都支持这种文件格式。 caffe 训练模型可以选择保存为HDF5格式或默认的protobuffer格式 LMDB \LEVELDB LMDB的全称是LightningMemory-Mapped Database...

参与评论您还未登录，请先登录后发表或查看评论

h5py文件操作详解：HDF5文件的高级使用指南

最新发布

gitblog_00214的博客

06-25

259

h5py文件操作详解：HDF5文件的高级使用指南概述在科学计算和大数据处理领域，HDF5格式因其高效的数据组织和存储能力而广受欢迎。h5py作为Python中操作HDF5文件的工具包，提供了强大而灵活的接口。本文将深入探讨h5py中File对象的使用方法，帮助开发者充分利用HDF5文件的各项特性。文件基础操作文件打开与创建 h5py的文件操作模式与Python标准文件操作类似，但专为HDF...

python无法打开hdf5_保存到hdf5非常慢(Python冻结)

weixin_39588983的博客

12-18

322

我正在尝试将瓶颈值保存到新创建的hdf5文件中.瓶颈值分批形成(120,10,10,2048).保存一个单独的批次占用超过16个演出,python似乎在那一批冻结.根据最近的调查结果(见更新,似乎hdf5占用大内存是可以的,但冻结部分似乎是一个小故障.我只是试图保存前两批用于测试目的,而且仅用于测试训练数据集(再次,这是一个测试运行),但我甚至无法通过第一批.它只是在第一批停止并且不循环到下一次迭...

为什么使用hdf5存取文件，速度却比使用csv存取文件的速度还慢？

方脸大公鸡的博客

02-22

924

按照常理，hdf5在这么大的数据量中应该表现得比csv好很多，然而结果却是hdf5存取相同数据所花费的时间差不多是csv的1.6倍。原因和数据类型和数据精度有关

python 数据存储之HDF5

医然

08-11

3687

import h5py import numpy as np 一、数据和元数据的组织： In [12]: temperature=np.random.random(1024) In [13]: temperature Out[13]: array([ 0.91976222, 0.07664957, 0.28241276, ..., 0.93644539, 0.893...

windows下hdf5下载

05-24

HDF5（Hierarchical Data Format 5）是一种用于存储和管理大量数据的文件格式，它设计为可扩展、高效且自包含。在Windows环境下下载和使用HDF5，你需要了解以下关键知识点： 1. HDF5简介：HDF5提供了一种平台无关的...

hdf5 for C++

12-21

HDF5库还提供了错误处理、内存管理、数据转换等功能，以满足不同场景的需求。对于新手来说，理解这些基本概念和API函数是掌握HDF5的关键。通过不断实践和查阅官方文档，开发者可以逐步熟练地利用HDF5进行高效的数据...

完美解决keras 读取多个hdf5文件进行训练的问题

09-16

通过这种方式，Keras可以逐批加载数据，而不是一次性加载整个数据集，从而解决了处理大量HDF5文件时的内存限制问题。同时，这种分批加载的方法也允许我们在训练过程中动态地调整数据集，例如进行数据增强，而无需...

hdf5-1.8.21.tar.gz -- 免积分

01-01

2. **大数据支持**：HDF5可以处理非常大的数据集，远超过内存容量，通过虚拟内存管理和数据部分加载来提高性能。 3. **数据独立性**：数据和元数据都包含在文件中，使得数据可以在不同的系统和软件环境中被正确读取...

PHDF5 并行hdf5 按列读写（Columns ）

weixin_62592231的博客

11-27

1148

PHDF5并行写入数据是发起多个进程，被发起进程按照某一规则写入数据到指定位置。用C语言编写一个连续的hyperlab. 在本例中，有一个8(行)x 6(列)的数据集，每个进程向数据集写入相同数量的列。

java读写hdf5格式文件需要使用的库

03-18

压缩包中包含java读写hdf5格式文件时需要的jar包和动态链接库，动态链接库提供了windows、linux两种版本的

Ubuntu: HDF5报错: HDF5 header version与HDF5 library不匹配

weixin_30649641的博客

11-06

765

今天在执行一个用到hdf5的python脚本时，遇到如下错误 Warning! ***HDF5 library version mismatched error*** The HDF5 header files used to compile this application do not match the version used by the HDF5 library t...

HDF5: 读写速度与文件的大小

代码过客

11-14

5543

HDF5是一种优秀的文件格式，特别是对于大型的文件，是一个很好的选择。任何事情都是一个平衡，当源文件是.csv文件时，你转为HDF5文件，你的目标是什么，要读（写）速度，还是HDF5文件的大小？一、效率与文件的大小两者不可兼得 HDF5文件，如果不采用压缩的方式，格式会比源文件大不小，以CSV为例，可能会增大不少。但是在没有压缩的情况下，速度是最佳的。如果你不仅需要速度，而且还需要控制文件的...

HDF5数据的打包与使用（以图像数据为例）

Hello Word

01-08

3230

HDF5 数据是存储在一种名为 Hierarchical Data Format version 5 (HDF5) 的二进制文件格式中的数据。这种文件格式可以用来存储大量的多维数据，并且提供了很多的功能来帮助用户组织和管理数据。HDF5 数据文件中包含了一系列的数据集，每个数据集都是一个多维数组。数据集的维度可以是任意的数量，并且每个数据集都可以有自己的属性。这使得 HDF5 文件格式非常适合用来存储大量的数值型数据，比如图像、音频、视频等。

HDF如何在不重新打包的情况下处理已删除数据集释放的空间

07-15

653

HDF5（Hierarchical Data Format）是一种用于存储和传输大量数据的文件格式，它允许用户在不重新打包的情况下处理已删除数据集释放的空间。例如，在每次迭代后，可以删除旧的模型参数数据，然后保存新的模型参数数据。2. 打开一个HDF5文件，并创建一个新的数据集。可以使用h5py.File()函数来打开文件，然后使用create_dataset()函数来创建新的数据集。5. 如果想要释放整个HDF5文件所占用的空间，可以使用f.close()函数关闭文件，然后重新打开文件。

解决C/C++内存堆积问题思路

sj_djw的博客

08-06

3622

1、弄清问题现象及发送场景，尝试复现问题。使用内存检测工具进行排查，比如使用valgrind工具进行内存检测 3、将现场出现内存泄露的进程生成coredump文件，使用gdb生成coredump文件 valgrind不支持调试已运行程序 5.4. Is it possible to attach Valgrind to a program that is already running? ...

【Java并发编程】Java多线程（五）：关于线程的几个问题

A minor

09-16

1722

1.子线程 1 去等待子线程 2 执行完成之后才能执行，如何去实现？答：这里考察的就是 Thread.join 方法，我们可以这么做： @Test public void testJoin2() throws Exception { // 线程2 Thread thread2 = new Thread(new Runnable() { public void run() {...} }); // 线程1 Thread thread1 = new Thread(new Runna

错误使用 h5readc HDF5 库遇到错误并生成了以下堆栈跟踪信息

pamphy的博客

05-04

2241

然后我就放弃了，在python中直接在自己创建的虚拟环境中pip install h5py，也可以在系统上安装全局的库python -m pip install h5py。然后在下面的网站下载安装了HDF的plugin之后，【具体安装过程在网址。中可以看到】就提示下面的错误。