HDF5——h5文件的概念和部分python读取操作

本文链接：https://blog.youkuaiyun.com/qq_37959202/article/details/103648940

在论文的复现过程中，涉及到了大文件的读写操作，对于h5py不是很了解。在此做一个简单的笔记，记录下相关的知识和遇到的部分问题方便日后回看，主要参考如下博客，写的十分详细。
参考链接

具体概念

h5是HDF5文件格式的后缀，h5文件对于存储大量数据而言有较大的优势。
h5文件可以看成是dataset和group组成的层次数据结构，类似于Linux的文件系统。其中dataset是类似与数组组织形式的数据集合，内容多种多样：可以说图像，表格，pdf文件和excel；group是包含了其它 dataset(数组) 和其它 group ，类似于字典，可以包含多个group和dataset。
在这里插入图片描述

问题描述

在代码复现的过程中，涉及到一个大文件的读取，本来只有二十行的文件操作，一直报memory error 的错误。之前对h5py的相关操作不是十分熟悉，没办法在每个dataset后进行续写的操作(虽然文件的打开有r+)，现在仍然不会，如果有大佬知道的话，希望可以教我一下。

解决方法

我当时的数据集只需要在h5文件中创建两个dataset，因为我还是不会进行dataset的续写操作，每次报错也只是在第二个dataset时报错，所以我初步想法是在第一个dataset写完后，将其申请的内存空间进行释放，之后再重新申请内存空间进行下一个dataset的写入。

import gc#对申请的内存空间进行释放
del vectors#之前的变量
gc.collect()#确保一定会被删除
#在python中，说是会自动管理内存空间，但在某个占用较大空间的变量被删除时，内存占用并不总会立即被释放（具体原因不太清楚）

为了保险起见，还用了相关的库，进行程序占用内存空间的查询。
部分代码如下：

import psutil#查看程序当前占用的内存大小
import os

info = psutil.virtual_memory()
print u'内存使用：',psutil.Process(os.getpid()).memory_info().rss
print u'总内存：',info.total
print u'内存占比：',info.percent
print u'cpu个数：',psutil.cpu_count()

问题最终解决后的全部代码如下：

#-*- coding: utf-8 -*-
"""Convert raw GloVe word vector text file to h5."""
'''最终成功版：可以成功将txt转化为h5文件'''

import h5py
import numpy