在论文的复现过程中,涉及到了大文件的读写操作,对于h5py不是很了解。在此做一个简单的笔记,记录下相关的知识和遇到的部分问题方便日后回看,主要参考如下博客,写的十分详细。
参考链接
具体概念
h5是HDF5文件格式的后缀,h5文件对于存储大量数据而言有较大的优势。
h5文件可以看成是dataset和group组成的层次数据结构,类似于Linux的文件系统。其中dataset是类似与数组组织形式的数据集合,内容多种多样:可以说图像,表格,pdf文件和excel;group是包含了其它 dataset(数组) 和 其它 group ,类似于字典,可以包含多个group和dataset。
问题描述
在代码复现的过程中,涉及到一个大文件的读取,本来只有二十行的文件操作,一直报memory error 的错误。之前对h5py的相关操作不是十分熟悉,没办法在每个dataset后进行续写的操作(虽然文件的打开有r+),现在仍然不会,如果有大佬知道的话,希望可以教我一下。
解决方法
我当时的数据集只需要在h5文件中创建两个dataset,因为我还是不会进行dataset的续写操作,每次报错也只是在第二个dataset时报错,所以我初步想法是在第一个dataset写完后,将其申请的内存空间进行释放,之后再重新申请内存空间进行下一个dataset的写入。
import gc#对申请的内存空间进行释放
del vectors#之前的变量
gc.collect()#确保一定会被删除
#在python中,说是会自动管理内存空间,但在某个占用较大空间的变量被删除时,内存占用并不总会立即被释放(具体原因不太清楚)
为了保险起见,还用了相关的库,进行程序占用内存空间的查询。
部分代码如下:
import psutil#查看程序当前占用的内存大小
import os
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()
问题最终解决后的全部代码如下:
#-*- coding: utf-8 -*-
"""Convert raw GloVe word vector text file to h5."""
'''最终成功版:可以成功将txt转化为h5文件'''
import h5py
import numpy