Python+不同的数据存储方式比较

最新推荐文章于 2024-10-10 14:52:51 发布

永永夜

最新推荐文章于 2024-10-10 14:52:51 发布

阅读量1.4w

点赞数 24

CC 4.0 BY-SA版权

分类专栏： Python 科学编程文章标签： python

本文链接：https://blog.youkuaiyun.com/Jerr__y/article/details/74230765

本文来探索一下python中提供的各种数据保存格式的性能如何。主要以一个 ndarray 格式的数据进行处理分析。包括下面几种方式：

.bin格式, np.tofile() 和 np.fromfile()
.npy格式，np.save() 和 np.load()
.txt 或者 .csv格式，np.savetxt() 和 np.loadtxt()
.h5 格式，h5py.File(，’r’ 或者 ‘w’)
.pkl 格式， pickle.dump()和pickle.load()

import numpy as np
from __future__ import print_function
import time

a = np.random.randint(0, 100, size=(10000, 5000))
print(a.dtype, a.shape)
print(a[:2])

int64 (10000, 5000)
[[90 96 38 ..., 67 40 79]
 [40 12 71 ..., 64 76 15]]

1. np.tofile() 和 np.fromfile()

%time a.tofile('data/a.bin')
%time b = np.fromfile('data/a.bin', dtype=np.int64)
print(b.shape)
print(b[:2])

CPU times: user 4 ms, sys: 392 ms, total: 396 ms
Wall time: 2.06 s
CPU times: user 4 ms, sys: 156 ms, total: 160 ms
Wall time: 160 ms
(50000000,)
[90 96]

读入数据的时候要正确设置 dtype 参数
读入的数据是一维的，还需要经过 reshape 处理。

2. np.save()和np.load()

%time np.save('data/a.npy', a)
%time b = np.load('data/a.npy')
print(b.shape)
pr

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

永永夜

关注关注

24
点赞
踩
40

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

块存储、文件存储、对象存储这三者的本质差别是什么？

weixin_33797791的博客

02-10

170

块存储、文件存储、对象存储这三者的本质差别是什么？【块存储】典型设备：磁盘阵列，硬盘块存储主要是将裸磁盘空间整个映射给主机使用的，就是说例如磁盘阵列里面有5块硬盘（为方便说明，假设每个硬盘1G），然后可以通过划逻辑盘、做Raid、或者LVM（逻辑卷）等种种方式逻辑划分出N个逻辑的硬盘。（假设划分完的逻辑盘也是5个，每个也是1G，但是这5个1G的逻辑盘已经于原来的5个物理硬盘意...

python保存数据的各种方式比较（磁盘空间，时间消耗）

MrCharles在优快云

03-16

1085

Npy and binary files are both really fast and small for dense data. If the data is sparse or very structured, you might want to use npz with compression, which’ll save a lot of space but cost some load time. If portability is an issue, binary is better th.

3 条评论您还未登录，请先登录后发表或查看评论

python——节省内存空间的数据存储格式：bytes和编码转换

Irving.Gao的博客

01-18

1440

最近在使用基于python的单片机pyboard，所以会考虑到单片机内存的问题，希望使用一种可以节省内存空间的数据存储格式，所以进行了相关的研究。文章目录python内置函数`__sizeof__()`python可用的内置编码格式对比结果结论 python内置函数__sizeof__() 通过__sizeof__()可以对变量的内存进行检查，将不同的编码格式的内存情况打印出，对比得出较好的编码格式。该方法返回给定对象所占用的内部空间大小(以字节为单位)。 python可用的内置编码格式直接转换为.

python存储数据空间最小_python-存储8M sha256哈希的最有效内存方式

weixin_39851918的博客

12-10

425

首先,让我们看一下为什么这么大.每个都有32个字节.这意味着以二进制形式存储在例如字节或字节数组对象的存储中大约需要32个字节.到现在为止还挺好.但是所有Python对象都有标头,通常为24-64个字节.通过快速检查,看起来字节对象在32位(可能加上对齐填充)上占用了额外的36个字节,在64位上占用了48个字节(至少在我检查的两个CPython版本上).因此,您如何摆脱那150％的额外存储空间？将...

python数据存储比较,一种比较省内存的稀疏矩阵Python存储方案

weixin_42508905的博客

03-26

323

[Python] Pandas 中 read_csv 与 read_hdf 速度对比

weixin_42902669的博客

10-28

4123

1. 速度对比一般情况下, 我们习惯使用 Pandas 中的 read_csv 函数来读取 CSV 文件, 但当 CSV 文件比较大时, read_csv 的速度会显得有点慢, 这时可以考虑使用 HDF5 格式来存储数据, 下面是两个函数所用时间的对比通过对比可以发现, 随着文件大小的增加, read_hdf 的优势越来越大, 但是当文件小于 15MB 时, read_hdf 的速度开始慢...

几种python存储数据(海量数据)的方式及读取时间对比

Joker_Q的博客

08-26

8219

使用背景：需要保存通过包括但不限于torch及numpy创建的数据(在这里主要测试的是通过网络训练，提取到的图片的特征向量)数据格式及大小：在这里使用torch创建数据，没用使用GPU(已经是该配置下能运行的最大数据量了，否则会爆内存)运行环境：具体参数参考R9000P 2021 3070版本；数据存储在新加的固态上型号是三星1tb 980测试内容：测试python主要的几种存储数据方式包括：h5py、npy、pkl、pt的读取速度。...

Numpy之文件存取

csmqq的专栏

05-26

1007

Numpy提供的文件存取功能。Numpy可以将数组保存至二进制文件、文本文件，同时支持将多个数组保存至一个文件中。

python保存数据方式（npy, pkl, h5, pt, npz）

yin_fei_0825的博客

05-04

9532

python保存数据方式（npy文件, pkl文件, h5文件, pt文件, npz文件）

Python：Numpy的fromfile、tofile方法---读写文件的强大工具

最新发布

hhd1988的专栏

10-10

1040

Python：Numpy的fromfile、tofile方法---读写文件的强大工具

IMDB电影评分正负数据集（3个版本的imdb_full.pkl,imdb.pkl以及imdb.npz）

01-19

IMDB电影评分正负数据集（3个版本的imdb_full.pkl,imdb.pkl以及imdb.npz），用于跑tensorflow的文本分类例程

Python: csv、dataframe、h5 与 pandas、h5py的一些尝试

Julia & Rust & Python

09-30

3919

本来想写一个库，看能不是提高pandas处理dataframe持久化成h5的读写速度，结果是无功而返，速度差距很大。感觉难点之一在数据转换上，现在还没有很好的办法。做个标记，也算是对h5折腾的一个回顾。 # -*- coding: utf-8 -*- #import tools import os import pandas as pd import os.path import numpy a...

python numpy -- tofile，fromfile，save，load

weixin_39087379的博客

06-19

3658

一，tofile()和fromfile() tofile()将数组中的数据以二进制格式写进文件，不保存数组形状和元素类型等信息 fromfile()读入如数据，在读入数据时需要正确设置dtype参数，并reshape才能得到和原始数据一致的结果 f='xxx.fea' arr1.astype('float').tofile(f) arr2=np.fromfile(f, dtype='float') #必须设置dtype且和保存时一致，否则结果错误二、save，load 是NumPy专用的二进制格式保存数

【python学习】pickle文件和csv文件读取速度、内存大小对比

s1k9y9的博客

12-09

5944

本文主要从读取数据速度、占内存大小等方面对pickle文件(.pkl)和csv文件(.csv)进行对比。

h5py vs npy/npz

reform513的博客

04-30

1481

Data engineering for computer vision Lately, I've been thinking hard about the best way to organize my data before feeding it to a machine learning classifier or regressor. I have a few guiding princ...

numpy文件存取

persuit的专栏

12-26

6258

NumPy提供了多种存取数组内容的文件操作函数。保存数组数据的文件可以是二进制格式或者文本格式。二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型。使用数组对象的tofile()方法可以方便地将数组中的数据以二进制格式写进文件。tofile()输出的数据不保存数组形状和元素类型等信息。因此用fromfile()函数读回数据时需要用户指定元素类型，并对数组的形状进行适当的修改

数据持久化的利器，Python中的pickle模块详解

pythonhy的博客

11-01

2746

Python数据序列化和反序列化时，pickle模块是一个非常有用的工具。它允许将Python对象转换为字节流，以便存储在文件中或通过网络传输，然后将这些字节流重新转换回Python对象。

python:numpy（文件存取）

weixin_33704591的博客

12-01

4329

NumPy提供了多种存取数组内容的文件操作函数。保存数组数据的文件可以是二进制格式或者文本格式。二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型。一，tofile()和fromfile() tofile()将数组中的数据以二进制格式写进文件 tofile()输出的数据不保存数组形状和元素类型等信息 fromfile()函数读回数据时需要用户指定元素类型，并对...

Python3读取h5，pkl，npz，npy格式的文件

qq_40281241的博客

08-19

2346

读取h5格式的文件 import numpy as np import pandas as pd data=pd.read_hdf('METR.h5') print(data) 读取pkl格式的文件 import pickle data = pickle.load(open('adj_mx.pkl','rb'), encoding='bytes') print(inf) 读取npz格式的文件 import numpy as np train_data = np.load('train.np