通过Pandas读取大文件

最新推荐文章于 2024-07-06 23:53:03 发布

原创最新推荐文章于 2024-07-06 23:53:03 发布 · 2.1k 阅读

5 ·

CC 4.0 BY-SA版权

python语法同时被 2 个专栏收录

32 篇文章

订阅专栏

pandas

10 篇文章

订阅专栏

本文介绍了一种处理大数据文件的方法，通过使用Python的pandas库实现大文件的分块读取，有效解决了内存限制问题。文章详细展示了如何设置迭代器以逐块读取CSV文件，并利用concat函数进行数据整合。

当数据文件过大时，由于计算机内存有限，需要对大文件进行分块读取：

import pandas as pd

f = open('E:/学习相关/Python/数据样例/用户侧数据/test数据.csv')
reader = pd.read_csv(f, sep=',', iterator=True)
loop = True
chunkSize = 100000
chunks = []
while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print("Iteration is stopped.")
df = pd.concat(chunks, ignore_index=True)
print(df)

read_csv()函数的iterator参数等于True时，表示返回一个TextParser以便逐块读取文件；

chunkSize表示文件块的大小，用于迭代；

TextParser类的get_chunk方法用于读取任意大小的文件块；

StopIteration的异常表示在循环对象穷尽所有元素时报错；

concat()函数用于将数据做轴向连接：

pd.concat(objs, axis=0, join='outer', join_axes=None, 
ignore_index=False, keys=None, levels=None, names=None, 
Verify_integrity=False)

常用参数：
objs：Series,DataFrame或者是Panel构成的序列list;
axis：需要合并连接的轴，0是行，1是列；
join：连接的参数，inner或outer；
ignore=True表示重建索引。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蓝鲸123

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

用pandas读取大文件

hengcall的博客

05-20

1万+

读取上GB大文件的方式有很多，但是并不是都有像pandas这样强大的数据清洗功能。数据太大是，可以分块处理，及时手动删除内存，最后在合并数据。今天在读取一个超大csv文件的时候，遇到困难：首先使用office打不开然后在python中使用基本的pandas.read_csv打开文件时：MemoryError 最后查阅read_csv文档发现可以分块读取。 read_csv...

超高效Pandas：分块+并行处理10GB数据不再卡顿

最新发布

gitblog_01165的博客

10-08

363

你还在为处理大型数据集时Pandas卡顿崩溃而烦恼吗？当Excel提示"文件过大无法打开"，当内存告警频繁响起，当单线程处理耗费数小时——是时候掌握分块读取与并行处理的终极技巧了。本文将通过实战案例，带你彻底解决10GB+数据处理难题，让你的分析效率提升10倍！ ## 一、大型数据处理的痛点与解决方案 ### 1.1 内存爆炸的元凶当使用`pd.read_csv('large_file.cs...

参与评论您还未登录，请先登录后发表或查看评论

pandas高效读取大文件的探索之路

lvaolan8888的博客

04-16

1479

本文探讨了一些pandas读取大文件的优化方案，最后比较好的就是Polars方案和pickle序列化方案。如果我们的项目是分析固定的数据，比如历史的交易数据，历史天气数据，历史销售数据等等，那么，就可以考虑pickle序列化方案，先花时间讲原始数据序列化，后续的分析中不担心读取文件浪费时间，可以更高效的尝试各种分析思路。除此之外的情况，建议使用Polars方案。最后补充一点，如果读取文件的性能对你影响不大，那就用原来的方式，千万不要画蛇添足的去优化，把精力花在数据分析的业务上。

pandas读取大文件

YangTinTin的博客

07-28

2150

文章目录两种方法1 使用参数chunksize2 使用参数iterator 两种方法 1 使用参数chunksize reader = pd.read_csv('./data/my_data.txt', sep='\t', chunksize=4) # chunksize=4其实就是4行4行地读取 reader.get_chunk(4) # 查看四行 reader.get_chunk(4) 多次运行会有不同的结果，因为是迭代的，第一次显示的是0~3行，第二次则显示的是4-7行，以此类推。 2 使用

通过Pandas读取大文件的实例

12-24

当数据文件过大时，由于计算机内存有限，需要对大文件进行分块读取： import pandas as pd f = open('E:/学习相关/Python/数据样例/用户侧数据/test数据.csv') reader = pd.read_csv(f, sep=',', iterator=True) loop = True chunkSize = 100000 chunks = [] while loop: try: chunk = reader.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop

pandas 读取各种格式文件的方法

09-20

下面将详细介绍如何使用pandas读取不同格式的文件以及在读取过程中可能遇到的一些常见问题。首先，在使用pandas之前，我们需要将pandas库导入到我们的工作环境中，这是进行任何数据处理的前置工序。我们可以使用...

pandas读写文件

freeline的博客

08-13

3181

1.读写文本文件 2.读写Excel文件

pandas读取和处理大文件

04-19

466

chunksize 为每次读取的数据量，可以减少内存的使用。一般笔记本的内存不可能无限大。进行数据统计和数据筛选的的话用这种方式比较方便。chunk可以处理进行分块处理数据。

Pandas分块读取大文件以及读写csv，txt文件的实用操作（待更新）

maligebilaowang的博客

07-27

6399

一、前言经常利用python编写数据处理脚本，而且经常需要从外界读取csv，txt等格式的文件。而且需要读取的文件很大，比如十几个g的大文件。这时候不能利用pandas直接读取，否则会给电脑内存造成太大的压力。因此就需要进行分块处理以及一边处理一边吧处理的结果写入文件的方式。二、Pandas读写txt以及csv文件的实用操作 2.1 读取csv文件的参数详解（部分实用参数详解，其他的用到可以再查文档）读取csv文件的相关参数： pandas.read_csv(filepath_or_buffer, s

【pandas】读取大型文件技巧

m0_37477175的博客

12-31

1973

当csv文件特别大时，pandas读取整个文件非常的耗时，比如我这边有文件大小为5.77G !wc -l x.csv 行数2390492也非常多；用pandas加载x.csv，花了将近2分钟。为了加快速度，将使用python 包datatable import datatable as dt %%time train_data_datatable = dt.fread('x.csv') CPU times: user 27.6 s, sys: 3.31 s, total: 30.9 s Wall t

Pandas 提高读取和处理大CSV文件方法

XiaoYuGouGou的博客

07-06

1787

处理大型CSV文件时，确实可能会遇到性能瓶颈，尤其是当内存不足以一次性加载整个文件时。

pandas大文件分块读取

Pillar_cai的博客

03-08

702

对于一个大文件可以分块读取，设置参数chunksize即可，若设置这个参数后将返回一个TextFileReader对象迭代器，可以用这个对象逐块迭代 import pandas as pd zarten_csv = pd.read_csv('../zarten_csv.csv', sep=',', names= ['name','age','sex'], chunksize= 10) for i in zarten_csv: print(i) 原文链接：【Pandas】...

pandas快速读取大文件csv方法

a347604678的博客

06-18

4632

当我们使用python进行大量数据的读取操作时，可以通过设置read_csv参数、使用polars、datatable等第三方库的方法提速。

高效加载大文件(pandas+dask)

鲨鱼儿的博客

03-07

2281

要在单机环境中对Dask进行多进程数的控制，你可以使用模块创建一个本地集群，并控制其工作进程数量。通过这种方式，你能够显式地设定并发执行任务的工作线程或进程数目。"""使用 Dask 初始化加载器并设置多处理。:param filepath: 要读取的文件路径。:param blocksize: 单个块(block)读入内存时占用字节大小，默认值设定为128MB。根据系统和硬件配置调整blocksize大小以获得最佳性能，较小值将导致更高I/O频率但容易管理（内存使用上）；

Pandas对于大型（上G）数据集的几种读取方式

专注Python和R语言，分享Python和R语言入门教程

05-27

877

在一个CSV文件中往往存在很多列数据，但并不是所有的列都是我们需要的，此时如果将所有的列都读取出来，无疑会减慢数据读取速度。）竞赛平台上寻找一些数据集来练习，但是发现部分数据集是几G甚至几十G的，如图1所示。当刚刚得到一个很大的CSV文件时，迫切想了解数据的情况，此时推荐使用DataFrame对象的head()方法和tail()方法，先查看前5行数据和最后5行数据。说明：head()方法和tail()方法默认是查看5行数据，如果想查看更多的数据可以指定行数，如head(20)，查看前20行数据。

Pandas读取数据

芊樱烛渊的博客

05-20

9944

一、pandas读取csv文件 import pandas as pd data=pd.read_csv('city.csv') print(data) 这里我们可以指定name参数，来给我们的列表的不同列命名 import pandas as pd data=pd.read_csv('city.csv',names=['A','B','C']) print(data) 这是我们的data指定names之后的内容，可以发现我们的2018年到2016年全部为A，2015年为B，2014年为

pandas文件读取

CarveStone的博客

01-16

3342

Pandas 的一项重要功能是能够编写和读取 Excel、CSV 和许多其他类型的文件并且能有效地进行处理文件。支持从本地文件系统或URL读取的xls，xlsx，xlsm，xlsb和odf文件扩展名。当使用 Pandas 做数据分析的时，需要读取事先准备好的数据集，这是做数据分析的第一步。read_csv() 函数的功能是可以让文件或者文件中url地址以及文件新对象中加载带有分隔符的数据，它默认分隔符是逗号。一本文理科与二本文理科最高分数线是多少，最低的分数线是多少，相差多少？

python通过pandas读取excel文件内容

10-25

以下是使用Pandas读取Excel文件的基本步骤： 1. 首先，你需要安装pandas和openpyxl（如果文件是xlsx格式）或xlrd（如果是xls格式）这两个库。可以使用pip进行安装： ```bash pip install pandas openpyxl (for ...