如何解决python读取大数据量文件时造成的内存溢出?

本文介绍了在Python中处理大CSV文件时遇到内存溢出问题的三种解决方案:文件拆分、分段读取(如pandas的chunksize参数)和使用polars模块。作者还推荐了EmEditor作为文件分割工具,并分享了Python学习资源,包括安装包、Web开发、爬虫、数据分析等内容。

由于以前遇到的数据文件体量都比较小,今天在使用python读取csv文件时直接内存溢出了。

这里特意记录一下解决问题的三种方式,遇到的场景就是使用pandas模块直接读取csv文件然后返回DataFrame对象结果内存溢出。

首先,来看一下解决这个问题的思路是什么,然后再来分析怎么解决这个问题?

最简单的方式就是直接使用软件工具将大文件进行拆分,拆分完成后再进行读取。第二种则是在读取大文件的过程中直接分段读取,比如按照每十行读取的方式直接进行读取操作。

再或者第三种就是使用底层处理比较优质的模块,比如polars,它的底层存储方式就不会发生内存溢出的问题。

# Importing the pandas module and giving it an alias of pd.
import pandas as pd

# Reading the csv file and returning a DataFrame object.
result_ = pd.read_csv('G:/test/data.csv')

#   File "pandas\_libs\parsers.pyx", line 808, in pandas._libs.parsers.TextReader.read_low_memory
#   File "pandas\_libs\parsers.pyx", line 866, in pandas._libs.parsers.TextReader._read_rows
#   File "pandas\_libs\parsers.pyx", line 852, in pandas._libs.parsers.TextReader._tokenize_rows
#   File "pandas\_libs\parsers.pyx", line 1973, in pandas._libs.parsers.raise_parser_error
# pandas.errors.ParserError: Error tokenizing data. C error: Expected 3 fields in line 14, saw 4542

上面就是直接读取大数据量的csv文件会发生python内存溢出的报错。

若是想继续使用pandas模块读取大数量的文件,可以加上分割读取数据的参数就不会发生内存溢出的现象了。

# Reading the csv file in chunks of 10 rows.
result_ = pd.read_csv('G:/test/data.csv', chunksize=10)

chunksize设置为10,就是可以按照每十行的读取方式来读取csv的数据,并且返回的也是DataFrame的数据对象。

然后就是采用polars模块读取的方式来处理大数据量csv文件,polars本身对于大数据的文件支持比较好,并且读取速度也有很大的提升。

可以使用polars模块一次性读取csv文件直接返回DataFrame的数据对象。

# Importing the polars module and giving it an alias of pol.
import polars as pol

# Reading the csv file and returning a DataFrame object.
data_ = pol.read_csv('G:/test/data.csv')

# Printing the dataframe.
print(data_)

图片

最后一种方式提前将大数据文件做完文件分割之后再进行读取,如果是做文件分割的话推荐一个比较好用的数据文件分割工具-EmEditor。

图片

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python70个实战练手案例&源码👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方优快云官方认证二维码或者点击链接免费领取保证100%免费

<think>好的,我需要帮助用户了解如何在Python中处理百万级数据以避免内存溢出。首先,我应该回忆相关的解决方案和引用资料。 用户的问题是关于处理大规模数据的内存管理。根据提供的引用,有几个关键点需要注意。比如,使用生成器、分块处理、迭代器、避免一次性加载数据等。我需要将这些点组织成一个清晰的步骤,确保每个方法都有对应的引用支持。 首先,生成器(Generators)可以逐项生成数据,减少内存占用,这在引用1和5中提到过。然后是分块处理,比如Pandas的chunksize,引用4和5都提到了逐行读取或分块处理的重要性。接下来,使用适合的数据类型,比如NumPy的数组或Pandas的类别类型,这样可以节省内存,但引用中没有直接提到,可能需要结合常识补充,但需要注意是否有引用支持。不过引用1提到了内存管理的重要性,可能可以关联到数据类型优化。 另外,避免在内存中存储中间结果,使用数据库或磁盘缓存,引用3和4提到处理大文件需要避免一次性加载,这可能涉及中间数据的处理。然后,使用高效的数据结构,比如迭代器,引用5中的with open和逐行处理就是例子。 内存分析工具如tracemalloc或objgraph可以帮助检测内存问题,引用2和3提到了内存泄漏的解决方案,可能包括工具的使用。最后,利用外部计算框架,比如Dask,引用中没有提到,但根据常识,这可能是一个有效的方法,但需要确认是否有引用支持。不过用户提供的引用中没有提到Dask,可能需要省略或谨慎提及。 需要确保每个建议都有对应的引用支持,比如分块处理引用4和5,生成器引用1和5,逐行处理引用5等。同,要避免引入引用中没有的内容,比如Dask可能不在引用里,所以可能不提及,或者提到但没有引用标注。 整理结构,可以分点列出方法,每个方法下面详细说明,并附上引用。例如: 1. 使用生成器和迭代器(引用1、5) 2. 分块读取文件(引用4、5) 3. 优化数据类型(引用1关于内存管理) 4. 使用外部存储和数据库(引用3、4) 5. 使用高效库如Pandas搭配chunksize(引用4) 6. 避免不必要的变量引用(引用3关于内存泄漏) 7. 内存分析工具(引用2、3) 需要确保每个步骤都正确对应引用,并且语言自然。同,在回答末尾添加相关问题,如分块处理的具体方法、生成器与迭代器的区别、Pandas内存优化技巧等。 现在需要检查是否有遗漏的关键点,并确保引用正确。例如,引用5提到with open逐行读取,这正是处理大文件的方法之一。引用4提到分块处理避免内存溢出。生成器在引用1和5都有涉及。数据类型优化可能需要结合引用1中的内存管理策略,但需要明确说明。 最后,确保回答结构清晰,分点说明,每个方法有实例或引用,末尾添加相关问题,符合用户要求的格式。</think>以下是Python处理百万级数据避免内存溢出的7个关键方法,结合内存管理策略和实际应用场景: ### 一、使用生成器和迭代器 通过$yield$关键字逐项生成数据,避免一次性加载所有数据到内存。例如处理CSV文件: ```python def read_large_file(file_path): with open(file_path, 'r') as f: for line in f: yield line.strip() ``` 此方法可将内存占用从$O(n)$降为$O(1)$[^1][^5] ### 二、分块读取文件 使用Pandas的$chunksize$参数处理结构化数据: ```python import pandas as pd chunk_size = 10_000 for chunk in pd.read_csv('large.csv', chunksize=chunk_size): process(chunk) # 逐块处理 ``` 单次内存占用量从$2GB$降为$10MB$(当$chunk_size=10k$)[^4] ### 三、优化数据类型 通过类型转换降低内存消耗: | 原始类型 | 优化类型 | 内存减少幅度 | |----------|----------|--------------| | int64 | int32 | 50% | | float64 | float32 | 50% | | object | category | 90% | (当数据存在重复字符串效果显著) ### 四、使用内存映射文件 处理二进制文件通过$numpy.memmap$实现零拷贝: ```python import numpy as np data = np.memmap('large.bin', dtype='float32', mode='r', shape=(1000000, 100)) ``` ### 五、利用数据库中间层 使用SQLite进行数据分阶段处理: ```python import sqlite3 conn = sqlite3.connect(':memory:') # 分批次插入数据 while has_more_data: batch = get_next_batch() batch.to_sql('temp_table', conn, if_exists='append') ``` ### 六、选择性加载列数据 使用$usecols$参数仅加载必要列: ```python pd.read_csv('data.csv', usecols=['col1', 'col2']) ``` 当原始数据有$50$列,内存消耗可减少$96%$[^4] ### 七、使用Dask并行处理 处理超大规模数据分布式计算: ```python import dask.dataframe as dd ddf = dd.read_csv('huge_dataset/*.csv') result = ddf.groupby('key').value.mean().compute() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值