超大CSV文件难不倒你！5招教会你运用Pandas轻松解决

最新推荐文章于 2025-05-22 10:48:25 发布

原创最新推荐文章于 2025-05-22 10:48:25 发布 · 4.7k 阅读

CC 4.0 BY-SA版权

文章标签：

87 篇文章

订阅专栏

文章介绍了使用Pandas处理大规模CSV文件的技巧，包括分块读取数据、指定数据类型以减少内存使用、分块运算、及时清理内存以及利用SQLite数据库存储和查询数据，旨在解决内存溢出和程序崩溃问题。

部署运行你感兴趣的模型镜像

在数据分析工作中，时常会遇到数据量巨大的CSV文件，这无疑给我们带来很大困扰，总是内存溢出和程序崩溃。
在此教会各位Pandas的5招，让你轻松应对超大CSV文件，内存问题不再是障碍。

招式1：分块读取数据

我们可以使用pandas.read_csv()的chunksize参数分块读取数据，避免将整个数据集加载到内存中一次。
代码示例：

df = pd.read_csv('large_file.csv'， chunksize=100000)

招式2：指定数据类型

在读取数据时，指定数值列的数据类型可以减少内存使用。
代码示例：

df = pd.read_csv('large_file.csv'， dtype={'col1'： np.int32， 'col2'： np.int64})

招式3：分块运算

使用DataFrame的iter_chunks方法分块运算，而不必将全部数据载入内存。
代码示例：

for df_chunk in pd.read_csv('large_file.csv'， chunksize=100000)：
    df_chunk['new_col'] = df_chunk['col1'] * 2

招式4：及时清理内存

读取数据后及时清理中间变量，释放内存。
代码示例：

df = pd.read_csv('large_file.csv') 
del df

招式5：使用SQLite数据库储存

如果数据真的量太大，考虑加载到SQLite，使用SQL查询数据。
代码示例：

df.to_sql('my_table'， conn， index=False) 
df = pd.read_sql('SELECT * FROM my_table'， conn)

总之，对于超大CSV文件的处理，选择合适的方法可以有效解决内存不足的问题， Key 是尽量避免将全部数据加载到内存。通过分块读取、指定数据类型、分块运算以及清理内存等技术可以应对超大数据集。希望这些技巧能帮助你在处理超大CSV文件时解决内存问题。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率