内存优化——使用pandas读取千万级数据

最新推荐文章于 2025-10-09 01:18:02 发布

原创

最新推荐文章于 2025-10-09 01:18:02 发布 · 1.1w 阅读

42 ·

CC 4.0 BY-SA版权

该文章已生成可运行项目，

超级干货：Python优化之使用pandas读取千万级数据

环境：Linux-cenos5

processor : 31

model : 62

model name : Intel(R) Xeon(R) CPU E5-2640 v2 @ 2.00GHz

cpu MHz : 2000.066

cache size : 20480 KB

memory : 125G

在如上所述的单机环境中，使用一些优化可以使基于pandas数据格式的模型训练数据容量由600W增长为至少2000W，训练时间减少为1/5。具体方案如下：

数据读取优化

数据量4200W行，193列，每列存储为string类型的单精度浮点数，文件表由csv格式存储，总大小16GB+。通过如下语句读取到dataframe中去：

1 2	`df_train` `=` `pd.read_csv(path,header=None,sep=',',nrows=40000000,error_bad_lines=False,delimiter="\t",lineterminator="\n",keep_default_na=True)`

　　经过测试，当nrows读取行数超过800W条时，df_train占内存超过80G，在后续的步骤中涉及到切片和数据集复制时会直接崩溃，超过1200W条时会直接无法读取。首先考虑优化读取方式：

na_vals = ["\\N"," ","","NULL"]

df_tmp = []

df_train = pd.DataFrame(index=

本文章已经生成可运行项目

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lamusique

关注关注

6
点赞
踩
42

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用python中的Pandas库轻松完成千万级数据处理

白话机器学习

04-12

6452

当我们使用Pandas读取小量数据进行处理时，一般性能不是问题。但有时我们需要处理较大数据量，比如几个G的数据，数据量达到千万甚至上亿级别，这时我们在读数据时经常会出现因内存不足而导致程序崩溃的问题。

pandas 分批读取大量数据

weixin_45228198的博客

10-24

2277

大量数据，无法一次性读入内存，所有需分配读取 df = pandas.read_csv("xxxx.csv",encoding="utf-8",chunksize=300000) #每块数据 30w 行 for i in df: print(i.head()) 如图：

参与评论您还未登录，请先登录后发表或查看评论

pandas分批读取大数据集

最新发布

juyuesf的专栏

10-09

436

处理千万级数据时，应避免链式赋值操作，尽量使用inplace参数减少拷贝；合理使用query方法进行数据筛选；对于合并操作，根据情况选择merge或join并设置合适的索引；定期将处理结果保存为Parquet或Feather格式，这些二进制格式比CSV具有更快的读写速度和更小的存储空间。

P19 数组原理内存图

李晋江的博客

08-23

490

数组原理内存图

python pandas读入千万行（10GB）csv文件

weixin_44587086的博客

04-04

4563

读取10gb的csv文件,用时20秒

python使用大数据-在Python中利用Pandas库处理大数据的简单介绍

weixin_37988176的博客

10-30

783

2000字详解当Pandas遇上超大规模的数据集该如何处理呢？

weixin_43373042的博客

12-13

1963

大家好，又是新的一周。大家一般会用Pandas模块来对数据集进行进一步的分析与挖掘关键信息，但是当我们遇到数据集特别特别大的时候，内存就会爆掉，今天小编就来分享几个技巧，来帮助你避免遇到上...

Pandas处理大数据的性能边界：从千万级数据看极限与优化策略

Start_mswin的博客

07-19

1607

当你的Jupyter Notebook在加载CSV时突然卡死，当数据聚合操作运行半小时后抛出"MemoryError"——你可能正在触碰Pandas的"内存墙"！本文首次公开实测数据：某电商团队用Pandas处理800万条用户行为数据时，内存占用暴涨至4.8GB导致系统崩溃，而同样的数据用SparkR处理仅需17秒。但别急着放弃Pandas！文末将公布5个让Pandas性能提升3倍的"黑科技"，以及超过千万行数据时的终极替代方案。

Pandas处理大数据的极限与突破：从百万行到亿级数据的性能优化指南

Start_mswin的博客

07-16

1374

当你的Jupyter Notebook加载100万行数据只需8秒，但处理800万条记录时却突然内存暴涨至3.2GB导致系统崩溃——你可能正在触碰Pandas的"数据死亡线"！本文首次公开实测数据：某银行风控团队用Pandas处理交易记录时遭遇的致命瓶颈，以及我们发现的5个让处理速度提升300%的隐藏技巧。更震撼的是，当数据量突破2000万行时，这个免费替代方案竟比Pandas快100倍！

2021-11-07大数据学习日志——Pandas——数据导入和导出

tingbaobaoo的博客

11-07

830

pandas数据导入和导出学习目标能够使用 pandas 进行数据导入和导出操作(csv、excel、sql) 01_常见数据的导入和导出 1.1 CSV 文件方法说明 pd.read_csv(filepath, sep=',') 将 csv 数据加载成 DataFrame 数据 * sep参数用来指定加载时列的分割符，默认为逗号 df.to_csv(filepath, sep=',', index=True) 将 DataFrame 数据导出成 csv 数据

如何使用Pandas处理大批量数据

03-05

Why and How to Use Pandas with Large Data ，如何使用Pandas处理大批量数据，介绍了如何减少内存消耗，学习利用pandas进行大批量数据处理不错的参考资料。

使用Python Pandas处理亿级数据的方法

01-20

pandas处理较大数据量级的方法 - chunk,hdf,pkl

xiaopihaierletian的博客

10-24

1479

pandas处理较大数据量级的方法 - chunk,hdf,pkl

数据分析处理库（pandas)

m0_72674633的博客

08-31

1972

数据分析处理常用的技巧和方法模板

用Pandas 处理大数据的3种超级方法

优快云译文

05-31

2万+

原文链接：3 simple ways to handle large data with Pandas 作者 | George Seif 译者 | jojoa 易上手，文档丰富的Pandas 已经成为时下最火的数据处理库。此外，Pandas数据处理能力也一流。其实无论你使用什么库，大量的数据处理起来往往回遇到新的挑战。数据处理时，往往会遇到没有足够内存（RAM）这个硬件问题。企业往往...

pandas.read_csv导入一千多万行数据后，服务器崩溃

喝醉酒的小白

01-04

4631

nrows=100w

pandas将千万行数据分块保存为CSV文件，保存为HDF5文件

Hi文的博客

06-15

1797

从数据库读取数据保存为CSV，然后转换为HDF5，用于后面数据快速处理

2023年上证指数秒级数据集（含CSV与SQL格式）

CSV文件是一种轻量级、通用性强的文本格式，易于使用Python（如pandas库）、R、MATLAB等数据分析工具读取和预处理，适用于快速建模与可视化分析；而SQL数据库文件则更适合大规模数据存储与复杂查询操作，支持高效的...