pandas处理较大数据量级的方法 - chunk,hdf,pkl

最新推荐文章于 2025-07-19 17:13:35 发布

weixin_33682790

最新推荐文章于 2025-07-19 17:13:35 发布

阅读量3.6k

点赞数 2

CC 4.0 BY-SA版权

文章标签： python 大数据人工智能

原文链接：http://www.cnblogs.com/techs-wenzhe/p/10937903.html

本文介绍了在处理大量CSV数据时，如何利用Python的pandas库分批读取和存储数据，以避免内存不足的问题。通过使用chunk、hdf5（h5）和pkl格式，实现了高效且节省内存的数据处理流程。推荐使用h5保存DataFrame和pkl保存字典，因为它们具有快速读取速度和良好的易用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前情提要:

工作原因需要处理一批约30G左右的CSV数据，数据量级不需要hadoop的使用，同时由于办公的本本内存较低的缘故，需要解读取数据时内存不足的原因。

操作流程：

方法与方式:首先是读取数据，常见的csv格式读取时一次性全部读取进来，面对数据量较大(本次3亿条实车数据)时，需要分批并且有 选择性 的读取后提取有效信息删除冗余信息并清理内存。

同时，为了使处理数据时效率更高，将整理好的数据实时读取进来以后，保存成快速且可读的数据形式另行存储。然后释放内存并读取下一批数据直到整个流程结束

下面是操作代码:

#import pickle # pkl存储与 hdf5存储
import pandas as pd
# 释放内存
import gc
reader = pd.read_csv(r'E:\VEH_GBK_2019-01-01.csv', encoding='gbk',iterator=True,low_memory=False,usecols=[0,1,2,4])
title_mc=['location

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33682790

关注关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用python中的Pandas库轻松完成千万级数据处理

白话机器学习

04-12

6370

当我们使用Pandas读取小量数据进行处理时，一般性能不是问题。但有时我们需要处理较大数据量，比如几个G的数据，数据量达到千万甚至上亿级别，这时我们在读数据时经常会出现因内存不足而导致程序崩溃的问题。

12、数据读写：从XML到数据库的全面指南

read5的博客

07-02

本文详细介绍了如何使用Python的pandas库及相关工具来高效处理不同格式的数据，包括XML、Excel、JSON、HDF5和Pickle，并深入讲解了如何与多种数据库进行交互。内容涵盖数据读写、转换、存储、性能优化以及数据安全措施，为数据处理和分析提供了全面的指导。

参与评论您还未登录，请先登录后发表或查看评论

如何使用Pandas处理大批量数据

03-05

Why and How to Use Pandas with Large Data ，如何使用Pandas处理大批量数据，介绍了如何减少内存消耗，学习利用pandas进行大批量数据处理不错的参考资料。

Pandas处理大数据的极限与突破：从百万行到亿级数据的性能优化指南

Start_mswin的博客

07-16

1209

当你的Jupyter Notebook加载100万行数据只需8秒，但处理800万条记录时却突然内存暴涨至3.2GB导致系统崩溃——你可能正在触碰Pandas的"数据死亡线"！本文首次公开实测数据：某银行风控团队用Pandas处理交易记录时遭遇的致命瓶颈，以及我们发现的5个让处理速度提升300%的隐藏技巧。更震撼的是，当数据量突破2000万行时，这个免费替代方案竟比Pandas快100倍！

Python | Pandas中有效处理大数据集的6种方法

python收藏家的博客

09-03

1508

Pandas是一个强大的Python数据操作包，经常用于涉及数据分析和修改的工作。然而，标准的Pandas程序在处理大型数据集时可能会变得资源密集且效率低下。这篇文章中研究在Pandas中有效处理大数据集的方法。

使用Python Pandas处理亿级数据的方法

01-20

Pandas处理大数据的性能边界：从千万级数据看极限与优化策略

最新发布

Start_mswin的博客

07-19

1494

当你的Jupyter Notebook在加载CSV时突然卡死，当数据聚合操作运行半小时后抛出"MemoryError"——你可能正在触碰Pandas的"内存墙"！本文首次公开实测数据：某电商团队用Pandas处理800万条用户行为数据时，内存占用暴涨至4.8GB导致系统崩溃，而同样的数据用SparkR处理仅需17秒。但别急着放弃Pandas！文末将公布5个让Pandas性能提升3倍的"黑科技"，以及超过千万行数据时的终极替代方案。

pandas | 使用pandas进行数据处理——DataFrame篇

TechFlow的博客

07-09

1445

本文始发于个人公众号：TechFlow，原创不易，求个关注今天是pandas数据处理专题的第二篇文章，我们一起来聊聊pandas当中最重要的数据结构——DataFrame。上一篇文章当中我们介绍了Series的用法，也提到了Series相当于一个一维的数组，只是pandas为我们封装了许多方便好用的api。而DataFrame可以简单了理解成Series构成的dict，这样就将数据拼接成了二维的表格。并且为我们提供了许多表级别数据处理以及批量数据处理的接口，大大降低了数据处理的难度。创建DataF

python 如何通过pandas 将一个比较大的数据范围，转换成分别AI训练的数据

05-30

根据用户提供的引用，特别是引用[4]中提到Pandas分块处理大文件的方法，以及引用[3]提到的分布式计算框架如Spark，但用户可能更倾向于使用Pandas，所以需要专注于Pandas的分块处理技术。首先，我需要整理分块处理的...

Pandas性能提升秘籍：大数据集处理速度翻倍技巧

无论是数据清洗、转换、还是分析，Pandas都提供了高效且简便的方法。然而，随着数据规模的不断增长，性能挑战也日益突出。在本章中，我们将从Pandas的基础知识讲起，逐步深入到性能优化的核心领域，以期帮助读者在...

CMAQ 5.4数据处理最佳实践：专家分享高效输入输出处理的经验

![CMAQ 5.4数据处理最佳实践：专家分享高效输入输出处理的经验]...在本章中，我们将对CMAQ 5.4的架构进行简要介绍，并深入探讨其数据处理的基础知识。 ## CMAQ 5.4的架构简述 CMAQ 5.4是多尺度空气质

如何利用pandas处理大数据

inf_zh

05-02

5609

翻译自这篇文章当我们需要处理大数据时，如果不对数据做任何处理，可能会带来内存占用过大和运行过慢的风险。当然对于处理大数据集，类似spark之类的专业处理工具是大家的首选，但是pandas优秀的特性和简单明了的语法能极大提升数据分析的效率，因此我需要考虑如何对数据优化，使得我们能在pandas上完成更大数据量的数据分析工作。在用pandas进行数据分析时，减少内存占用简单来说就是选择合适...

解决pandas写大量数据到mysql，报system error: 32 Broken pipe

weixin_45410801的博客

11-17

464

把数据切成以一万为单位进行存储 size = 10000 df_size = len(df) num = df_size//size end_ = 0 for i in range(num): begin = i*size end = begin+size end_ = end print(begin,end)

python 千万级数据处理_Python实现 ! 千万级别数据处理

weixin_34536193的博客

03-01

3940

今天分享一个数据清洗小技巧，可以让你在遇到百万、千万级别数据的时候游刃有余。先来说说问题的背景现在有一个 csv 格式的数据集，大概 2千万条左右的样子，存储的是用户的网络交互数据，其中电话号码作为用户的唯一标识。再来看看我们要做啥首先我们需要针对这批用户确定所属运营商，其次根据交互数据对各运营商的用户感知情况进行分析，最后给出各运营商的相应优化解决措施。这个目标的第一部分：确定用户归属运营商，...

如何在 Python 中使用 Pandas 处理大数据集

mlynb的博客

04-09

1472

通过使用 Pandas 的 read_csv 函数，chunksize 参数，query 函数和 groupby 函数，您可以轻松地读取，过滤，分组和聚合大数据集。如果您是数据科学或机器学习的从业者，学习如何使用 Pandas 处理大数据集是非常重要的技能之一。如果您正在使用 Python，您会发现 Pandas 是一种非常流行的数据分析库，可以轻松处理大数据集。如果您需要对大数据集中的数据进行分组和聚合，则可以使用 Pandas 的 groupby 函数。

Python大数据处理：利用Python处理海量数据

吃不胖.

09-22

1316

在Python中，我们可以使用json库来读取和处理JSON格式的数据。数据清洗和处理是数据科学过程中最重要的步骤之一，因为我们需要处理各种各样的数据缺陷和人工错误。随着互联网的发展以及大数据时代的到来，我们需要处理的数据量越来越大，而Python已经成为了数据科学领域中最流行的编程语言之一。在Python中，我们可以使用多种方式来存储和读取数据，包括CSV文件、Excel文件、JSON格式、数据库等。在处理大数据集时，高性能的计算是至关重要的，因为我们需要在尽可能短的时间内完成数据处理和分析。

Pandas处理大数据的性能优化技巧

abackcab的博客

03-21

1171

Pandas是Python中最著名的数据分析工具。在处理数据集时，每个人都会使用到它。但是随着数据大小的增加，执行某些操作的某些方法会比其他方法花费更长的时间。所以了解和使用更快的方法非常重要，特别是在大型数据集中，本文将介绍一些使用Pandas处理大数据时的技巧，希望对你有所帮助数据生成为了方便介绍，我们生成一些数据作为演示，faker是一个生成假数据的Python包。这里我们直接使用它“”"“”"“”"我们创建了一个100万行的DF。

python使用大数据-在Python中利用Pandas库处理大数据的简单介绍

weixin_37988176的博客

10-30

766

【Python数据分析】利用Pandas库轻松处理大数据

萧鼎的博客

10-16

1895

Pandas是基于Python的开源数据分析库，主要用于处理和分析结构化数据。Pandas提供了高效的数据结构，主要是Series和DataFrame，并为数据处理、清洗和转换等操作提供了丰富的API。Series: 一维数据结构，类似于Python中的列表和字典。DataFrame: 二维表格数据结构，类似于电子表格或SQL数据库中的表格。Pandas能够方便地读取各种格式的数据，包括CSV、Excel、SQL数据库、JSON等。# 创建一个简单的DataFramedata = {