数据量太大，节省内存的几种方式

最新推荐文章于 2025-10-07 12:06:01 发布

原创最新推荐文章于 2025-10-07 12:06:01 发布 · 2.8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #内存 #python

python 同时被 2 个专栏收录

1 篇文章

订阅专栏

内存

1 篇文章

订阅专栏

本文介绍了几种高效读取CSV文件的方法，包括利用pandas库的特定参数如nrows、skiprows、dtype和usecols等来优化内存使用；通过迭代读取大文件并使用垃圾回收机制来平衡内存和速度；以及如何通过数据类型转换进一步减少内存占用。

1、使用nrows和skip_rows来读取。提前申明dtype和usecols，可以节省内存空间。

train_data=pd.read_csv(train_dir,skiprows=range(1,SKIP_ROWS),nrows=TRAIN_ROWS,dtype=dtypes,usecols=use_cols)

2、如果要兼顾内存和速度。可以使用reader来分块阅读。在创建reader的时候，并没有真正读取数据，等到for循环的时候才读取。

train_reader=pd.read_csv(train_dir,iterator=True,chunksize=chunk_size,dtype=dtypes,usecols=use_cols)

在for循环中，才真正读取数据。

for chunk in train_reader : 
  train_data=pd.concat([train_data,chunk],ignore_index=True)

3、要善用垃圾回收，及时删除不需要的变量

del test_data
gc.collect()

4、对数据进行类型转换，及时减少内存。

train_data[col_name]=train_data[col_name].astype('uint8')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

七里云

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

流式计算中的数据压缩和优化：如何减少流式计算的数据量和传输带宽

AI天才研究院

07-14

3428

作者：禅与计算机程序设计艺术数据驱动型计算（Data-driven computing）的快速发展已经彻底改变了现代IT行业的工作方式。从最初的批量处理到基于云服务的分布式计算，数据驱动型计算越来越受到广泛关注。随之而来的就是流式计算（Streaming Computing）。由于实时性要求高、处理数据量巨大、数据传输速率不确定等特点，

高效内存管理与性能优化：Java Hotspot G1 GC全景解析

最新发布

CompiTide的博客

10-07

605

解决大数据处理内存不足难题，提供百万级数据高效处理方案。涵盖分布式计算、数据分块与内存优化技术，适用于日志分析、批量清洗等场景，显著提升运行效率。避坑指南值得收藏。

数据存储方式有哪些?这3种数据存储方式了解吗?

ic2121的博客

03-01

1万+

为增进大家对数据存储方式的认识，本文将对三种数据存储方式予以介绍。

mysql百万数据写入_mysql 百万级数据查找，并写入txt文件

weixin_39950010的博客

02-02

413

public class ConnectMysql {public List getTag(int start,int end){List intList=new ArrayList();Connection con=getConnetion();try {con.setAutoCommit(false);//此处开启事务Statement stm=con.createStatement();Re...

数学建模之数据分析【六】：Pandas读取数据集的实用操作

lmx1458070445的博客

08-16

1250

Pandas读取数据集的实用操作

Python学习：numpy库 数据量太大出现Memory Error问题的解决方法汇总

景墨轩

04-29

9万+

python处理大训练集过程中经常会遇到的Memory Error问题这里看了几位博主的解决方案进行了整理，感谢分享！ http://chenqx.github.io/2014/10/29/Python-fastest-way-to-read-a-large-file/ https://blog.youkuaiyun.com/weixin_39750084/article/details/81501395 ...

嵌入式节省内存的手段(1)

羞羞滴小朋友

05-25

1219

为了方便描述，这里进行总结，嵌入式，一般是c语言常用的节省内存的手段 1.编程技巧最基本也是最常用的就是字节对齐这个需要平时的积累。例如，在变量的排列方面，我们都知道编译器会考虑对齐。明显，以下第一种定义需要的内存比第二种要大。 1）char a;int b; char c； 2）char a; char c; int b; 编译优化编译时选择优化级别高的，这样生成代码大小有有大规模的减小。内存分时复用业务分时复用即对代码......

pagerank的实现和模拟大量数据情况下的并行分块化

codes_first的博客

07-17

6982

所有源码都在github上（https://github.com/seasonyao/pagerank）一、pagerank简介（参考书籍《推荐书籍实践》和csdn若干博客可以跳到第二部分需要解决的问题） 1.PageRank的核心思想如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高。如果一个PageRank值很高的网页链接到一个其他...

数据太大爆内存怎么办？七条解决思路

weixin_34395205的博客

08-01

3351

在研究、应用机器学习算法的经历中，相信大伙儿经常遇到数据集太大、内存不够用的情况。这引出一系列问题：怎么加载十几、几十 GB 的数据文件? 运行数据集的时候算法崩溃了，怎么办? 怎么处理内存不足导致的错误? 本文将讨论一些常用的解决办法，供大家参考。处理大型 ML 数据文件的七种思路 1. 分配更多内存有的机器学习工具/库有默认内存设置，比...

大数据开发之数据读取—Pandas vs Spark

m0_58371965的博客

12-06

1729

数据读取是所有数据处理分析的第一步，而Pandas和Spark作为常用的计算框架，都对常用的数据源读取内置了相应接口。总体而言，大数据培训数据读取可分为从文件读取和从数据库读取两大类，其中数据库读取包含了主流的数据库，从文件读取又区分为不同的文件类型。基于此，本文首先分别介绍Pandas和Spark常用的数据读取API，而后进行简要对比分析。 01 Pandas常用数据读取方法 Pandas内置了丰富的数据读取API，且都是形如pd.read_xxx格式，通过对pd顶级接口方法进行过滤，得到Pa

当需要对大量数据进行排序操作时，怎样优化内存使用和性能？

技术笔记

07-06

1365

在处理大量数据的排序操作时，优化内存使用和性能是至关重要的。这不仅可以提高程序的运行效率，还可以避免因内存不足导致的崩溃或错误。下面我们将详细探讨一些优化的方法，并提供相应的示例代码来帮助理解。

Numpy中使用loadtxt获取单一列数据时设置usecols参数的方法

kbawyg的专栏

04-05

4万+

loadtxt是Numpy中读取数据文件的一个函数

如何应对数据库表数据量过大而导致的响应速度变慢

SeaHBJ的博客

02-21

1万+

1.我们知道最直接最简单的方法就是把该表的数据量变小，那么把表数据变少有什么办法呢？最简单最直接的方法就是再建立一张具有相同结构的数据表，建好表之后，再把不需要经常调用的数据放到该备用表中，当需要查询的时候，再查该表，这种方法虽笨但很直接，我以oracle为例，oracle可以将表进行分区，这是一种好办法，如果在开始创表时分区就好多了，因为如果你想在插入很多数据以后的表中分区，这就复杂多了，你可能

Keras解决OOM超内存问题

silent56_th的博客

03-03

2万+

如果在Keras内部多次使用同一个Model，例如在不同的数据集上训练同一个模型进而得到结果，会存在内存泄露的问题。在运行几次循环之后，就会报错OOM。解决方法是在每个代码后面接clear_session()函数，显示的关闭TFGraph，再重启。详情参考 https://keras.io/backend/#backend-functions。from keras import backend as

verilog 数据量太大占用很多io怎么办

12-24

Verilog是硬件描述语言，用于描述数字电路。当Verilog代码中涉及大量数据或信号时，会导致生成的逻辑网表规模庞大，占用大量的IO资源。面对这种情况，可以采取以下几种方法来解决： 1. 优化代码：通过优化Verilog代码，减少不必要的逻辑和信号，尽量减小逻辑网表的规模。可以使用一些优化技巧，比如共同子表达式消除、逻辑简化等来精简代码。 2. 分层设计：将复杂的逻辑分成多个层次，使用层次化设计，将大规模的逻辑划分成小块，减少每一层的逻辑复杂度，从而减小总体的逻辑网表规模。 3. 采用硬件资源压缩算法：可以借助硬件资源压缩算法来对逻辑网表进行压缩，减少占用的IO资源。比如使用FPGA中的IP核来对逻辑实现进行优化，减小逻辑规模。 4. 使用更高端的硬件设备：如果Verilog代码生成的逻辑规模实在太大，可以考虑使用更高端的硬件设备，这些设备拥有更多的IO资源和更强大的处理能力，可以更好地容纳大规模的逻辑。总之，面对Verilog数据量太大占用很多IO的情况，可以通过代码优化、分层设计、硬件资源压缩算法以及使用更高端的硬件设备来解决问题。选择合适的方法来应对实际情况，可以有效地减小逻辑网表规模，节省IO资源。