单机读取大文件方法

最新推荐文章于 2024-03-19 17:21:29 发布

原创最新推荐文章于 2024-03-19 17:21:29 发布 · 403 阅读

0 ·

CC 4.0 BY-SA版权

本文探讨了如何在有限资源下处理1T规模数据的重复行检测及排序问题，提出了利用hashmap数据结构原理将大文件拆分为小文件进行处理的方法，以及通过归并排序实现外部排序的策略。

有这样一个需求

1T 文件，行存储

只有一台 128M，64M，256G

要求计算重复行。

做法：

参考hashmap的数据结构，有这种做法.仅仅是思路

每次读取一行数据，对它取哈希模上一个值，比如 i.hashCode()%2000，用2000个小文件分开存储1T文件的内容，这样保证了相同内容的行数据肯定落在同一个小文件中，再根据hashset的不可重复特点，找出重复行。这样只有两次1T文件的io读取。

还有一种需求是排序，

每次读取一行数据，如果在0-100形成一个文件，101-200形成一个小文件以此类推，这些小文件特点是外部有序，内部无序，每次读取小文件进行排序后放在一个大文件中，最终形成的大文件就是完全有顺序的。

还有一种做法是每次取500M文件或者说每次读200行，读取文件然后排序形成一个小文件，这些小文件的特点是内部有序，外部无序，可以用归并排序的方法读取小文件给所有小文件内容从小到大依次排序。这样只有两次1T文件的io读取

这两种做法其实都是采取了分治的思想，把内容分开形成多个小内容或者小文件再处理每个小文件。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

rick_9527

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【STM32单片机】FATS文件系统，写入字符串到文件，读取文件内容

q742971636的博客

08-31

2675

基于正点原子的库函数版本的FATS文件系统，实现向文件写入字符串，读取文件内容，这里是指txt文件，其余文件其实也一样，读取成字节。

对大文件排序

weixin_33701294的博客

04-09

1269

设想你有一个20GB的文件，每行一个字符串，说明如何对这个文件进行排序。内存肯定没有20GB大，所以不可能采用传统排序法。但是可以将文件分成许多块，每块xMB,针对每个快各自进行排序，存回文件系统。然后将这些块逐一合并，最终得到全部排好序的文件。外排序的一个例子是外归并排序（External merge sort），它读入一些能放在内存内的数据量，在内存中排序后输出为一个顺串（即...

参与评论您还未登录，请先登录后发表或查看评论

怎么排序超大文件

weixin_30782331的博客

09-15

381

外排序通常来说，外排序处理的数据不能一次装入内存，只能放在读写较慢的外存储器（通常是硬盘）上。外排序通常采用的是一种“排序-归并”的策略。在排序阶段，先读入能放在内存中的数据量，将其排序输出到一个临时文件，依此进行，将待排序数据组织为多个有序的临时文件。之后在归并阶段将这些临时文件组合为一个大的有序文件，也即排序结果。外排序的一个例子是外归并排序（External merge sort），...

单机处理1T文件的计算方案

educationer的博客

04-29

1179

题目要求：1T大小的文件，按行存储，文件所有行中，只有两行是重复的，选出重复的行；提高的设备为一台计算机，内存可以选择128M，64M或256G 输入：1T文件输出：重复的行第一种方案：思路：分堆，缩小范围查找加载一部分到内存中，按行读取，每一行取对应的hashcode，根据 (行hashcode)%2000 的值，，存放在对应的位置(0-1999)，重复的行肯定在同一个值中，遍历这20...

单机对大数据的排序处理

搜索引擎、个性化推荐、大数据相关学习笔记|

06-23

4561

引用请声明原文：http://blog.youkuaiyun.com/duck_genuine/article/details/9155705 由于引用数据以hash的方式放在不同的文件里需要将其合并排序写到一个文件。数据量暂时是有几千万级别。文件的每行是一条json格式的记录，格式如下： { "_id" : { "$oid" : "51ace243bb15094b6c40ada5" }, "c

php读取操作大文件，超出内存大小，三种方法

巴途Way,专注Go,PHP,C开发

12-31

6365

在php中，对于文件的读取时，最快捷的方式莫过于使用一些诸如file、file_get_contents之类的函数，简简单单的几行代码就能很漂亮的完成我们所需要的功能。但当所操作的文件是一个比较大的文件时，这些函数可能就显的力不从心, 下面将从一个需求入手来说明对于读取大文件时，常用的操作方法。需求有一个800M的日志文件,大约有500多万行，用php返回最后几行的内容。

VD虚拟光驱单机版运行ISO文件.rar

06-09

总而言之，VD虚拟光驱单机版提供了一种极为高效和便捷的方法来处理ISO文件，它不仅能够模拟真实光驱的功能，还能通过模拟多个虚拟光驱来提高处理效率。这使得原本依赖于物理光盘的应用场景变得更加灵活和高效。VD...

Java 文件传输助手的实现(单机版)

08-19

在文件传输助手的实现中，可能会使用 FileInputStream 和 FileOutputStream 进行文件读写，BufferedInputStream 和 BufferedOutputStream 提高读写效率，以及 DataInputStream 和 DataOutputStream 处理二进制数据，...

梦幻西游wdf文件读取

12-13

这个压缩包提供的是关于如何读取和解析梦幻西游wdf文件的源代码，这将对那些想要深入理解游戏资源结构或尝试创建小型游戏的开发者极具价值。首先，wdf文件是梦幻西游游戏中的二进制文件格式，用于存储游戏的各种...

大洋上洋单机网络版非编设置方法.pdf

最新发布

07-21

此外，大容量的高速SSD硬盘也是必不可少的，它能够大幅提高数据的读写速度，减少等待时间。在软件方面，非编系统的安装应当遵循特定的流程。首先需要从官方网站下载最新版本的软件安装包，并运行安装向导。在安装...

O文件修改例子_问道o文件编辑_问道1.6ETC文件

09-10

O文件可能使用二进制格式，需要解码才能读取和修改。一种常见的方式是使用十六进制编辑器，它可以显示文件的原始二进制数据，并允许用户直接更改。此外，还有一些专为特定游戏设计的编辑器，比如针对"问道"的工具，...

单机大数据文件计算

千樽醉的博客

04-30

413

将数据读取，每读到一行，取hashcode 然后对hashcode取模，存储到不同的小文件中，让相同的行，在同一个小文件里相遇，相同的字符串，则hashcode相同，则取模后的数值也相同，现在所有的小文件都具有一个特征，相同的数据，肯定在同一个小文件里，再对所有的小文件进行查询比较，找出相同的行 ...

crc32 根据字符串获取校验值

weixin_34348111的博客

09-18

1342

using System;using System.Collections.Generic;using System.IO;using System.Linq;using System.Text; namespace Common{ public class crc32test { public class FileToCRC32 {...

在STM32F103,RAM 64K的单片机上，利用fatfs文件系统，实现一个存储文件大小等于600K的CRC 文件校验，分块读取循环校验计算

一只小小鸟的专栏

03-19

1150

（2）文件读取：由于单片机的RAM只有64KB，需要处理一个600KB的文件，因此不能直接一次性将整个文件加载到RAM中进行CRC计算。（4）合并CRC值：由于文件是分块读取的，因此需要一个方法来合并每个缓冲区的CRC值，以得到整个文件的CRC值。这通常涉及到在每次计算新缓冲区的CRC时，将之前的CRC值作为初始值传递给CRC计算函数。如果文件非常大，而且内存有限，可以将文件分成多个段，分别计算每段的CRC值，然后再将这些CRC值合并成一个最终的CRC值。// 计算当前块的CRC，并合并到总CRC中。

linux c 读写 ini 配置文件

allthebest1666的博客

06-25

507

.ini 文件格式如下： [section1] key1=value ... keyn=value [section2] key1=value ... keyn=value 代码如下： #define _PARAM_GLOBALS_ #include <stdio.h> #include <stdlib.h> #include &lt...

读取大文件的三种方法

weixin_34345753的博客

11-03

3341

2019独角兽企业重金招聘Python工程师标准>>> ...

读取大文件的两种方式

u014081628的博客

03-29

1357

对于大文件的读取，如果我们使用普通的IO读取，肯定会引起内存的溢出，即便不会，也会占用极大的内存空间。下面提供了两种读取大文件的方式 1.使用java.util.Scanner进行对大文件的读取 public class ScannerTest { public static void main(String[] args) { new ScannerTest().r

100G大文件单机处理（在100G大文件中找到第一个不重复的字符串，16G内存限制）

The home of twodog

07-12

5702

Large-File-Processing 问题：有一个 100GB 的文件，里面内容是文本要求：找出第一个不重复的词只允许扫一遍原文件尽量少的 IO 内存限制 16G 随机字符串，每行一个字符串（长度范围从 0-100）。思路： 100G字符串，0-100字节随机，最后换行占两个字节每行是一个byte数组，长度1-100不等（不加上换行符），一个字节8位，所以共有2^800...

【开发随记】JAVA超大文件的读取和写入实现(附demo)

AkimotoKaito的博客

12-19

4595

因近期工作需要对超大单文本文件进行读取和写入，经过简单研究分别写了读取类和写入类供项目使用。现在简单整理出来分享。核心思想就是通过MappedByteBuffer进行读取和写入。

读取超大csv文件

03-15

<think>好的，我现在需要回答用户关于如何高效读取和处理超大CSV文件的问题。首先，我得先理解用户的需求。用户提到文件是“超大”的，可能是指文件大到无法一次性装入内存，或者处理速度很慢。接下来，我需要结合提供的引用内容，整理出有效的方法和工具。根据引用[1]，使用Python处理大CSV文件时需要注意内存溢出和速度问题。引用[2]提到了Pandas库，但可能对于超大文件需要特殊处理。引用[3]指出一次性读取整个文件会导致内存问题，所以可能需要分块读取。引用[4]提到了Pyspark，适合处理大数据。首先，分块读取是一个常见方法。Pandas的read_csv函数有chunksize参数，可以逐块处理数据，避免内存不足。用户可能已经知道Pandas的基本用法，但需要更高效的方法。这时候，需要解释如何具体使用分块处理，比如在循环中处理每个块并逐步保存结果。其次，优化数据类型。Pandas默认可能会用高精度类型，比如float64，但有时候可以用较小的类型，比如float32，甚至分类类型来减少内存占用。引用[2]中提到的数据清洗部分可能涉及这些优化技巧，需要具体说明。接下来是过滤无用列。在读取数据时，指定usecols参数只加载需要的列，这样可以减少内存使用。这也是引用[2]中提到的数据处理技巧之一。使用Dask库可能是一个解决方案，因为它可以并行处理数据，适合超过内存的情况。需要解释Dask的基本用法以及与Pandas的兼容性，用户可能不熟悉这个库，所以需要简单介绍。另外，Pyspark作为分布式计算框架，适合处理非常大的数据集，尤其是在集群环境中。引用[4]提到Pyspark的功能，需要说明其适用场景和基本代码示例。数据库导入也是一个方法，将CSV导入数据库后用SQL处理，这样可以利用数据库的优化查询能力。可能需要提到工具如PostgreSQL的COPY命令或MySQL的LOAD DATA。最后，预处理和工具辅助，比如使用命令行工具（如csvkit）进行初步处理，或者压缩文件减少I/O时间。这些方法可能对用户有帮助，但需要具体说明使用场景。需要检查是否涵盖了所有引用内容，引用[1]、[2]、[3]、[4]中的方法是否都被合理引用，并在回答末尾添加引用标识。同时，确保回答结构清晰，分点说明，每个方法有示例代码或步骤。还要生成相关问题，帮助用户深入理解。可能遗漏的点：内存映射文件处理，或者使用其他库如Vaex，但根据提供的引用，可能需要集中在已有的引用内容上。此外，确保代码示例正确，比如Pandas分块处理的示例是否正确，是否需要异常处理等。现在需要组织这些思路，分步骤详细说明每个方法，并附上代码示例，同时引用对应的参考文献。确保语言口语化，避免使用专业术语过多，让用户容易理解。</think>为了高效读取和处理超大CSV文件，可以结合以下方法和工具，根据具体场景选择合适方案： ### 一、分块读取逐步处理（适合单机内存不足） - **Pandas分块读取** 使用`pandas.read_csv`的`chunksize`参数逐块加载数据，避免一次性占用过多内存： ```python import pandas as pd chunk_iter = pd.read_csv('large_file.csv', chunksize=10000) for chunk in chunk_iter: # 处理每个数据块（如过滤、聚合） processed_chunk = chunk[chunk['column'] > 0] processed_chunk.to_csv('result.csv', mode='a') # 追加写入 ``` 此方法适用于数据清洗或分步计算（如统计总和）[^1][^2]。 - **优化数据类型** 减少内存占用的技巧： ```python dtype_dict = {'id': 'int32', 'price': 'float32', 'category': 'category'} df = pd.read_csv('data.csv', dtype=dtype_dict, usecols=['id', 'price', 'category']) ``` 通过指定`dtype`和`usecols`，内存占用可降低50%-70%。 ### 二、分布式/并行计算（适合集群环境或超大规模数据） - **Dask库** 提供类似Pandas的API但支持并行处理： ```python import dask.dataframe as dd ddf = dd.read_csv('large_*.csv') # 支持通配符读取多个文件 result = ddf.groupby('category').price.mean().compute() ``` 适合单机多核环境，自动分块处理。 - **PySpark** 在分布式集群中处理TB级数据： ```python from pyspark.sql import SparkSession spark = SparkSession.builder.appName("CSV Processing").getOrCreate() df = spark.read.csv("hdfs://path/to/file.csv", header=True, inferSchema=True) df.groupBy("department").count().show() ``` 支持横向扩展，可结合HDFS使用[^4]。 ### 三、系统级优化技巧 1. **文件预处理** - 使用命令行工具过滤数据： ```bash csvcut -c column1,column2 large.csv > filtered.csv # 保留指定列 awk -F',' '$3 > 1000 {print $0}' large.csv > filtered.csv # 按条件过滤行 ``` - 压缩为`.gz`或`.parquet`格式，减少I/O时间（Parquet读取速度比CSV快5-10倍） 2. **数据库导入** 将数据导入SQLite/PostgreSQL等数据库： ```sql -- PostgreSQL示例 COPY sales FROM '/path/to/file.csv' DELIMITER ',' CSV HEADER; ``` 利用索引加速查询，适合复杂分析[^3]。 ### 四、工具选型建议 | 数据规模 | 推荐工具 | 优势场景 | |----------------|-------------------------|------------------------------| | <10GB | Pandas + 分块/优化类型 | 单机快速处理 | | 10GB-1TB | Dask/Modin | 单机并行化 | | >1TB | PySpark + 分布式存储 | 集群环境线性扩展 | | 需要即时查询 | 导入数据库 | 复杂条件筛选和连接操作 |