大文件如何在内存不够的情况下排序？

原创于 2025-06-24 14:21:34 发布 · 305 阅读

0 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#算法

ALGORITHM 专栏收录该内容

335 篇文章

订阅专栏

举例

比如，要对900 MB的数据进行排序，但机器上只有100 MB的可用内存时，外归并排序按如下方法操作：

1、读入100 MB的数据至内存中，用某种常规方式（如快速排序、堆排序、归并排序等方法）在内存中完成排序。

2、将排序完成的数据写入磁盘。

3、重复步骤1和2直到所有的数据都存入了不同的100 MB的块（临时文件）中。在这个例子中，有900 MB数据，单个临时文件大小为100 MB，所以会产生9个临时文件。

4、读入每个临时文件（顺串）的前10 MB的数据放入内存中的输入缓冲区，最后的10 MB作为输出缓冲区。

5、执行九路归并算法，将结果输出到输出缓冲区。一旦输出缓冲区满，将缓冲区中的数据写出至目标文件，清空缓冲区。

6、一旦9个输入缓冲区中的一个变空，就从这个缓冲区关联的文件，读入下一个10M数据，除非这个文件已读完。

总结

1、大文件过大，不能一次加载，所以需要拆分成k个小文件

2、k个小文件各自排序，为下一步文件归并打好铺垫

3、二路归并元素比较次数过多，效率低

4、k路归并中，堆排序可以很快更新，但操作数不够精简；胜者树父节点记录胜利的一方，更新时需要比较父节点和兄弟节点；败者树是胜者树的一种变体，父节点记录失败的一方，同时胜利一方与上一级的父节点比较，更新只需要比较父节点。因此在实际应用中采用败者树更好。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Winn~

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

项目极简说明_这是一个基于Java实现的高效外部排序算法项目针对大规模数据文件如2GB的8000万条记录在内存有限的情况下进行排序通过选择置换算法生成大于内存容量的顺串利.zip

10-04

这个项目通过Java语言实现了一个高效的外部排序算法，能够在内存有限的条件下处理大规模的数据文件排序问题，尤其适用于需要处理大量记录的场景，如数据仓库、大数据分析等领域。通过对数据的分块处理和多次归并排序...

61丨策略模式（下）：如何实现一个支持给不同大小文件排序的小程序？1

08-03

在这种情况下，我们可以创建一个专门的外部排序函数来处理这个任务。如果文件进一步增大，比如达到几十GB，我们可以考虑使用并发外部排序（Concurrent External Sort），利用多核CPU的优势，将排序过程并行化，...

参与评论您还未登录，请先登录后发表或查看评论

使用有限内存对大型数据文件排序

the_first_snow的博客

03-28

1896

运行环境 SDK：openJDK13 内存：200M （通过 VM参数 -Xmx200M指定）目标数据文件：raw.data （1.72G）基本思路（分治）切分：从目标数据文件中读取数据，读取一定数量后对读取到的数据进行排序，并生成临时排序文件，重复此过程，将原始数据文件分割为若干个已排序的数据文件合并：根据上一阶段得到的分组文件数量，如果内存不足以一次创建所有文件的指...

对含有一亿数据的大文件进行排序，要求使用内存小于32MB

暮鼓的博客

07-20

1万+

大文件排序题目：有10个文件，每个文件有1000万行，文件内容的每一行为一个整型数字；需要，写一个程序，将所有数字排序，分为10个文件输出，如0号文件包含前1000万个数字，1号文件文件包含1千万-2千万之间的数字，依次类推。限制：如果使用java，-Xmx需要设置为32MB；其它语言也需限制内存为32MB。要求:正确输出使用多线程加分编写时长：24。小时。提供可运行的程序，以及实现说...

5 亿整数的大文件，怎么排？

轮回の稻草人

02-10

379

问题给你1个文件bigdata，大小4663M，5亿个数，文件中的数据随机,如下一行一个整数： 6196302 3557681 6121580 2039345 2095006 1746773 7934312 2016371 7123302 8790171 2966901 ... 7005375 现在要对这个文件进行排序，怎么搞？ ...

内存有限制的大文件排序

jayzym的博客

05-20

2285

外部排序：一、定义问题外部排序指的是大文件的排序，即待排序的记录存储在外存储器上，待排序的文件无法一次装入内存，需要在内存和外部存储器之间进行多次数据交换，以达到排序整个文件的目的。外部排序最常用的算法是多路归并排序，即将原文件分解成多个能够一次性装入内存的部分，分别把每一部分调入内存完成排序。然后，对已经排序的子文件进行多路归并排序。二、处理过程（1）按可用内存的大小，把外存上含有n个记录的文件分成若干个长度为L的子文件，把这些子文件依次读入内存，并利用有效的内部排序方...

大文件在有限的内存进行排序

DespairC的博客

09-02

1792

给有限的内存，无限的空间，只有`100M`的内存，需要对`10G`的文件进行排序

内存不足时的大文件排序算法（spark shuffle的排序算法）

ooeeerrtt的博客

01-17

3982

1、问题场景例如：当前磁盘2T，内存16G，文件大小500G。现在需要对500G的大文件进行排序，并存道另一个文件中。抽象：当前有包含10000行数的文件，再只能使用长度为1000的数组的前提下，对文件中的数据进行排序，并存道另一个文件中。 2、问题分析首先，数据的总量大于了所能使用的内存数据结构的容量，所以肯定不能完全通过内存排序。因此需要采用一种分治的思想来实现全局排序。（1）数组总量10000，数组容量1000，所以...

当需要对大量数据进行排序操作时，怎样优化内存使用和性能？

技术笔记

07-06

1362

在处理大量数据的排序操作时，优化内存使用和性能是至关重要的。这不仅可以提高程序的运行效率，还可以避免因内存不足导致的崩溃或错误。下面我们将详细探讨一些优化的方法，并提供相应的示例代码来帮助理解。

小内存大文件排序小例子——冒泡、归并

机器人梦想家 Bing Lee

04-10

2236

今天刷博客看到一篇文章，讲在有限内存下排序大文件的处理方法，动手写了个小例子： // ConsoleApplication1.cpp : 此文件包含 "main" 函数。程序执行将在此处开始并结束。 // #include "pch.h" #include <iostream> #include <vector> #include <algorithm> u...

Java实现外部排序（10M内存排序1G大文件）

04-27

有文件大小为1G的一个文件，文件每行存储的为URL及其访问次数，例如/api/auth/login 2 ，计算出访问次数最多的前5个URL和其访问次数，每行的URL可能重复，计算内存限制10M。 === 内含解题思路、测试结果截图、可运行源代码

大文件排序超大文件排序

08-16

用于超大文件的快速排序，相比比谁的速度更快，占用内存更少，该排序文件经得起你的考验，目前设计的处理能力为40亿行文本的排序。最近更新加入了去重操作。

海量数据排序——如果有1TB的数据需要排序，但只有32GB的内存如何排序处理？

热门推荐

无鞋童鞋的博客

05-18

3万+

1、外排序　　传统的排序算法一般指内排序算法，针对的是数据可以一次全部载入内存中的情况。但是面对海量数据，即数据不可能一次全部载入内存，需要用到外排序的方法。外排序采用分块的方法（分而治之），首先将数据分块，对块内数据按选择一种高效的内排序策略进行排序。然后采用归并排序的思想对于所有的块进行排序，得到所有数据的一个有序序列。　　例如，考虑一个1G文件，可用内存100M的排序方法。首先将文件分成

海量数据排序，数据量大于内存大小，如何实现排序

yzx3105的博客

04-07

1782

对于输入缓存区，当一个块的9M数据全部使用完，载入该块接下来的9M数据，一直到所有的9个块的所有数据都已经被载入到内存中被处理过。则最小的数位于堆顶，移除堆顶元素并写入缓冲区，然后从移除元素的元素所属数组中的下一位进入最小堆，再次移除堆顶进入缓冲区…外排序采用分块的方法（分而治之），首先将数据分块，对块内数据按选择一种高效的内排序策略进行排序。根据内存1G，数据10G，我们将10G数据切分成10份，通过内存调用磁盘的方式，每1G进行排序，排序结束后，我们会得到10个有序的数据数组。

排序算法，对内存小数据量大的数据排序(一)

lc574260570的博客

08-22

1万+

问题描述百度面试题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。外部排序指的是大文件的排序...

10G个整数，乱序排列，要求找出中位数。内存限制为 2G。只写出思路即可

xc889078的专栏

04-28

1667

参考：http://hi.baidu.com/xzufpnrqufbavxq/item/eb6d77c72b25da06ac092f29 借鉴桶排序思想第一步：因为整数为32位，我们可以按照整数的高16位划分桶进行计数，2^16=64k，即可划分成64k个桶，也就是大小为2^16的数组。这里存在一个问题，如果数组类型是int,能够计数的最大值是2^32=4G，而如果10G个整数完全相同，则i

排序10G的大文件

wjlucky262的专栏

07-08

2781

一个文件，大小10G，里面都是用逗号分隔的整型数字。怎么排序？文件大概张这个样子。这个问题的麻烦显然是『大』，多大算大，10G，100G，1000G，显然不能考虑直接使用内存来搞。很显然，分治思维是必然的，需要拆分文件。直接说下思路，然后上代码。 1.把10G大小的文件拆分成N个小文件，每个文件1M 2.把每个文件拉倒内存排序，可以并行操作，在内存中直接使用快排，然后写入文件 3.对文件做两两合并。前两步都好办，代码也好写。第3步文件合并，需要考虑几个问题。 ① 2个1M的有序文件怎么合并？先

5亿整数的大文件，怎么排？

coder_oyang的博客

06-20

709

本文转载自：5亿整数的大文件，怎么排？问题给你1个文件bigdata，大小4663M，5亿个数，文件中的数据随机,如下一行一个整数： 6196302 3557681 6121580 2039345 2095006 1746773 7934312 2016371 7123302 8790171 2966901 ... 7005375现在要对这个文件进行排序，怎么搞？

大文件排序问题

罗布泊coding

06-08

1万+

题目：有一个大文件，里面记录了若干数字，把这些数字进行排序。文件大小远大于内存大小。思路：内存极少的情况下，利用分治策略，利用外存保存中间结果，再用多路归并来排序。（1）按可用内存的大小，把外存上含有n个记录的文件分成若干个长度为L的子文件，把这些子文件依次读入内存，并利用有效的内部排序方法对它们进行排序，再将排序后得到的有序子文件重新写入外存；（2）对这些有序子文件逐趟归并，使其逐渐...

linux按照文件占内存大小排序文件