有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词.

最新推荐文章于 2025-10-19 15:21:01 发布

原创

最新推荐文章于 2025-10-19 15:21:01 发布 · 2.7w 阅读

28 ·

CC 4.0 BY-SA版权

针对1G大小、每行一个词的文件，内存限制为1M的问题，通过计算得知无法一次性处理所有单词。采取分批处理策略，将文件分成2000个部分，并使用哈希函数确保相同单词分配到同一文件中。每个文件内部使用key-value存储单词及其频率，然后利用小根堆找出前100个高频词。实际运行1M大小的文件，虽有误差但基本原理相同，误差可能源于文件中的不规范单词。

首先，我们看到这个题目应该做一下计算，大概的计算，因为大家都清楚的知道1G的文件不可能用1M的内存空间处理。所以我们要按照1M的上线来计算，假设每个单词都为16个字节，那么1M的内存可以处理多少个单词呢？ 1M = 1024 KB = 1024 * 1024 B 。然后1M / 16B = 2^16个单词，那么1G大概有多少个单词呢？有2^26个单词，但是实际中远远不止这些，因为我们是按照最大单词长度算的。我们需要把这1G的单词分批处理，根据上面的计算，可以分成大于2^10个文件。索性就分成2000个文件吧，怎么分呢，不能随便分，不能简单的按照单词的顺序然后模2000划分，因为这样有可能相同的单词被划分到不同的文件中去了。这样在统计个数的时候被当成的不同的单词，因为我们没有能力把在不同文件中相同单词出现的次数跨越文件的相加，这就迫使我们要把不同序号的同一个单词划分到同一个文件中：应用hash统计吧。稍后代码会给出方法。然后呢，我们队每个文件进行分别处理。按照key-value的方法处理每个单词，最终得出每个文件中包含每个单词和单词出现的次数。然后再建立大小为100的小根堆。一次遍历文件进行处理。我没有弄1G的文件，弄1M的，简单的实现了一下，不过原理就是这样的。这是单词：http://download.youkuaiyun.com/detail/zzran/4934173

#include<iostream>
#include<string>
using namespace std;

#define FILE_NUM 10
#define WORDLEN 30
#define HASHLEN 7303

typedef struct node_no_space{
	char *word;
	int count;
	struct node_no_

最低0.47元/天解锁文章