海量数据处理(查重,topk)

本文探讨了海量数据处理中的查重问题,通过哈希表和无序映射表来解决数字重复的统计。同时,介绍了求Top K的方法,包括使用小根堆和大根堆,以及快排的partition函数。面对内存限制,提出了分块处理大数据的策略,将大文件分割成小文件以便逐块加载和处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

查重问题

查重:就是在一组海量数据中,查找重复的数据,一般的解题思路就是哈希表

哈希表

名称 特点
unordered_set 单重集合,只存放key,不允许key重复
unordered_multiset 多重集合,只存放key,允许key重复
unordered_map 单重映射表,存放[key, value]键值对,不允许key重复
unordered_multimap 多重映射表,存放[key, value]键值对,允许key重复

示例问题:找第一个重复的数字

int main()
{
   
   
	vector<int> vec;//将要查找的数据放在vec中
	for (int i = 0; i < 200000; ++i)
	{
   
   
		vec.push_back(rand());
	}
     
	// 用哈希表解决查重,因为只查重,所以用无序集合解决该问题
	unordered_set<int> hashSet;
	for (int val : vec)
	{
   
   
		// 在哈希表中查找val
		auto it = hashSet.find(val);
		if (it != hashSet.end())//找到了
		{
   
   
			cout << *it << "是第一个重复的数据" << endl;
			return; 
		}
		else
		{
   
   
			// 没找到
			hashSet.insert(val);
		}
	}

	return 0;
}

统计数字及其出现的次数可以使用无序映射表

#include <iostream>
#include <unordered_map>
using namespace std;
int main()
{
   
   
	
	vector<int> vec;
	for (int i = 0; i < 200000; ++i)
	{
   
   
		vec.push_back(rand());
	}

	// 用无序映射表统计数字和数字出现的次数
	unordered_map<int, int> hashMap;
	for (int val : vec)
	{
   
   
		hashMap[val]++; // 可以直接记录数据并且更新数据出现的次数
	}

	// 打印统计出来的重复的数据
	for (pair<int, int> value : hashMap)
	{
   
   
		if (value.second > 1)
		{
   
   
			cout << "key:" << 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值