海量数据——TopK问题

TopK问题是一个经典的海量数据处理问题,比如微博热搜每隔10分钟都会更新出排行前10的热门搜索信息,再或者通过大数据找出一个地区最爱吃的水果等,都可以使用TopK问题来解决,其核心思想就是最小堆的引入。

TopK问题分析

在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被称为TopK问题。

下面我们通过一个简单的例子来说明:假如面试官给你100W个数据,请找出其最大的前K个数,而且现在只有1M的空间?

在32位操作系统中,默认一个字节为4个字节,则有下列运算:

NeedSize = 100W * 4 / 1024 /1024 = 4M

计算结果大约等于4M,很显然1M的空间根本不够。也就是说,即使用最复杂的方法你也无法找到一个合适的空间来存储,因此引入了最小堆数据结构。

下面我只说实现的核心思路,对此有不理解的请查看最大堆和最小堆的相关性质。思路如下:

(1)定义两个数组,arr用于存储海量数据,top用于存储最小堆(底层可以借助vector)

(2)将海量数据的前K个元素先填满top堆

(3)调整top堆为最小堆结构

(4)通过遍历将新数据与堆顶元素(此时堆顶元素是堆里最小的数据)进行比较,大于堆顶就入堆,并向下调整堆结构

(5)遍历结束,则堆中的元素即n个数中最大的前K个

//TopK.h
#pragma once
#include<iostream>
#include<time.h>
using namespace std;

#define N 100000

//向下调整(最小堆)
template<class T>
void AdjustDown(T* top,size_t root,size_t k)
{
	size_t parent = root;
	size_t child = parent * 2 + 1;
	while(child < k)
	{
		//若右孩子存在并且小于k而且右孩子小于左孩子
		if(child+1<k && top[child+1] < top[child])
		{
			++child; //让child指向那个较小的孩子
		}
		//当前较小的孩子小于父亲时则交换
		if(top[child] <top[parent])
		{
			swap(top[child],top[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}
template<class T>
void TopK(T* arr,T* top,size_t k)
{
	//先将top数组存满
	for(size_t i = 0;i < k;i++)
	{
		top[i] = arr[i];
	}
	//从第一个非叶子结点开始向下调整
	for(int end = (k-2)/2;end >= 0;end--)
	{
		AdjustDown(top,end,k);
	}
	//此时小堆已经形成
	for(size_t j = k;j < N;++j)
	{
		if(arr[j] > top[0])//堆顶元素小于新比较的元素
		{
			swap(top[0],arr[j]);
			AdjustDown(top,0,k);
		}
	}
	//遍历完成,top数组内存储的就是最大的前K个数
	for(size_t index = 0;index < k;index++)
	{
		cout<<top[index]<<" ";
	}
	cout<<endl;
}
//TopK.cpp
#include"TopK.h"
#define K 10
void Test()
{
	int arr[N] = {0};
	int top[K] = {0};
	srand((unsigned)time(NULL));//随机种子
	for(size_t index = 0;index < N;index++)
	{
		arr[index] = rand();
	}
	TopK(arr,top,K);
}
int main()
{
	Test();
	return 0;
}

CVTE笔试题之TopK问题

问题描述:本公司现在要给公司员工发福利,在员工工作时间会提供大量的水果供员工补充营养。由于水果种类比较多,但是又不知道哪种水果比较受欢迎,然后公司就让每个员工报告了自己最爱吃的K种水果,并且告知已经将所有员工喜欢的水果存储于一个数组中,然后让我们统计出所有水果出现的次数,并且求出大家最喜欢吃的前K种水果。

算法分析:往往笔试过程中,要求在很短的时间内写出一个算法,直接调用标准库里的函数是比较方便的,比如这道题就是对STL中三种容器的考察,具体步骤如下:

(1)首先,使用vector来存储所有的水果。

(2)其次,采用map将vector中存在的水果的数量统计出来,map支持下标访问。

(3)最后,通过优先级队列来建立小堆,然后就是TopK问题。

代码实现:

#include<iostream>
#include<queue>
#include<vector>
#include<string>
#include<map>
using namespace std;

void GetFavouriteFruit(vector<string>& fruits,size_t k)
{
	//1.通过map统计水果出现的次数
	map<string,int> _map;

	for(size_t i = 0;i < fruits.size();++i)
	{
		_map[fruits[i]] ++;
	}
	//自定义仿函数,比较map键值对的第二个元素即水果出现的次数
	struct Compare
	{
		bool operator()(map<string,int>::iterator left,map<string,int>::iterator right)
		{
			return left->second < right->second;
		}
	};
	//2.通过优先级队列来建立小堆,对水果出现的次数进行排序
	priority_queue<map<string,int>::iterator, vector<map<string,int>::iterator>, Compare> _pq;	
	map<string,int>::iterator it = _map.begin();
	while(it != _map.end())
	{
		_pq.push(it);//将包含水果名称和水果出现的次数存储于优先级队列里
		++it;
	}
	//3.打印次数最多的k种水果
	while(k--)
	{
		cout<<_pq.top()->first<<" : "<<_pq.top()->second<<endl;
		_pq.pop();
	}
}
int main()
{
	vector<string> V; //定义存放水果的数组
	V.push_back("苹果");
	V.push_back("香蕉");
	V.push_back("西瓜");
	V.push_back("葡萄");
	V.push_back("哈密瓜");
	V.push_back("菠萝");
	V.push_back("橘子");
	V.push_back("火龙果");
	V.push_back("橙子");
	V.push_back("香蕉");
	V.push_back("香蕉");
	V.push_back("香蕉");
	V.push_back("香蕉");
	V.push_back("葡萄");
	V.push_back("橘子");
	GetFavouriteFruit(V, 3);
	return 0;
}


<think>好的,我现在需要帮助用户了解Top K算法的相关概念、解决方法以及应用场景。首先,我应该回顾一下用户提供的引用内容,确保信息准确,并且正确引用。 首先,根据引用[1],TopK算法用于快速找出数据集中前K个最大或最小的元素,常见于电商和音乐应用。时间复杂度是O(nlogk),使用堆排序思想。引用[2]提到TopK的解决方案,比如全局排序,但可能效率不高,需要优化思路。引用[3]则详细说明了堆结构在TopK中的应用,特别是如何维护堆顶元素。 接下来,我需要组织回答的结构,按照用户的要求,分概念、解决方案、应用场景三个方面。每个部分要结合引用内容,并自然地添加引用标识。同时,需要确保使用正确的中文表达,数学公式用$...$或$$...$$格式,比如时间复杂度写成$O(n \log k)$。 在解决方案部分,要列出不同的方法,如全局排序、局部堆调整、快速选择算法,并比较它们的优缺点。这里需要注意引用[2]和[3]中的内容,尤其是堆的实现和优化思路。例如,堆方法的时间复杂度来自引用[1],而快速选择算法可能需要引用补充的知识,但用户提供的引用中没有提到,可能需要避免详细展开,或者仅简要提及。 应用场景部分,根据引用[1]和[2]中的例子,如电商、音乐推荐、排行榜等,需要具体说明每个场景如何应用TopK算法,并正确添加引用标记。 最后生成相关问题,确保问题TopK相关,覆盖实现细节、优化、应用场景比较等,参考示例中的问题结构。 需要检查LaTeX格式是否正确,例如时间复杂度中的log应该用斜体,即$\log$,确保所有数学表达式正确。例如,堆调整的时间复杂度是$O(n \log k)$,而不是O(nlogk)。 同时,避免使用Markdown格式,保持回答自然流畅。注意引用标识的位置,如每个引用出现在对应的解释末尾,如使用堆方法时引用[1]和[3]。 可能需要注意的地方:用户提供的引用中没有提到快速选择算法,所以这部分可能需要简要说明,但不要过于详细,或者可以指出这是另一种方法,但不在当前引用范围内。或者,可能用户希望仅基于提供的引用来回答,所以可能需要仅涵盖引用中的方法,即全局排序和堆方法,以及可能的其他方法如分治处理,但引用中没有明确提到,所以可能应避免引入外部知识。 综上所述,整理回答结构,确保每个部分正确引用,公式正确,问题相关且符合用户要求。</think>### Top K 算法详解 #### 一、核心概念 Top K 算法用于从大规模数据集中快速筛选出前$K$个最大或最小的元素,例如电商平台筛选销量最高的前10个商品,或音乐平台统计播放量前100的歌曲[^1]。其核心目标是通过优化时间复杂度(如$O(n \log K)$)避免全局排序的低效性。 #### 二、解决方案 1. **全局排序法** 将数据集完全排序后取前$K$个元素。例如对$n$个元素使用快速排序(时间复杂度$O(n \log n)$),但当$K \ll n$时效率较低[^2]。 *适用场景*:数据规模较小时。 2. **堆调整法** - **最小堆(求最大K个元素)**:维护一个容量为$K$的最小堆,遍历数据时若元素大于堆顶则替换堆顶并调整堆。时间复杂度为$O(n \log K)$[^3]。 - **最大堆(求最小K个元素)**:原理类似,但堆顶为最大值。 *代码片段*(Python实现最小堆): ```python import heapq def topk_max(arr, k): heap = [] for num in arr: if len(heap) < k: heapq.heappush(heap, num) elif num > heap[0]: heapq.heapreplace(heap, num) return heap ``` 3. **快速选择算法** 基于快速排序的分区思想,每次选取基准值将数据划分为两部分,仅在包含前$K$元素的区间递归操作。平均时间复杂度为$O(n)$,但最坏情况为$O(n^2)$。 #### 三、应用场景 1. **电商推荐**:实时更新销量Top 10商品 2. **社交平台**:计算用户粉丝数排行榜 3. **数据监控**:快速定位服务器访问量最高的IP地址 4. **金融风控**:识别交易金额异常的前K笔记录 #### 性能对比 | 方法 | 时间复杂度 | 空间复杂度 | 适用场景 | |--------------|------------------|------------|-----------------------| | 全局排序 | $O(n \log n)$ | $O(n)$ | 小规模数据 | | 堆调整 | $O(n \log K)$ | $O(K)$ | 数据流或大规模数据[^3]| | 快速选择 | $O(n)$(平均) | $O(1)$ | 允许修改原数组 |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值