//TopK问题:N个数中找出最大\小的前K个数(N远大于K)
//
//找最大的前K个
//解决方法:
//方法1、排序:O(N*logN)
//方法2、建N个数大堆: Top/Pop K次 :O(N+logN*K)
//方法3、假设N非常大,比如N是100亿,K很小,K是100,如何求解?【其时间复杂度为:O(K+(N-K)*logK)】【第3种和第2种的时间复杂度差不多,但是其空间效率很高】
// a 前K个数建立小堆
// b 剩下的N-K个依次和堆顶的数据进行比较,如果比堆顶的数据大,就替换堆顶的数据进入堆。
// c 走完之后,堆里的前K个数字,就是最大的前K个数
#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <time.h>
void Swap(int* p1, int* p2)
{
int tmp = *p1;
*p1 = *p2;
*p2 = tmp;
}
void AdjustDown(int* a, int size, int parent) //int* a【a代表向下调整的是哪个数组】,int size【size代表调整数组的元素个数】,int parent【代表调整元素的位置(下标)】
{
int child = parent * 2 + 1;
while (child < size)
{
if (child + 1 < size && a[child + 1] < a[child])
{
child++;
}
if (a[child] < a[parent])
{
Swap(&a[child], &a[parent]);
//比较下一轮父子关系
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
void PrintTopK(int* a, int n, int k)
{
//1、建堆---用a中的前k个元素建堆
int* kMinHeap = (int*)malloc(sizeof(int) * k);
assert(kMinHeap);
for (int i = 0; i < k; i++)
{
kMinHeap[i] = a[i];
}
for (int i = (k - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(kMinHeap, k, i);
}
//2、将剩余n-k个元素依次与堆顶元素比较,大于堆顶元素则交换
for (int j = k; j < n; j++)
{
if (a[j] > kMinHeap[0])
{
kMinHeap[0] = a[j];
AdjustDown(kMinHeap, k, 0);
}
}
for (int i = 0; i < k; i++)
{
printf("%d ", kMinHeap[i]);
}
printf("\n");
}
void TestTopK()
{
//方法3的实践:
int n = 10000;
int* a = (int*)malloc(sizeof(int) * n);
srand(time(0));
for (int i = 0; i < n; i++)
{
a[i] = rand() % 100000;
}
a[5] = 100000 + 1;
a[15] = 100000 + 2;
a[25] = 100000 + 3;
a[35] = 100000 + 4;
a[9999] = 100000 + 5;
a[0] = 100000 + 6;
a[999] = 100000 + 7;
a[75] = 100000 + 8;
a[85] = 100000 + 9;
a[95] = 100000 + 10;
PrintTopK(a, n, 10);
}
int main()
{
TestTopK();
return 0;
}
堆的TopK用法
最新推荐文章于 2025-12-01 14:38:10 发布
该文探讨了在N个数中找出最大前K个数的问题,提出了三种方法:排序、建立大堆以及针对大数据集的小堆算法。当N远大于K时,第三种方法表现出较高的空间效率,时间复杂度为O(K+(N-K)*logK)。代码示例展示了如何使用小堆来实现这一过程。
1094

被折叠的 条评论
为什么被折叠?



