堆处理海量数据----求前k个最小的数--时间复杂度（n * log k）

最新推荐文章于 2025-06-26 13:36:55 发布

lvmengmengzp

最新推荐文章于 2025-06-26 13:36:55 发布

阅读量1.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：计算机编程c++基础知识 IT面试文章标签：排序算法海量数据

本文链接：https://blog.youkuaiyun.com/woailvmengmeng/article/details/23378831

IT面试同时被 2 个专栏收录

106 篇文章

订阅专栏

计算机编程c++基础知识

74 篇文章

订阅专栏

本文介绍了一种处理海量数据求前k个最小数的方法，利用最大堆结构实现高效处理，时间复杂度为O(n*logk)。此外，还讨论了assert函数的正确用法及注意事项，并给出了使用STL nth_element函数的示例。

通过阅读July的书籍，发现里面求前k个最小数有很多方法。但在面对处理海量数据处理的时候，不能把全部数据都放在电脑内存中。这时用堆来处理，并把数据放在外存中，通过读取文件的方式来读取。感觉该方法十分巧妙,时间复杂度（n*log k）。代码如下：

#include<iostream>
#include<assert.h>
using namespace std;
void MaxHeap(int heap[],int i,int len);

void BuildHeap(int heap[],int len)
{
	if(heap == NULL)
		return;
	int index = len/2;
	for(int i = index;i >= 1; i--)
		MaxHeap(heap,i,len);
}
void MaxHeap(int heap[],int i,int len)
{
	int largeIndex = -1;
	int left = i * 2;
	int right = i *2 + 1;
	if(left<=len && heap[left]>heap[i])
		largeIndex = left;
	else
		largeIndex = i;
	if(right<=len && heap[right]>heap[largeIndex])
		largeIndex = right;
	if(largeIndex != i)
	{
		swap(heap[i],heap[largeIndex]);
		MaxHeap(heap,largeIndex,len);
	}

}

int main()
{
	int k;
	cout<<"求最小的k个数，请输入k的值：";
	cin>>k;
	int *heap = new int [k+1];

	FILE *fp = fopen("data.txt","r");
	assert(fp);
	for(int i = 1;i<=k;i++)
	
	{
		fscanf(fp,"%d",&heap[i]);
	}
	BuildHeap(heap,k);

	int newData;
	while(fscanf(fp,"%d",&newData)!=EOF)
	{
		if(newData<heap[1])
		{
			heap[1]=newData;
			MaxHeap(heap,1,k);
		}
	}
	for(int j=1;j<=k;j++)
		cout<<heap[j]<<" ";
	cout<<endl;
	fclose(fp);
	return 0;
	
}

关于assert函数用法

以下转自http://www.cnblogs.com/ggzss/archive/2011/08/18/2145017.html

assert宏的原型定义在<assert.h>中，其作用是如果它的条件返回错误，则终止程序执行，原型定义：

#include <assert.h>
void assert( int expression );

　　assert的作用是现计算表达式 expression ，如果其值为假（即为0），那么它先向stderr打印一条出错信息，然后通过调用 abort 来终止程序运行。请看下面的程序清单badptr.c：

#include <stdio.h>
#include <assert.h>
#include <stdlib.h>
int main( void )
{
       FILE *fp;
    
       fp = fopen( "test.txt", "w" );//以可写的方式打开一个文件，如果不存在就创建一个同名文件
       assert( fp );                           //所以这里不会出错
       fclose( fp );
    
       fp = fopen( "noexitfile.txt", "r" );//以只读的方式打开一个文件，如果不存在就打开文件失败
       assert( fp );                           //所以这里出错
       fclose( fp );                           //程序永远都执行不到这里来
       return 0;
}

[root@localhost error_process]# gcc badptr.c
[root@localhost error_process]# ./a.out
a.out: badptr.c:14: main: Assertion `fp' failed.

　　已放弃使用assert()的缺点是，频繁的调用会极大的影响程序的性能，增加额外的开销。在调试结束后，可以通过在包含#include <assert.h>的语句之前插入 #define NDEBUG 来禁用assert调用，示例代码如下：

#include <stdio.h>
#define NDEBUG
#include <assert.h>

用法总结与注意事项：

　　1）在函数开始处检验传入参数的合法性如：

int resetBufferSize(int nNewSize)
{
　　//功能:改变缓冲区大小,
　　//参数:nNewSize 缓冲区新长度
　　//返回值:缓冲区当前长度 
　　//说明:保持原信息内容不变     nNewSize<=0表示清除缓冲区
　　assert(nNewSize >= 0);
　　assert(nNewSize <= MAX_BUFFER_SIZE);
　　...
}

　　2）每个assert只检验一个条件，因为同时检验多个条件时，如果断言失败，无法直观的判断是哪个条件失败，如：

　　不好：

assert(nOffset>=0 && nOffset+nSize<=m_nInfomationSize);

　　好：

assert(nOffset >= 0);
assert(nOffset+nSize <= m_nInfomationSize);

　　3）不能使用改变环境的语句，因为assert只在DEBUG个生效，如果这么做，会使用程序在真正运行时遇到问题，如：

　　错误：

assert(i++ < 100);

　　这是因为如果出错，比如在执行之前i=100，那么这条语句就不会执行，那么i++这条命令就没有执行。

　　正确：

 assert(i < 100);
 i++;

　　4）assert和后面的语句应空一行，以形成逻辑和视觉上的一致感。

　　5）有的地方，assert不能代替条件过滤。

还可以使用STL -- nth_element来逐步求前k个最小的值，简单的例子说明如下：

#include<iostream>
#include<algorithm> //必须的
using namespace std;


int main()
{


	int a[]={3,2,6,1,8};
	for(int i=2;i>=0;i--)
	{
		nth_element(a,a+i,a+4);//求前3个最小的数
		cout<<a[i]<<endl;
	}
	return 0;
}