堆处理海量数据----求前k个最小的数--时间复杂度(n * log k)

本文介绍了一种处理海量数据求前k个最小数的方法,利用最大堆结构实现高效处理,时间复杂度为O(n*logk)。此外,还讨论了assert函数的正确用法及注意事项,并给出了使用STL nth_element函数的示例。

通过阅读July的书籍,发现里面求前k个最小数有很多方法。但在面对处理海量数据处理的时候,不能 把全部数据都放在电脑内存中。这时用堆来处理,并把数据放在外存中,通过读取文件的方式来读取。感觉该方法十分巧妙,时间复杂度(n*log k)。代码如下:

#include<iostream>
#include<assert.h>
using namespace std;
void MaxHeap(int heap[],int i,int len);

void BuildHeap(int heap[],int len)
{
	if(heap == NULL)
		return;
	int index = len/2;
	for(int i = index;i >= 1; i--)
		MaxHeap(heap,i,len);
}
void MaxHeap(int heap[],int i,int len)
{
	int largeIndex = -1;
	int left = i * 2;
	int right = i *2 + 1;
	if(left<=len && heap[left]>heap[i])
		largeIndex = left;
	else
		largeIndex = i;
	if(right<=len && heap[right]>heap[largeIndex])
		largeIndex = right;
	if(largeIndex != i)
	{
		swap(heap[i],heap[largeIndex]);
		MaxHeap(heap,largeIndex,len);
	}

}

int main()
{
	int k;
	cout<<"求最小的k个数,请输入k的值:";
	cin>>k;
	int *heap = new int [k+1];

	FILE *fp = fopen("data.txt","r");
	assert(fp);
	for(int i = 1;i<=k;i++)
	
	{
		fscanf(fp,"%d",&heap[i]);
	}
	BuildHeap(heap,k);

	int newData;
	while(fscanf(fp,"%d",&newData)!=EOF)
	{
		if(newData<heap[1])
		{
			heap[1]=newData;
			MaxHeap(heap,1,k);
		}
	}
	for(int j=1;j<=k;j++)
		cout<<heap[j]<<" ";
	cout<<endl;
	fclose(fp);
	return 0;
	
}


关于assert函数用法

以下转自http://www.cnblogs.com/ggzss/archive/2011/08/18/2145017.html

assert宏的原型定义在<assert.h>中,其作用是如果它的条件返回错误,则终止程序执行,原型定义:

#include <assert.h>
void assert( int expression );

  assert的作用是现计算表达式 expression ,如果其值为假(即为0),那么它先向stderr打印一条出错信息,然后通过调用 abort 来终止程序运行。请看下面的程序清单badptr.c:

复制代码
#include <stdio.h>
#include <assert.h>
#include <stdlib.h>
int main( void )
{
       FILE *fp;
    
       fp = fopen( "test.txt", "w" );//以可写的方式打开一个文件,如果不存在就创建一个同名文件
       assert( fp );                           //所以这里不会出错
       fclose( fp );
    
       fp = fopen( "noexitfile.txt", "r" );//以只读的方式打开一个文件,如果不存在就打开文件失败
       assert( fp );                           //所以这里出错
       fclose( fp );                           //程序永远都执行不到这里来
       return 0;
}
复制代码

[root@localhost error_process]# gcc badptr.c 
[root@localhost error_process]# ./a.out 
a.out: badptr.c:14: main: Assertion `fp' failed.

  已放弃使用assert()的缺点是,频繁的调用会极大的影响程序的性能,增加额外的开销。在调试结束后,可以通过在包含#include <assert.h>的语句之前插入 #define NDEBUG 来禁用assert调用,示例代码如下:

#include <stdio.h>
#define NDEBUG
#include <assert.h>


用法总结与注意事项:

  1)在函数开始处检验传入参数的合法性如:

复制代码
int resetBufferSize(int nNewSize)
{
  //功能:改变缓冲区大小,
  //参数:nNewSize 缓冲区新长度
  //返回值:缓冲区当前长度 
  //说明:保持原信息内容不变     nNewSize<=0表示清除缓冲区
  assert(nNewSize >= 0);
  assert(nNewSize <= MAX_BUFFER_SIZE);
  ...
}
复制代码

  

  2)每个assert只检验一个条件,因为同时检验多个条件时,如果断言失败,无法直观的判断是哪个条件失败,如:

  不好:

assert(nOffset>=0 && nOffset+nSize<=m_nInfomationSize);

  好:

assert(nOffset >= 0);
assert(nOffset+nSize <= m_nInfomationSize);

  3)不能使用改变环境的语句,因为assert只在DEBUG个生效,如果这么做,会使用程序在真正运行时遇到问题,如:

  错误:

assert(i++ < 100);

  这是因为如果出错,比如在执行之前i=100,那么这条语句就不会执行,那么i++这条命令就没有执行。

  正确:

 assert(i < 100);
 i++;

  4)assert和后面的语句应空一行,以形成逻辑和视觉上的一致感。

  5)有的地方,assert不能代替条件过滤。



还可以使用STL -- nth_element来逐步求前k个最小的值,简单的例子说明如下:

#include<iostream>
#include<algorithm> //必须的
using namespace std;


int main()
{


	int a[]={3,2,6,1,8};
	for(int i=2;i>=0;i--)
	{
		nth_element(a,a+i,a+4);//求前3个最小的数
		cout<<a[i]<<endl;
	}
	return 0;
}





### 最小(Min-Heap)概念 最小是一种特殊的完全二叉树结构,其特点是父节点的值总是小于或等于子节点的值。这种特性使得顶始终存储着整个集合中的最小值[^1]。 在实际应用中,最小常用于实现优先队列、调度算法以及各种优化问题。由于插入和删除操作的时间复杂度均为 \(O(\log n)\),因此它非常适合处理动态据集。 --- ### Python 实现 Min-Heap 以下是基于 Python 的 `min_heap` 最小实现: ```python class MinHeap: def __init__(self): self.heap = [] def insert(self, value): """向中插入新元素""" self.heap.append(value) self._sift_up(len(self.heap) - 1) def extract_min(self): """提取并返回中的最小值""" if not self.heap: return None if len(self.heap) == 1: return self.heap.pop() root_value = self.heap[0] self.heap[0] = self.heap[-1] del self.heap[-1] self._sift_down(0) return root_value def _parent_index(self, index): """获取父节点索引""" return (index - 1) // 2 def _left_child_index(self, index): """获取左子节点索引""" return 2 * index + 1 def _right_child_index(self, index): """获取右子节点索引""" return 2 * index + 2 def _sift_up(self, index): """上浮调整""" parent_idx = self._parent_index(index) while index > 0 and self.heap[parent_idx] > self.heap[index]: self.heap[parent_idx], self.heap[index] = self.heap[index], self.heap[parent_idx] index = parent_idx parent_idx = self._parent_index(index) def _sift_down(self, index): """下沉调整""" size = len(self.heap) while True: smallest = index left_child = self._left_child_index(index) right_child = self._right_child_index(index) if left_child < size and self.heap[left_child] < self.heap[smallest]: smallest = left_child if right_child < size and self.heap[right_child] < self.heap[smallest]: smallest = right_child if smallest != index: self.heap[smallest], self.heap[index] = self.heap[index], self.heap[smallest] index = smallest else: break # 测试代码 if __name__ == "__main__": min_heap = MinHeap() elements = [3, 1, 6, 5, 2, 4] for elem in elements: min_heap.insert(elem) result = [] while True: val = min_heap.extract_min() if val is None: break result.append(val) print(result) # 输出应为升序序列 [1, 2, 3, 4, 5, 6] ``` 上述代码实现了基本的最小功能,包括插入 (`insert`) 和提取最小(`extract_min`) 操作,并通过 `_sift_up` 和 `_sift_down` 方法维护性质。 --- ### 应用场景 #### 1. **优先队列** 使用最小可以高效地管理一组具有不同优先级的任务。每次从队列中取出的是优先级高的任务(即最小的任务),从而满足实时系统的调度需。 #### 2. **K 小/大元素查找** 利用最小可以在大规模据集中快速找到 K 大或 K 小的元素。例如,在海量日志分析中筛选出访问量大的页面[^3]。 #### 3. **Dijkstra 算法加速** Dijkstra 是一种经典的短路径算法,而使用最小作为辅助据结构可显著降低更新距离的操作成本,使整体性能提升至 \(O((V+E)\log V)\)[^4]。 --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值