处理TopK问题的两种方式

最新推荐文章于 2020-06-10 10:31:41 发布

原创

最新推荐文章于 2020-06-10 10:31:41 发布 · 596 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

在处理大量数据时，为了找出TopK大的或小的数据，避免全量排序，可以使用最大堆或最小堆。最大堆适用于找TopK大的数据，最小堆则用于找TopK小的。另外，Java的PriorityQueue类也可实现这一功能，通过指定比较器来构建堆并存储TopK值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

TopK问题：即给定n个数据，从中找出Topk大的数据或者TopK小的数据

在处理海量数据的时候，往往需要找出Top前几的数据，这时候，如果直接对数据进行排序，在处理海量数据的时候往往就是不可行了，而且排序最好的时间复杂度是nlogn，当n远大于需要获取到的数据的时候，时间复杂度就显得过高；

一、使用最大堆或者最小堆可以很好的解决Top大问题或者Top小问题

解决Top大问题，也就是找出前k大的数据，那么我们使用小堆【为什么是使用小堆？因为小堆的堆顶元素是最小的，如果比最小的还小，那么一定不在topK里面，如果比最小的小，就要先加进来，然后再向下调整，保持堆顶元素的最小；如果是大堆的话，那么第一个元素是最大的，和堆顶元素去比较，就可能会让一些比堆顶元素小，但是比下面元素大的元素进不去堆中，也就不是最后我们要得到的topK了，不合理，所以TopK大选用小根堆】

思路如下：1、先建立一个固定k大小的小根堆，已放入k个数据，然后向堆中继续添加元素

2、如果当前元素大于堆顶元素，则替换堆顶元素为当前元素，然后向下调整为大根堆；若小于，则不替换，数据向后移动

3、重复第二步，直到数据全部遍历结束

对于n个数，取Top m个数，时间复杂度为O(nlogm)，这样在n较大情况下，是优于nlogn的时间复

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。