如何在一亿数据中找到最大的TOP N

最新推荐文章于 2025-04-24 18:39:39 发布

吃再多糖也不长胖

最新推荐文章于 2025-04-24 18:39:39 发布

阅读量904

点赞数

分类专栏： hadoop问题文章标签：数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43859562/article/details/126307943

版权

hadoop问题专栏收录该内容

7 篇文章

订阅专栏

如何在一亿数据中找到最大的TOP N

1 考虑要不要重复数据
2 最小堆法

1 考虑要不要重复数据

如果1亿数据有很多重复数据，可以通过hash法把这一亿数据去重复。这样如果重复率很高的话，可以减少很大的内存量，从而缩小运算空间。然后通过最小堆法找出最大的TOP N

2 最小堆法

先读取前N个数创立一个大小为N的最小堆，建堆的复杂度为（mlogm）（m为数组的大小即为N），然后遍历剩余数据，并同时跟堆顶（最小的）数字比较，如果比对顶小，则继续读取更后的数据。如果比堆顶大，则替换堆顶元素，重新调整最小堆的顺序，整个过程直到遍历完全部数据。
然后按中序遍历的方式按中序遍历输出最小堆所有N个数值，该算法的时间复杂度为O（nmlogm），空间复杂度是N（常数）。

此算法比分治法和局部淘汰法好。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。