大数据排序或取重或去重相关问题解决方案

最新推荐文章于 2024-08-13 08:49:24 发布

原创最新推荐文章于 2024-08-13 08:49:24 发布 · 587 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#面试 #百度

Algorithm 专栏收录该内容

28 篇文章

订阅专栏

针对10亿数据集中的重复数问题，在10M内存限制下提出一种高效的去重解决方案。通过将数据集分割成多个小文件，并采用简单的比较方法而非hash函数来减少时间和资源开销。

部署运行你感兴趣的模型镜像

Q：TC群里有人发消息说在10亿个数据中找出所有的重复数，内存限制10M。貌似百度面试题。

“笨一休”大牛的初步提出了个方法：

1，利用hash对所有数进行取模（比如%1M），利用余数进行分1K组；

2，再对1K组，内部进行hash查重复数。

晚上上自习时候想了想，觉得不需要设计hash函数来进行操作，一来很难设计出无冲突的hash函数，二来每次进行hash时候涉及取模操作，比较费时。想了个方法如下：

1，将10亿=10^9个数划分为N（N=1K或500）个区间段，即使用N个文件存储。每个文件代表一个区间（1《x《1M放在f1中，1M<x《2M放在f2中之类......自己设定）。

2，扫描所有数，通过比较将数划分到N个区间中；（可以采取判定树方式比较）

3，分别对N个文件，进行操作（取去重或排序之类），（此时可以对每个文件中的数据，进行内存操作。数组便可完成。因为数据随机，平均每个文件的数据个数为2M/1M个，2M/1M*4=8M/4M <10M；这里也可以用bit操作更省内存）。

您可能感兴趣的与本文相关的镜像

Python3.10

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

博客等级

码龄19年

关注

41点赞

253收藏

28粉丝

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。