海量数据场景题--查找两个大文件的URL

求求你了再让我写写java

于 2025-03-26 22:22:33 发布

阅读量232

点赞数 3

文章标签：缓存 spring java 数据库服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_73762612/article/details/146542676

版权

查找两个大文件共同的URL

给定 a、b 两个文件，各存放 50 亿个 URL，每个 URL 各占 64B，找出 a、b 两个文件共同的 URL。内存限制是 4G。

操作逻辑：
- 使用哈希函数 hash(URL) % 1000 将每个URL映射到0-999的编号
  - 文件A切割为a0, a1, ..., a999，每个约300MB；文件B同理切割为b0, b1, ..., b999
- 关键保证：
  相同URL必被哈希到同一编号的小文件。例如，URL "http://example.com"在文件A中分配到a42，则在文件B中也必分配到b42
  
  匹配规则：
  仅需比较同一编号的ai与bi，无需跨文件比较（如a3只与b3对比）
- `

为什么必须用哈希分治？直接排序再归并行吗？

排序归并的瓶颈：
直接排序需将320GB文件全部排序，归并时仍需多次I/O，总耗时比分治法更高
- 哈希分治的优势：
  通过哈希值直接定位对应文件对，减少无效比较次数

哈希冲突会导致错误吗？

不影响正确性：
哈希冲突仅影响不同URL被分到同一文件，但匹配时通过精确比对HashSet中的原始URL可避免误判

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。