TopK问题性能测试记录--分而治之

本文详细介绍了如何从两亿个URL中筛选出出现次数最多的10个,包括测试准备、文件切分、统计TOP10等步骤,并提出了改进排序效率的方法。

问题描述:从两亿个URL中找出出现次数最多的10个

1.测试准备:分两次随机生成2亿个url  

(1)数量:100,000,001   耗时:445,152

(2)数量:100,000,005   耗时:554,225

生成文件大小:2.88G

2.切分文件,每个文件大小:3,073K  共生成:987个文件    耗时:350,204

3.各取top100  共1,579,100B

4.统计TOP10   耗时:436,832

 

方法各处尚待改进,尤其是排序,采用的是Collections.sort  故效率较低

 

不过切分开来本身就挺耗时,如果采用改进型的BloomFilter  效率或许会大大提高

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值