前段时间写了个5000W条有固定格式的文本数据的统计重复次数的算法 ,
用随机数生成了5000W条数据放在txt文本中,居然1G多一点,经过几天的优化,最后用2个小时左右统计完成,
心情不错,哈哈!
格式如下:
02,08,09,20,32|02,08
03,04,09,20,35|02,08
01,02,03,04,05|02,08
08,20,31,32,33|06,08
29,30,31,32,33|10,11
20,21,22,23,24|01,12
02,08,09,20,32|02,08
02,08,09,20,32|02,08
18,25,26,30,32|02,03
03,04,09,20,35|02,08

博主分享了如何处理5000万条固定格式文本数据的重复统计问题,初始数据量约1G,通过算法优化,最终在2小时内完成统计任务。
最低0.47元/天 解锁文章
1694

被折叠的 条评论
为什么被折叠?



