
BigData
一MasonChen
这个作者很懒,什么都没留下…
展开
-
第一部分、十道海量数据处理面试题
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP 取出来,逐个写入到一个大文件中。 注意到IP是32位的,最多有个2^32个IP。 采用映射的方法,比如模1000,把整个大文件映射为1000个小文件, 再找出每个小文件中出现频率最大的IP(可以采用hash_map进行频率统计, 然后再找出频率最大的几个)及相应转载 2016-07-30 11:58:44 · 367 阅读 · 0 评论 -
第二部分、十个海量数据处理方法大总结
第二部分、十个海量数据处理方法大总结 ok,看了上面这么多的面试题,是否有点头晕。是的,需要一个总结。接下来,本文将简单总结下一些处理海量数据问题的常见方法,而日后,本BLOG内会具体阐述这些方法。 下面的方法全部来自http://hi.baidu.com/yanxionglu/blog/博客,对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,转载 2016-07-30 15:17:18 · 999 阅读 · 0 评论