
大数据
maclaren001
这个作者很懒,什么都没留下…
展开
-
十道海量数据处理面试题
转自 http://www.tuicool.com/articles/6FJfAr第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每转载 2015-03-07 11:29:15 · 348 阅读 · 0 评论 -
HBase源码走读-(1)HMaster启动过程
前记断断续续使用HBase有2,3年的时间了,由于都是工作驱动,需要用到的时候才重新拿起来,过段时间又忘了差不多了,连最基本的只是还需要度娘和谷歌,感觉挺失败的,和当初希望成为大数据方面的专家背道而驰,越走越远。正好刚离职,有这个闲工夫,想了下还是需要有东西沉淀下来,不然对知识掌握上使用游击战是不行的,还是需要系统的整理这些知识点,一来可以查缺补漏,二来可以将脑中的知识片段捋一捋,更深刻,原创 2017-02-26 20:11:33 · 1632 阅读 · 0 评论