
海量数据处理
文章平均质量分 78
小桥
活泼开朗 ,乐于帮助他人
展开
-
海量数据处理面试题及解决方法
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32原创 2012-09-29 11:26:23 · 1125 阅读 · 1 评论 -
编译hive 出错 及修改
最近在研究hadoop ,在使用ant clean编译hive源码的时候报出了如下的错误:[exec] Makefile:138: *** *************因为make-3.81版、make-3.82.90版在windows下的bug,可以下载make-3.82版本于是上了make的官网:http://www.gnu.org/s原创 2013-01-10 16:03:38 · 949 阅读 · 0 评论 -
编译hadoop源码遇到问题 及时解决
最近在研究hadoop,在用maven编译源码的过程中出现了个错误,一直编译过不去:[INFO] ------------------------------------------------------------------------[INFO] BUILD FAILURE[INFO] ------------------------------------------原创 2013-01-10 13:58:15 · 1744 阅读 · 0 评论 -
交互式大数据处理模型-Google Dremel
背景在大数据时代的背景下,数据是显得如此丰富和可爱。而理所当然的,大数据的存储和计算就是其相关业务的两大亮点了。总结业界一些处理大数据的方式,做了如下比较。此次,我主要介绍Google Dremel。值得一提的是,Drill是Dremel的开源版本,Google自己的OpenDremel也整合到了Drill中,不过Drill还在Apache孵化器里,得到阶段性的成果还需要一段时间。转载 2013-12-02 20:56:31 · 3566 阅读 · 0 评论