hadoop常问问题:
1,hadoop的调度机制,
2,机架感知,
3,MR数据倾斜原因和解决方案,
4,集群HA配置
5,mapreduce的流程
6,如果让你设计,你觉得一个分布式文件系统应该如何设计,考虑哪方面内容;
7,每天百亿数据入hbase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据;
8,对于hive,你写过哪些UDF函数,作用是什么
9,hdfs的数据压缩算法
10,mapreduce的调度模式
11,hive底层与数据库交互原理
11,hive底层与数据库交互原理
12,hbase过滤器实现原则
13,对于mahout,如何进行推荐、分类、聚类的代码二次开发分别实现那些接口