hadoop、大数据面试题

最新推荐文章于 2022-11-13 20:59:09 发布

原创最新推荐文章于 2022-11-13 20:59:09 发布 · 1.5k 阅读

11 ·

CC 4.0 BY-SA版权

hadoop&云计算专栏收录该内容

18 篇文章

订阅专栏

本文详细探讨了Hadoop生态系统的核心组件及其工作原理，包括HDFS、MapReduce、Shell命令等关键技术，同时深入剖析了HDFS中的block存储机制、FSImage与Edit的区别、Hadoop1与Hadoop2的主要区别。此外，还介绍了Hadoop在实际应用中的配置优化、数据倾斜处理、Zookeeper理解、集群安装注意事项及HBase集群操作要点。最后，通过面试题的形式，总结了Hadoop相关技术和实践应用的关键点。

1、hdfs原理，以及各个模块的职责
2、mr的工作原理
3、map方法是如何调用reduce方法的
4、 shell 如何判断文件是否存在，如果不存在该如何处理？
5、fsimage和edit的区别？
6、hadoop1和hadoop2的区别？
笔试：
1、hdfs中的 block 默认保存几份？
2、哪个程序通常与nn在一个节点启动？并做分析
3、列举几个配置文件优化？
4、写出你对zookeeper的理解
5、datanode首次加入cluster的时候，如果log报告不兼容文件版本，那需要namenode执行格式化操作，这样处理的原因

是？
6、谈谈数据倾斜，如何发生的，并给出优化方案
7、介绍一下hbase 过滤器
8、mapreduce基本执行过程
9、谈谈hadoop1和hadoop2的区别
10、hbase集群安装注意事项
11、记录包含值域F和值域G，要分别统计相同G值的记录中不同的F值的数目，简单编写过程。

信息技术有限公司
1、你们的集群规模？

2、你们的数据是用什么导入到数据库的？导入到什么数据库？

3、你们业务数据量多大？有多少行数据？(面试了三家，都问这个问题)

4、你们处理数据是直接读数据库的数据还是读文本数据？

5、你们写hive的hql语句，大概有多少条？

6、你们提交的job任务大概有多少个？这些job执行完大概用多少时间？(面试了三家，都问这个问题)

7、hive跟hbase的区别是？

8、你在项目中主要的工作任务是？

9、你在项目中遇到了哪些难题，是怎么解决的？

10、你自己写过udf函数么？写了哪些？

11、你的项目提交到 job 的时候数据量有多大？(面试了三家，都问这个问题)

12、reduce后输出的数据量有多大？