hadoop、大数据面试题

本文详细探讨了Hadoop生态系统的核心组件及其工作原理,包括HDFS、MapReduce、Shell命令等关键技术,同时深入剖析了HDFS中的block存储机制、FSImage与Edit的区别、Hadoop1与Hadoop2的主要区别。此外,还介绍了Hadoop在实际应用中的配置优化、数据倾斜处理、Zookeeper理解、集群安装注意事项及HBase集群操作要点。最后,通过面试题的形式,总结了Hadoop相关技术和实践应用的关键点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、hdfs原理,以及各个模块的职责
2、mr的工作原理
3、map方法是如何调用reduce方法的
4、 shell 如何判断文件是否存在,如果不存在该如何处理?
5、fsimage和edit的区别?
6、hadoop1和hadoop2的区别?
笔试:
1、hdfs中的 block 默认保存几份?
2、哪个程序通常与nn在一个节点启动?并做分析
3、列举几个配置文件优化?
4、写出你对zookeeper的理解
5、datanode首次加入cluster的时候,如果log报告不兼容文件版本,那需要namenode执行格式化操作,这样处理的原因

是?
6、谈谈数据倾斜,如何发生的,并给出优化方案
7、介绍一下hbase 过滤器
8、mapreduce基本执行过程
9、谈谈hadoop1和hadoop2的区别
10、hbase集群安装注意事项
11、记录包含值域F和值域G,要分别统计相同G值的记录中不同的F值的数目,简单编写过程。

信息技术有限公司
1、你们的集群规模?

2、你们的数据是用什么导入到数据库的?导入到什么数据库?


3、你们业务数据量多大?有多少行数据?(面试了三家,都问这个问题)


4、你们处理数据是直接读 数据库 的数据还是读文本数据?

5、你们写hive的hql语句,大概有多少条?


6、你们提交的job任务大概有多少个?这些job执行完大概用多少时间?(面试了三家,都问这个问题)


7、hive跟hbase的区别是?

8、你在项目中主要的工作任务是?

9、你在项目中遇到了哪些难题,是怎么解决的?

10、你自己写过udf函数么?写了哪些?

11、你的项目提交到 job 的时候数据量有多大?(面试了三家,都问这个问题)

12、reduce后输出的数据量有多大?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值