Hadoop面试题之Hadoop基础
- 一 Hadoop面试题
-
- 1.1 Hadoop基础(☆☆)
-
- 1.1.1 下列哪项通常是集群的最主要瓶颈(C)磁盘 IO
- 1.1.2 下列哪个是Hadoop运行的模式?(ABC)单机版、伪分布式、完全分布式
- 1.1.3 列举几个hadoop生态圈的组件并做简要描述(Zookeeper、Flume、Hbase、Hive、Sqoop)
- 1.1.4 解释“hadoop”和“hadoop 生态系统”两个概念。(Hadoop框架本身;hadoop生态系统还包括保证hadoop框架正常高效运行其他框)
- 1.1.5 简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。(11步)
- 1.1.6 Hadoop中需要哪些配置文件,其作用是什么?(4个配置文件1)core-site.xml、2)hadoop-env.sh、3)hdfs-site.xml、4)mapred-site.xml)
- 1.1.7 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?(7个,1)NameNode、2)SecondaryNameNode、3)DataNode、4)ResourceManager(JobTracker)、5)NodeManager、6)DFSZKFailoverController、7)JournalNode )
- 1.1.8 简述Hadoop的几个默认端口及其含义(5个)
- 1.1.9 请列出正常工作的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别是什么,尽可能写的全面些
- 1.1.10 列出几个配置文件优化hadoop,怎么做数据平衡?列出步骤
- 1.1.11 手绘Hadoop架构
- 1.1.12 是否看过Hadoop源码
- 1.1.13 Hadoop中RecordReader的作用是什么?
- 1.1.14 Hadoop中job和Tasks之间的区别是什么?
一 Hadoop面试题
1.1 Hadoop基础(☆☆)
1.1.1 下列哪项通常是集群的最主要瓶颈(C)磁盘 IO
A.CPU
B.网络
C.磁盘 IO
D.内存
1.1.2 下列哪个是Hadoop运行的模式?(ABC)单机版、伪分布式、完全分布式
A.单机版
B.伪分布式
C.完全分布式
1.1.3 列举几个hadoop生态圈的组件并做简要描述(Zookeeper、Flume、Hbase、Hive、Sqoop)
1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。
2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。
4)Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据档映射为一张数据库表,并提供简单的sql 查询功能,可以将sql语句转换为MapReduce任务进行运行。
5)Sqoop:将一个关系型数据库中的数据导进到Hadoop的 HDFS中,也可以将HDFS的数据导进到关系型数据库中。
1.1.4 解释“hadoop”和“hadoop 生态系统”两个概念。(Hadoop框架本身;hadoop生态系统还包括保证hadoop框架正常高效运行其他框)
Hadoop是指Hadoop框架本身;hadoop生态系统,不仅包含hadoop,还包括保证hadoop框架正常高效运行其他框架