1.https://www.cnblogs.com/sunddenly/p/3977011.html
目录
-
- 1.hadoop面试题及答案
- 2. Hadoop、Hive、HBase的区别
- 3.hadoop小文件问题
- 4.mapreduce的shuffle过程,map端的并行度
- 5.为什么一定要有shuffle过程
- 6.mapreduce分桶的作用
- 7.spark,hadoop的区别
- 8.hadoop没被淘汰的原因
- 11.hdfs与hbase有啥关系
- 12.hdfs默认副本数是几个?为什么
- 13.架构设计:每天上百亿级别数据,数据来了之后如何进行架构设计,以完成数据分析,数据检索功能
- 14.50个红球,50个蓝球,怎么放入两个袋子,让拿到红球的概率最大
- 15.Hadoop的block大小调大了会造成什么影响?调大好还是调小好一点?为什么?
- 16.Hadoop常见的数据压缩算法
- 17 采用压缩的位置
- 18.Hadoop之——HDFS容错
1.hadoop面试题及答案
2. Hadoop、Hive、HBase的区别
YARN架构概述
Yarn是管理内存调度和cpu资源分配的。
*NodeManager(NM):常驻进程,类似于团队里面的码农,主要作用如下:
1)管理单个节点的资源。(看禅道,完成自己每天的工作安排)
2)处理来自ResourceManager的命令。(完成技术经理分配的任务)
3)处理来自ApplicationMaster的命令。(完成项目组长分配的任务)
*ApplicationMaster(AM):是ResourceManager临时启用的一个节点,不是常驻进程,类似于一个技术小组长:
1)负责数据的切分,任务的监控与容错。(管理组内同事工作)
2)为应用程序申请资源分配给内部任务。(向领导为小组申请资源:人力、时间什么的)
*ResourceManager(RM) :常驻进程,一个集群只有一个,用来管理集群调度情况的,就像一个部门的技术经理一样,其作用如下:
1)处理客户端请求,进行资源分配与调度。(对接产品需求,分给手下的人)
2)监控nodeManager(管理团队成员每天的工作)
3)启动或监控applicationMaster(可能项目太小不想亲自动手,临时任命一个小组长)
*Container:非常驻进程,它是yarn中的资源抽象,他封装了某个节点上的多维度资源,入内存,CPU,磁盘网络等。Am就运行在这里面,Nm通过打开关闭Container开完成资源的调度。
3.hadoop小文件问题
https://cloud.tencent.com/developer/article/1482598
https://www.cnblogs.com/ballwql/p/8944025.html
4.mapreduce的shuffle过程,map端的并行度
5.为什么一定要有shuffle过程
6.mapreduce分桶的作用
7.spark,hadoop的区别
8.hadoop没被淘汰的原因
11.hdfs与hbase有啥关系
12.hdfs默认副本数是几个?为什么
13.架构设计:每天上百亿级别数据,数据来了之后如何进行架构设计,以完成数据分析,数据检索功能
14.50个红球,50个蓝球,怎么放入两个袋子,让拿到红球的概率最大
一个放一个红球,另一个放49个红球和所有的蓝球
15.Hadoop的block大小调大了会造成什么影响?调大好还是调小好一点?为什么?
15.1 概述
hadoop集群中文件的存储都是以块的形式存储在hdfs中。
15.2 默认值
从2.7.3版本开始block size的默认大小为128M,之前版本的默认值是64M.
15.3 如何修改block块的大小?
可以通过修改hdfs-site.xml文件中的dfs.blocksize对应的值。
注意:在修改HDFS的数据块大小时,首先停掉集群hadoop的运行进程,修改完毕后重新启动。