hadoop整理 --按照题目顺序-面试题目汇总

1.https://www.cnblogs.com/sunddenly/p/3977011.html

1.hadoop面试题及答案

添加链接描述

2. Hadoop、Hive、HBase的区别

YARN架构概述
  Yarn是管理内存调度和cpu资源分配的。
  *NodeManager(NM):常驻进程,类似于团队里面的码农,主要作用如下:
    1)管理单个节点的资源。(看禅道,完成自己每天的工作安排)
    2)处理来自ResourceManager的命令。(完成技术经理分配的任务)
    3)处理来自ApplicationMaster的命令。(完成项目组长分配的任务)
  *ApplicationMaster(AM):是ResourceManager临时启用的一个节点,不是常驻进程,类似于一个技术小组长:
    1)负责数据的切分,任务的监控与容错。(管理组内同事工作)
    2)为应用程序申请资源分配给内部任务。(向领导为小组申请资源:人力、时间什么的)
  *ResourceManager(RM) :常驻进程,一个集群只有一个,用来管理集群调度情况的,就像一个部门的技术经理一样,其作用如下:
    1)处理客户端请求,进行资源分配与调度。(对接产品需求,分给手下的人)
    2)监控nodeManager(管理团队成员每天的工作)
    3)启动或监控applicationMaster(可能项目太小不想亲自动手,临时任命一个小组长)
  *Container:非常驻进程,它是yarn中的资源抽象,他封装了某个节点上的多维度资源,入内存,CPU,磁盘网络等。Am就运行在这里面,Nm通过打开关闭Container开完成资源的调度。

3.hadoop小文件问题

https://cloud.tencent.com/developer/article/1482598
https://www.cnblogs.com/ballwql/p/8944025.html

4.mapreduce的shuffle过程,map端的并行度

5.为什么一定要有shuffle过程

6.mapreduce分桶的作用

7.spark,hadoop的区别

8.hadoop没被淘汰的原因

11.hdfs与hbase有啥关系

12.hdfs默认副本数是几个?为什么

13.架构设计:每天上百亿级别数据,数据来了之后如何进行架构设计,以完成数据分析,数据检索功能

14.50个红球,50个蓝球,怎么放入两个袋子,让拿到红球的概率最大

一个放一个红球,另一个放49个红球和所有的蓝球

15.Hadoop的block大小调大了会造成什么影响?调大好还是调小好一点?为什么?

15.1 概述

hadoop集群中文件的存储都是以块的形式存储在hdfs中。

15.2 默认值

从2.7.3版本开始block size的默认大小为128M,之前版本的默认值是64M.

15.3 如何修改block块的大小?

可以通过修改hdfs-site.xml文件中的dfs.blocksize对应的值
注意:修改HDFS的数据块大小时,首先停掉集群hadoop的运行进程修改完毕后重新启动。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值