学习目标:
通过学习了解大数据面试中需要注意的点,以此来发现自己的学习漏洞。
- 114节课程全部完成
学习内容:
- Day1
《小文件引发的血案》(HDFS)——小文件是什么?明显小于blocksize的文件
HDFS架构 —> HDFS读写流程——>HDFS HA——> 小文件是什么——>小文件给hadoop集群带来了什么问题
hadoop | flink | spark | storm |
HDFS:Client、NN(因为只有一个所以涉及到单点问题)、DN(存数据,和NN之间存在心跳)、Block
基本是一个Namenode和多个Datanode SecondaryNameNode。文件存储到HDFS的原理:
File存入HDFS是按照block进行拆分。

所谓的副本,是为了提高容错率,避免单点的问题(Single Point of Failure),下图中,名为part0的文件,r:2有2个副本,块有{1,3}两个,那其实也就是文件中有两个东西:“1”和“3”,这两个东西你为了避免说如果一个不存在了,发生错误了,则整个系统崩坏了,所以要备份。

-------------------------------------------------------------------------------------------------------------------------------- HDFS架构 —> HDFS读写流程——>HDFS HA——> 小文件是什么——>小文件给hadoop集群带来了什么问题

- 写过程:配置HDFS基本信息——> HDFS分块分副本——>客户端发送请求——> NN将分配好的DN信息反馈给客户——>客户把数据存储到DN上
读写一定要有客户端(信息的发起人),那么客户要做什么,最开始的hdfs就像一个新手机,而我们要做的就是把它玩成每个人的个性化的手机,那么个性化的设置就需要我们进行“设置”,“设置”的方法有两种,第一种是命令,第二种是更改配置文件。那需要设置什么呢:
首先需要块Block,每个多大:也就是Blocksize,然后就是副本r。
NN需要了解 每个块分配到哪些DN上。
- 读流程:客户端和NN之间信息互传,告知客户数据存储到哪个DN上,客户直接去DN上取数据。

--------------------------------------------------------------------------------------------------------------------------------
HDFS架构 —> HDFS读写流程——>HDFS HA——> 小文件是什么——>小文件给hadoop集群带来了什么问题
HDFS HA解决NN单点问题。NN(Active)——NN(standby)共享
那么问题来了,又怎么能让这两个NN切换呢?需要Monitor完成监控。ZK实现调度。
---------------------------------------------------------------------------------------------------------------------------------小文件给hadoop集群里带来了哪些问题
进程的开启和销毁,耗费时间和资源。会给磁盘的IO带来很大的负担。
IO问题和性能问题|计算机比较重要的两大问题
学习时间:
P1-P11
例如:
周一 | 周二 | 周三 | 周四 | 周五 | 周六 | 周日 |
- | 2h |
学习产出:
- 技术笔记 2 遍
- 优快云 技术博客 3 篇
- 习的 vlog 视频 1 个