HDFS分布式存储

最新推荐文章于 2025-10-21 19:46:44 发布

原创最新推荐文章于 2025-10-21 19:46:44 发布 · 392 阅读

0 ·

CC 4.0 BY-SA版权

1. Hadoop历史：

1.1创建者： Doug Cutting

1.2名字起源： Doug Cutting 的孩子的棕黄色大象玩具的名字

1.3三驾马车：
谷歌的三驾马车： GFS、MapReduce和BigTable
根据谷歌的三驾马车得到了：HDFS、Hadoop、HBase

1.4hadoop生态圈：
HDFS：分布式存储
Yarn：分布式资源管理器
Mapreduce：分布式计算框架
common:公共部分

2.HDFS存储原理：

2.1各个角色及其作用：

NameNode:
1.接受客户端的读写请求

2.管理元数据：
2.1上传文件的权限
2.2上传文件的属主以及属组
2.3上传文件的时间
2.4上传文件的block数以及ID号
2.5每一个Block的位置信息是由DN在集群启动之时汇报的，不会持久化
2.6各个DN的位置信息

3.管理DN

DataNode:
1.接受客户端的读请求
2.存储block块
3.向active NN汇报心跳
4.构建pipeline的管道
5.管理本机上的block元数据

SNN:
SecondryNameNode 负责持久化，拉取NN节点上的edtis+fsimages文件合并

合并过程：
文件拉取之时，在NN节点上会创建edits_new目的就是为了存储在合并期间对HDFS的操作
1.基于拉来的edits文件的重演，产生元数据
2.将重演产生的元数据合并到fsimages中
3.将合并后f’simages推送给NN
4.将edits.new文件的后缀去掉

合并的触发机制：
1.超过3600S就合并一次
2.edits文件大小超过64M

ZKFC：
1.监控各自的NN，将监控的情况汇报给zk集群
2.接受zk的选举结果，确认一下另外一个NN是否真的挂了，将自己监控的NN提升为active

Journalone:
1.写数据的时候，只需要保证半数以上的即诶但写入成功就可以了
2.最终一致性/弱一致性
3.存储的是edits

备用的NN：
1.监控journalone中数据变化，实时更新自己的内存数据
2.将内存中元数据持久化到fsimages中，然后推送到NN

备份机制：
1.如果是集群外操作们第一个block存储在负载不高的节点上（默认128M dfs.blocksize 严格按照字节切割，如果存储的是中文，会出现乱码问题）
2.如果集群内操作，在本机
第二个block在其他机架随机一台服务器上
第三个block在与第二个block同机架的其他节点上

HDFS的读写流程：
读流程：
1.client访问NameNode，查询元数据信息，获得这个文件的数据块位置列表，返回输入流对象。
2.就近挑选一台datanode服务器，请求建立输入流。
3.DataNode向输入流中中写数据，以packet为单位来校验。
4.关闭输入流
写流程：
1.client计算block的数量，切割大文件成一个个block
2.用户端client向NameNode汇报上传文件的权限、数据块block数和上传时间，这些内容在此时被加载到NameNode的内存中。
3.请求一个id号和请求存放的block位置
4.NameNode将当前负载不高的DataNode的地址发送给client
5.将block切割成一个个packet(64K),然后源源不断地往Pipeline管道(多个备份和一份数据)中传送，实现并行存储。
6.DataNode存储完一个块后向NameNode汇报当前的存储情况(block的位置)，此时此信息被加载到NameNode内存中。

搭建集群的三种模式：
1.伪分布式，测试环境使用
2.完全分布式： hdfs-site.xml、core-site.xml、 slaves从节点hostname
3.高可用的完全分布式：
3.1 hdfs-site.xml、core-site.xml、 slaves从节点hostname、
3.2格式化、
3.3将本机的NN启动、
3.4去备用的NN节点，同步元数据、
3.5格式化ZKFC（先启动zookeeper）、
3.6关闭所有节点、
3.7start-dfs.sh:
3.7.1安全模式1、NN会将fsimage与edits合并 2、检查各个及诶点上的block块以及副本是否符合要求，若不符合要求，指挥存储数据丢失的DN做备份 3、检查各个DN的健康状况
3.7.2正常对外提供存储服务

HDFS的优缺点：
1.优点：
1.1副本机制，所以数据更安全
1.2因为是分布式存储，所以适合批处理
1.3高可用性
1.4元数据持久化
1.5禁掉一些功能，使集群更加完美（修改功能，文件一旦上传，就不能修改block的大小）
2.缺点：
1.无法毫秒级的读写数据：读写复杂需要找nn请求，形成管道，文件切割block packet
2.不适合存储大量的小文件：容易造成元数据过多，NN内存溢出，解决方法：1.将小文件合并成打文件、2.联邦机制
3.不能并发写入，但是可以并发的读

JAVAAPI：
准备环境：
1.本机配置HADOOP_HOME
2.替换bin目录
3.修改用户名
4.导入JAR
5.安装插件，方便在ecplise中操作集群