关于HDFS存储相关的知识

一,HDFS副本块数量的配置

        一般默认存储三个文件快,即默认备份两个数据块。如果要修改备份数据块,可以载可以在hdfs-site.xml进行修改,如果修改一台虚拟机配置,其余也需要进行修改

除了配置文件外,我们还可以在上传文件的时候,临时决定被上传文件以多少个副本存储。 hadoop fs -D dfs.replication=2 -put test.txt /tmp/

如上命令,就可以在上传test.txt的时候,临时设置其副本数为2

对于已经存在HDFS的文件,修改dfs.replication属性不会生效,如果要修改已存在文件可以通过命令

hadoop fs -setrep [-R] 2 path

如上命令,指定path的内容将会被修改为2个副本存储。 -R选项可选,使用-R表示对子目录也生效

二,fsck命令检查文件的副本数

我们可以使用hdfs提供的fsck命令来检查文件的副本数

hdfs fsck path [-files [-blocks [-locations]]]

fsck可以检查指定路径是否正常

-files可以列出路径内的文件状态 -files -blocks  输出文件块报告(有几个块,多少副本)

-files -blocks -locations 输出每一个block的详情

三,对NameNode元数据管理维护

edits文件,是一个流水账文件,记录了hdfs中的每一次操作,以及本次操作影响的文件其对应的block

将全部的edits文件,合并为最终结果,即可得到一个FSImage文件

NameNode基于edits和FSImage的配合,完成整个文件系统文件的管理。

1. 每次对HDFS的操作,均被edits文件记录

2. edits达到大小上线后,开启新的edits记录

3. 定期进行edits的合并操作 如当前没有fsimage文件,将全部edits合并为第一个fsimage

如当前已存在fsimage文件,将全部edits和已存在的fsimage进行合并,形成新的fsimage

对于元数据的合并,是一个定时过程,基于:

dfs.namenode.checkpoint.period,默认3600(秒)即1小时 dfs.namenode.checkpoint.txns,默认1000000,即100W次事务

只要有一个达到条件就执行。

检查是否达到条件,默认60秒检查一次,基于:

dfs.namenode.checkpoint.check.period,默认60(秒),来决定

SecondaryNameNode会通过http从NameNode拉取数据(edits和fsimage)

然后合并完成后提供给NameNode使用。

四,数据写入流程

五,数据读取流程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值