大数据学习05:HDFS数据的存储

HDFS:数据存储

(一)HDFS的体系架构

1、NameNode:名称节点

       (*)职责:
            (1)是HDFS的主节点、管理员
            (2)接收客户端(命令行、Java程序)的请求:创建目录、上传数据、下载数据、删除数据
           (3)管理和维护HDFS的日志和元信息
                (*)日志文件(edits文件):记录的客户端的所有操作
                    (是一个二进制文件)
                    位置:$HADOOP_HOME/temp/dfs/name/current
                    edits_inprogress_000000000000000000000107代表:正在操作的日志文件
                    举例:hdfs dfs -mkdir /aaa
                    HDFS提供了一个查看器(edits viewer ):把edits文件转换成文本格式
                    命令:hdfs oev -i edits_inprogress_000000000000000000000107 ~/a.xml
               (*)元信息文件(fsimage文件):记录的是数据块的位置信息、数据块的冗余信息,
               没有数据体现HDFS的最新状态
               是一个二进制文件
               位置:$HADOOP_HOME/tmp/dfs/name/current
               HDFS提供了一个元信息查看器(imageviewer),把fsimage文件转为文本或者xml都可以

2、DateNode:数据节点

            (*)按数据块保存数据
                    1.x:64M
                    2.x:128M
            (*)数据块:表现形式:就是一个文件(blk*****************)

hadoop全分布环境的搭建——将主节点配置好的文件上传到从节点

             举例:上传一个大于128M的文件
             (*)设置数据块冗余度原则:一般跟数据节点的个数一样:但是最大不超过3
             (*)Hadoop 3.以前。会造成空间的极大浪费
             (*)Hadoop 3.以后。HDFS纠删码技术,大大节约存储空间

3、SecondaryNameNode:第二名称节点

            职责:进行日志的合并
            
            (*)由于edits文件记录了最新的状态信息,并且随着操作越多,edits就会越大
            (*)需要edits中的最新信息写到fimage中
            (*)edits文件就可以清空
            
            (NameNode和SecondaryNameNode在同一台机器上,会提高效率)

secondaryNameNode日志合并的过程
补充点知识:检查点checkpoint
() Spark中的检查点:容错机制
)Oracle中的检查点:会以最高优先级唤醒数据库的写进程,将脏数据写入硬盘文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值