Hadoop生态圈(三)- HDFS(分布式文件系统)

目录

设计目标

特性

HDFS基本原理

NameNode概述

DataNode概述

HDSF读写操作

HDFS写数据流程

HDFS读数据流程

HDFS元数据管理

HDFS shell


HDFS解决的是海量存储的问题

设计目标:

  1. 故障是常态,因此故障的检测和自动快速恢复是核心

  2. 适合批量处理,注重数据访问的高吞吐量。一旦写入不需要修改

  3. 支持大文件

  4. 文件一旦创建、写入、关闭之后就不需要修改

  5. 移动计算的代价比移动数据的代价

  6. 可移植性强。其他软件平台或异构硬件

特性:

  • NameNode负责管理整个文件系统元数据;DataNode负责管理具体文件数据块存储;Secondary NameNode协助NameNode进行元数据的备份。

  • HDFS即是一个文件系统又是分布式。

  • 主从架构(一个namenode和多个datanode),Namenode是HDFS集群主节点,Datanode是HDFS集群从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。

  • 文件是以128M块(block)存储,以64K的数据包传送。hadoop 1.X是64M

  • 我们把目录结构及文件分块位置信息叫做元数据元数据是关于数据的信息,包括文件名、文件大小、文件权限等。Namenode通过创建元数据本地存储目录和一些初始化的元数据相关文件来管理和维护这些信息。

  • datanode需要定时向namenode汇报自己的block信息时间间隔默认为6小时,会定期发送心跳,默认为3秒。

  • 副本数量也可以通过参数设置dfs.replication,默认是3

  • namenode是集群的单点故障,坏了就不可运行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值