一、HDFS概述
在Hadoop分布式系统的框架中,首要的存储数据的功能是由HDFS这个分布式文件系统完成的。如果把Hadoop框架比喻成一个工厂,那么HDFS就像是整个工厂的仓库。
二、HDFS优缺点
优点:高容错性,能够将失败的任务重新分配,适合大数据开发,可以构建在廉价机器上。
缺点:不适合低延时时间数据访问,无法对大量小文件进行储存,小文件寻址时间会超过读取时间,不支持并发写入,文件随意修改,仅支持追加。
三、HDFS架构
HDFS是一个分布式的储存组件,是由主从体系结构。主要由namenode(简写NN),datanode(简写DN),secondarynamenode(简写2NN)三部分组成。
1、namenode
负责管理文件系统的元数据,以及每个文件的元数据和映射关系。配置数据的副本策略,处理客户端的读写请求。
2、datanode
DN是实际储存数据的空间,执行客户端的读写请求。根据NN的副本机制来储存。
3、secondarynamenode
用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS的元数据快照,辅助namenade管理元数据信息。但是当NN挂掉,不能马上代替NN的服务。
四、HDFS的安全模式
安全模式是hadoop的一种保护机