1、HDFS集群存储大文件数据的方案:
分散存储:
把一个大文件按照固定的大小切割成很多的小文件,在hadoop2.x版本当中,数据块大小的默认值是128M,在hadoop1.x版本当中,数据块大小的默认值是64M,不管在哪个版本中,该值都是可以更改的。而且不同的文件,他们的切割大小也可以不同完全是由客户端决定。
冗余存储:
为了提高数据的安全性,HDFS采用的解决方案就是采用冗余存储在所有的hadoop版本中,默认的冗余值: 3,该值和副本数一样,是可以随意更改,并且不同的文件可以保存不同的备份数,而且也是由客户端决定。
当前这个3的意思表示的是:
某一个数据块的总数3,而不是表示除了保存这个数据块以外,还要保存3个副本。
当前这个3的意思表示的是:
某一个数据块的总数3,而不是表示除了保存这个数据块以外,还要保存3个副本。
2、HDFS架构
主节点 Namenode:集群老大,掌管文件系统目录树,处理客户端读且请求
SecondaryNamenode:严格说并不是namenode 备份节点,主要给namenode 分担压力之用从节点
Datanode:存储整个集群所有数据块,处理真正数据读写
SecondaryNamenode:严格说并不是namenode 备份节点,主要给namenode 分担压力之用从节点
Datanode:存储整个集群所有数据块,处理真正数据读写
3、HDFS优缺点
优点:
可以构建在廉价机器上,通过多副本,提高了容错和恢复机制