元数据管理
- 元数据存储在NN当中
- 提供客户端虚拟的访问目录
- 数据切块信息 副本个数 物理块的位置
- 物理块的描述信息 起始位置 大小
副本存放策略的作用
HDFS作为Hadoop中的一个分布式文件系统,专门为它的MapReduce设计,所以HDFS除了满足自己作为分布式文件系统的高可用外,还必须为MapReduce提供高效的读写性能,那么HDFS该如何满足这些呢?
首先,HDFS将每一个文件的数据进行分块存储,同时每一个数据块又保存又多个副本,这些数据块副本存储在不同的机器上,这种数据分块存储和副本的策略是HDFS保证可靠性和性能的关键,主要原因是:
(1)文件分块存储之后按照数据块来读,提高了文件随机读的效率和并发读的效率;
(2)保存数据块若干副本到不同弄的机器节点实现可靠性的同时也提高的同一数据块的并发读的效率;
(3)数据分块是非常切合MapReduce中任务切分的思想.
所以说,副本的存放策略是HDFS实现高可靠性和高性能的关键.