操作场景
默认情况下,HDFS NameNode自动选择DataNode保存数据的副本。在实际业务中,可能存在以下场景:
- DataNode上可能存在不同的存储设备,数据需要选择一个合适的存储设备分级存储数据。
- DataNode不同目录中的数据重要程度不同,数据需要根据目录标签选择一个合适的DataNode节点保存。
- DataNode集群使用了异构服务器,关键数据需要保存在具有高度可靠性的机架组中。
对系统的影响
配置HDFS数据存储策略需要重启服务,服务重启时无法访问。
前提条件
- 管理员已根据业务需要,规划数据存储的策略。
- 已安装HDFS客户端,请参见“管理员指南”中的“安装客户端”章节。
配置DataNode使用分级存储
HDFS的异构分级存储框架提供了RAM_DISK、DISK、ARCHIVE、SSD四种存储类型的存储设备,以对应DataNode上可能存在的不同的存储介质。
- RAM_DISK是一种由内存虚拟的硬盘,具有最高的读写性能。其容量受限于内存大小,通常容量很小,且掉电可能丢失数据。
- SSD即固态硬盘,具有较高的读写性能。但通常存储容量较小,单位存储成本比普通机械硬盘高。
- DISK即普通机械硬盘,是HDFS用于保存数据的主力存储类型。
- ARCHIVE类型代表高密度低成本的存储介质,读写性能相对较差,通常装配于计算能力较低的节点,用于大容量非热点数据存储。
通过对四种存储类型进行合理组合,即可形成适用于不同场景的存储策略。目前H