归档(archives)
hadoop归档是一个专用的格式. hadoop归档映射文件系统目录,归档总是用*.har做扩展名.归档目录包含元数据(用_index和_masterindex格式)和数据(part-*)文件. _index文件中包含这部分归档的文件内容和位置.
Usage: hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>
# 归档文件
hadoop archive -archiveName input.har –p /input /output
# 查看归档
hadoop fs -lsr //output/input.har(看到的索引等信息)
hadoop fs -lsr har:output/input.har(看到的归档中的具体文件)
# 解归档文件
hdfs dfs -cp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
# 并发解压归档
hadoop distcp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir