归档(archives)
hadoop归档是一个专用的格式. hadoop归档映射文件系统目录,归档总是用*.har做扩展名.归档目录包含元数据(用_index和_masterindex格式)和数据(part-*)文件. _index文件中包含这部分归档的文件内容和位置.
Usage: hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>
# 归档文件
hadoop archive -archiveName input.har –p /input /output
# 查看归档
hadoop fs -lsr //output/input.har(看到的索引等信息)
hadoop fs -lsr har:////output/input.har(看到的归档中的具体文件)
# 解归档文件
hdfs dfs -cp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
# 并发解压归档
hadoop distcp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
本文介绍了Hadoop归档(HAR)的使用方法,包括如何创建归档、查看归档内容以及如何解归档。Hadoop归档是一种将文件系统目录归档为.har文件的格式,适用于大数据存储场景。通过`hadoop archive`命令,你可以轻松地对目录进行归档和解归档,便于管理和检索数据。
513

被折叠的 条评论
为什么被折叠?



