1. 什么是 Hadoop Archives?
Hadoop Archives 是一种特殊的归档格式。Hadoop Archive 对应一个文件系统目录,扩展名为 *.har
。Hadoop Archive 目录下包含元数据(形式是 _index
和 _masterindx
)和数据(part)文件。index
文件包含了归档中文件的文件名和位置信息。
2. 如何创建归档文件
具体语法如下所示:
hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>
参数说明:
-
-archiveName name
参数指定你要创建归档的名字name
。比如user_order.har
,扩展名必须为*.har
。 -
-p <parent>
参数指定待归档文件的父路径。例如,-p /a a1 a2
。这里的/a
是 <