Hadoop的Archive归档命令

Hadoop存档(HadoopArchives)旨在解决大量小文件导致NameNode内存膨胀的问题。通过将多个小文件打包成特殊的Hadoop存档格式(*.har),可以显著减少元数据占用,但不会减小实际存储大小。此过程不改变数据文件,仅压缩NameNode的元数据存储空间。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

hadoop不适合小文件的存储,小文件本省就占用了很多的metadata,就会造成namenode越来越大。Hadoop Archives的出现视为了缓解大量小文件消耗namenode内存的问题。

采用ARCHIVE 不会减少 文件存储大小,只会压缩NAMENODE 的空间使用
概述
Hadoop存档是特殊格式的存档。Hadoop存档映射到文件系统目录。Hadoop归档文件总是带有* .har扩展名

Hadoop存档目录包含元数据(采用_index和_masterindex形式)

数据部分data(part- *)文件。

_index文件包含归档文件的名称和部分文件中的位置。
在这里插入图片描述

如下:原始文件 四个文件
在这里插入图片描述
经过hadoop archive之后:

执行的命令是:hadoop archive -archiveName words.har -p /words -r 1 /wordhar

生成的文件在/wordhar/words.har
在这里插入图片描述
执行该命令后,原输入文件不会被删除,需要手动删除

hadoop fs -rmr /words

其中part-0是数据文件

在mapreduce中,会忽略以下划线开头的文件,也就是说上图的_SUCCESS,_index,_masterindex是不会处理的

那么这样一来就只会处理数据文件part-0

job设置的输入路径是
在这里插入图片描述
运行mapreduce中执行的map数量是1

分片为一个
在这里插入图片描述
map数量为一个
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值