hadoop归档命令archive

本文深入探讨Hadoop存档机制(Hadoop Archives),旨在解决大量小文件导致NameNode内存膨胀的问题。通过创建特殊格式的*.har存档文件,不仅维持了数据存储大小不变,还有效减少了NameNode的元数据负担。文章详细介绍了存档文件的结构、创建方法及如何使用Hadoop Archive命令。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

hadoop命令:archive
hadoop版本:2.6.0
官方链接:
https://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopArchives.html#Overview

一. 引

hadoop不适合小文件的存储,小文件本省就占用了很多的metadata,就会造成namenode越来越大。Hadoop Archives的出现视为了缓解大量小文件消耗namenode内存的问题。

采用ARCHIVE 不会减少 文件存储大小,只会压缩NAMENODE 的空间使用

二. 什么是存档文件

hadoop存档是特殊格式的存档。该文件总是带有*.har扩展名的目录。目录下包含元数据(_index和_masterindex)和数据部分(part-*)

三. hadoop archive命令

1. 创建一个存档文件

创建一个归档文件的过程是一个MR作业,创建时使用如下命令

hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>
  • name:指定存档文件名,其名应该以*.har为后缀。
  • -p :表示父目录,指定该参数后,后面的src可使用相对路径。dest使用相对路径时,其相对基础目录为计算用户目录而非-p指定的目录。
  • -r 指示所需的复制因子;如果未指定此可选参数,则使用10的复制因子。所谓复制因子即为map任务的个数。
  • src:源路径:可以指定指定一个,也可以指定多个,空格分隔
  • dest:目标路径:最后一个路径为存放路径。

举个栗子,执行以下命令:hadoop archive -D HADOOP_USER_NAME=ochadoop -archiveName test.har -p /zpy/test hive hvie表示打包后的文件名为test.har,源文件路径为/zpy/test/hive下的所有文件,目标路径为/user/ochadoop/hvie,复制因子为3。

源目录:
在这里插入图片描述

生成目录:
在这里插入图片描述
归档并不会删除源文件。

2. 查看har文件

har文件采用一套不同于hdfs的路径协议。基本格式为:har://<hdfs路径>。在未添加协议url时,我们看到的是har文件在HDFS中的底层形式,加上协议头后我们可以看到其目录结构与源目录结构相同。

hadoop fs -ls -R har:///user/ochadoop/hvie/test.har

在这里插入图片描述
针对har文件的复制等操作同普通复制操作,唯一区别在于需要在路径头加协议。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值