【无标题】

最新推荐文章于 2023-07-24 10:16:48 发布

转载最新推荐文章于 2023-07-24 10:16:48 发布 · 291 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/qq_35745940/article/details/126443258

文章标签：

#hadoop #大数据 #hdfs

大数据专栏收录该内容

4 篇文章

订阅专栏

转载摘录自：《大数据Hadoop之——HDFS小文件问题与处理实战操作》

大数据Hadoop之——HDFS小文件问题与处理实战操作_大数据老司机的博客-优快云博客

文件块大小设置

同样对于如何设置每个文件块的大小，官方给出了这样的建议：

在这里插入图片描述

所以对于块大小的设置既不能太大，也不能太小，太大会使得传输时间加长，程序在处理这块数据时会变得非常慢，如果文件块的大小太小的话会增加每一个块的寻址时间。所以文件块的大小设置取决于磁盘的传输速率。

二、HDFS小文件问题处理方案

在这里插入图片描述

HDFS中文件上传会经常有小文件的问题，每个块大小会有150字节的大小的元数据存储namenode中，如果过多的小文件每个小文件都没有到达设定的块大小，都会有对应的150字节的元数据，这对namenode资源浪费很严重，同时对数据处理也会增加读取时间。对于小文件问题，Hadoop本身也提供了几个解决方案，分别为：Hadoop Archive，Sequence file和CombineFileInputFormat，除了hadoop本身提供的方案，当然还有其它的方案，下面会详细讲解。

Hadoop Archive（HAR）
Hadoop Archive（HAR）是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件打包成一个HAR文件，这样在减少namenode内存使用的同时，仍然允许对文件进行透明的访问。

【示例】对某个目录/foo/bar下的所有小文件存档成/outputdir/zoo.har：

hadoop archive -archiveName foo.har -p /foo/bar /outputdir
1
当然，也可以指定HAR的大小(使用-Dhar.block.size)。

HAR是在Hadoop file system之上的一个文件系统，因此所有fs shell命令对HAR文件均可用，只不过是文件路径格式不一样，HAR的访问路径可以是以下两种格式：

# scheme-hostname格式为hdfs-域名:端口，如果没有提供scheme-hostname，它会使用默认的文件系统。这种情况下URI是这种形式：
har://scheme-hostname:port/archivepath/fileinarchive

har:///archivepath/fileinarchive
1
2
3
4
可以这样查看HAR文件存档中的文件：

hdfs dfs -ls har:///user/zoo/foo.har

输出：

har:///user/zoo/foo.har/hadoop/dir1

har:///user/zoo/foo.har/hadoop/dir2
1
2
3
4
5
6
7
使用HAR时需要注意两点：

对小文件进行存档后，原文件并不会自动被删除，需要用户自己删除；
创建HAR文件的过程实际上是在运行一个mapreduce作业，因而需要有一个hadoop集群运行此命令。
此外，HAR还有一些缺陷：

一旦创建，Archives便不可改变。要增加或移除里面的文件，必须重新创建归档文件。
要归档的文件名中不能有空格，否则会抛出异常，可以将空格用其他符号替换(使用-Dhar.space.replacement.enable=true 和-Dhar.space.replacement参数)。
不支持修改

--------------------------------------

Archive注意事项：

Hadoop archives是特殊的档案格式, 扩展名是*.har；
创建archives本质是运行一个Map/Reduce任务，所以应该在Hadoop集群运行创建档案的命令；
创建archive文件要消耗和原文件一样多的硬盘空间；
archive文件不支持压缩；
archive文件一旦创建就无法改变，要修改的话，需要创建新的archive文件；
当创建archive时，源文件不会被更改或删除；
------------------------------------------
2）Sequence file
Sequence file由一系列的二进制key/value组成，如果为key小文件名，value为文件内容，则可以将大批小文件合并成一个大文件。
Hadoop-0.21.0中提供了SequenceFile，包括Writer，Reader和SequenceFileSorter类进行写，读和排序操作。如果hadoop版本低于0.21.0的版本。

和 HAR 不同的是，这种方式还支持压缩。该方案对于小文件的存取都比较自由，不限制用户和文件的多少，但是 SequenceFile 文件不能追加写入，适用于一次性写入大量小文件的操作。也是不支持修改的。

3）CombineFileInputFormat
CombineFileInputFormat是一种新的inputformat，用于将多个文件合并成一个单独的split，在map和reduce处理之前组合小文件。

4）开启JVM重用
有小文件场景时开启JVM重用；如果没有产生小文件，不要开启JVM重用，因为会一直占用使用到的task卡槽，直到任务完成才释放。
JVM重用可以使得JVM实例在同一个job中重新使用N次，N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间。

<property>
<name>mapreduce.job.jvm.numtasks</name>
<value>10</value>
<description>How many tasks to run per jvm,if set to -1 ,there is no limit</description>
</property>
1
2
3
4
5
5）合并本地的小文件，上传到 HDFS（appendToFile ）
将本地的多个小文件，上传到 HDFS，可以通过 HDFS 客户端的 appendToFile 命令对小文件进行合并。

6）合并 HDFS 的小文件，下载到本地（getmerge）
可以通过 HDFS 客户端的 getmerge 命令，将很多小文件合并成一个大文件，然后下载到本地。

————————————————
版权声明：本文为优快云博主「大数据老司机」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.youkuaiyun.com/qq_35745940/article/details/126443258