从源码看Spark读取Hive表数据小文件和分块的问题

最新推荐文章于 2024-08-29 10:31:37 发布

原创

最新推荐文章于 2024-08-29 10:31:37 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

本文深入探讨了Spark如何读取Hive表数据时Task数量过多的问题，原因在于小文件和Hadoop的FileSplit策略。分析表明，即使尝试通过repartition调整分区数，也无法解决小文件问题。解决问题的关键在于理解Split和Block的区别，以及相关参数如`mapreduce.input.fileinputformat.split.minsize`等的影响。建议在数据写入时控制reduce任务以避免小文件的产生。

原文链接：https://mp.youkuaiyun.com/postedit/82423831

使用Spark进行数据分析和计算早已成趋势，你是否关注过读取一张Hive表时Task数为什么是那么多呢?它跟什么有关系呢? 最近刚好碰到这个问题，而之前对此有些模糊，所以做了些整理，希望大家拍砖探讨

前言

有同事问到，Spark读取一张Hive表的数据Task有一万多个，看了Hive表分区下都是3MB~4MB的小文件，每个Task只处理这么小的文件，实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定，所以他想通过repartition(num)的方式来改变分区数，结果发现读取文件的时候Task数并没有改变。遂问我有什么参数可以设置，从而改变读取Hive表时的Task数，将小文件合并大文件读上来

> 本文涉及源码基于Spark2.0.0和Hadoop2.6.0，不同版本代码可能不一致，需自己对应。此外针对TextInputFormat格式的Hive表，其他格式的比如Parquet有Spark自己的高效实现，不在讨论范围之内

分析

Spark读取Hive表是通过HadoopRDD扫描上来的，具体可见 org.apache.spark.sql.hive.TableReader类，构建HadoopRDD的代码如下

val rdd = new HadoopRDD(
sparkSession.sparkContext,
_broadcastedHadoopConf.asInstanceOf[Broadcast[SerializableConfiguration]],
Some(initializeJobConfFunc),
inputFormatClass,
classOf[Writable],
classOf[Writable],
_minSplitsPerRDD)

这里inputFormatClass是Hive创建时指定的，默认不指定为 org.apache.hadoop.mapred.TextInputFormat，由它就涉及到了HDFS文件的FileSplit数，从而决定了上层Spark的partition数。在进入HadoopRDD类查看之前，还有一个参数需要我们注意，就是 _minSplitsPerRDD，它在后面SplitSize的计算中是起了作用的。

我们看一下它的定义

private val _minSplitsPerRDD = if (sparkSession.sparkContext.isLocal) {
0 // will splitted based on block by default.
} else {
math.max(hadoopConf.getInt("mapred.map.tasks", 1),
sparkSession.sparkContext

最低0.47元/天解锁文章