Hadoop 过滤,映射,谓词下推基本概念

最新推荐文章于 2025-02-01 13:26:49 发布

Mike_H

最新推荐文章于 2025-02-01 13:26:49 发布

阅读量8.8k

点赞数

分类专栏： MapReduce Parquet 文章标签： Data Serilization Parquet Avro

本文链接：https://blog.youkuaiyun.com/Mike_H/article/details/50147727

版权

MapReduce 同时被 2 个专栏收录

17 篇文章

订阅专栏

Parquet

16 篇文章

订阅专栏

本文介绍了Hadoop中Filter和Project的概念，强调它们在减少数据处理量中的作用，特别是在MapReduce中的执行位置。此外，文章探讨了Pushdowns，特别是针对Parquet格式如何通过谓词下推和映射下推提高Job性能。文中提出一个问题：在Hive中，谓词下推何时生效和失效，并提到了Hive对Inner Join的限制以及Cross Join的条件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天想跟大家讨论一下以下几个概念：Filter , Projections, 和 Puchdowns。

1. Filter（过滤）和 Project（映射）

在传统的 OLAP 系统中，在进行 Join 的时候使用过滤和映射会极大的提高性能。同样的，在 Hadoop 中使用 Filter 和 Projection 同样可以提高效率，由于减少了一个管道需要处理的数据量。在Hadoop中减少处理的数据量是至关重要的，尤其当需要通过网络和本地磁盘进行处理的时候。我们都知道，MapReduce 的shuffle 过程会将数据通过网络写入到磁盘中，所以拥有更少的数据就意味着Job 和 MapReduce 框架的工作量也就越少，这样Job的数据传输也会更快，CPU、磁盘、网络设备的压力也会减少。

使用 filters 和 projection 来减少数据大小

Filter 和 projections 最后靠近数据源进行执行；在MapReduce中，最好在mapper中执行。以下代码显示了一个排除30岁以下的用户，并且只映射他们的姓名和状态：
源码路径：https://github.com/Hanmourang/hiped2/blob/master/src/main/java/hip/ch6/joins/FilterProjection.java

  public static class JoinMap extends Mapper<LongWritable, Text, Text, Text> {
    @Override
    protected void map(LongWritable offset, Text value, Context context)
        throws IOException, InterruptedException {

      User user = User.fromText(value);
      if (user.getAge() >= 30) {
        context.write(new Text(user.getName()),
            new Text(user.getState()));
      }
    }
  }

在 Join 中使用 filter 需要注意的是，并不是所有连接的数据集都包含你需要过滤的字段。对于这种情况，你需要使用 Bloom filter 方法。该方法将会在后续的 Join 专题进行介绍。

1. Pushdowns

谓词下推（predicate pushdown）属于逻辑优化。优化器可以将谓词过滤下推到数据源，从而使物理执行跳过无关数据。在使用 Parquet 的情况下，更可能存在文件被整块跳过的情况，同时系统还通过字典编码把字符串对比转换为开销更小的整数对比。在关系型数据库中，谓词则被下推到外部数据库用以减少数据传输。
(上面内容摘抄于 Spark新年福音：一个用于大规模数据科学的API——DataFrame)
图片源于：微软发布的 PDW 分析系统
通过以下这张图，我们可以发现，谓词下推在逻辑层面可以理解为利用where 条件中的过滤条件将无用的数据进行筛选掉最终得到需要的行列。

投影和谓词下推通过对存储格式的映射和谓词的推送而进一步来进行过滤。针对 Parquet 这样的存储格式，我们可以直接跳过整个记录或者整个块，这样极大的提高了 Job 的性能并且减少了不必要的开销。

Format	Projection pushdown supported?	Predicate pushdown supported?
Text (CSV, JSON, etc.)	No	No
Protocol Buffers	No	No
Thrift	No	No
Avro	No	No
Parquet	Yes	Yes

这里需要注意的是，Avro 是基于行列的存储格式。

先介绍到这里，接下来会在 Parquet 专题中专门介绍如何利用 Parquet 文件格式来处理谓词下推和映射。
详细请参考：Parquet_1. 使用谓词下推和映射下推来优化 Job

这里有个问题大家有兴趣可以去研究一下：
Issue：在 Hive 中，谓词下推在什么情况会生效，什么情况下回失效？
参考blog ：谓词下推失效与生效 (本人觉得博主给出的情况可能与数据相关，会在之后进行测试，有兴趣的朋友可以先研究一下)
需要了解的：
1. 对 Inner Join 来说，Hive 只支持等值连接，不支持不等值连接。因为不等值连接在 MapReduce Job 转换起来很麻烦。
2. 虽然 Hive 不支持等值连接，但是在 Cross Join 和 Where条件中仍然可以使用。下面是 Cross Join发生的条件：