Parquet_1. 使用谓词下推和映射来优化 Job

本文探讨了使用谓词下推和映射下推在Parquet文件中提高查询效率的方法。通过将这些操作推送到存储格式,可以避免处理无关列,从而提升时间和空间效率。在Hadoop管道中的应用示例展示了如何实现这一优化。
文章中涉及的Github源码 : https://github.com/Hanmourang/hiped2/blob/master/src/main/java/hip/ch3/parquet/AvroProjectionParquetMapReduce.java.

映射下推[projectoin pushdown]和谓词下推[predicates pushdown]包括一个执行引擎,用来将映射和谓词推送到存储格式中以便于在底层尽可能来优化操作。结果就是提高了时间和空间上的效率,由于与查询无关的列都会被摒弃,并且不需要提供给执行引擎。

这对柱状存储无疑是非常有效的,因为 Pushdown 允许存储格式跳过整个与查询无关的列组,并且柱状存储格式操作起来也更加高效。

接下来我们将看看如果在 Hadoop 管道中使用 Pushdown。

在编码之前,你需要在 Hive 和 Pig 中启动对 Parquet 提供的开箱即用的投影/映射下推。在 MapReduce 程序中,有些手动操作你需要加入到 Driver 代码中来启动下推操作。从下面的高亮部分可以看到具体操作。
Hive --> Predicates [set hive.optimize.ppd = true; ]
Pig   --> Projectoin [  以后补充]


具体代码实现如下:

package hip.ch3.parquet;

import com.google.common.collect.Lists;
import hip.ch3.avro.gen.Stock;
import hip.ch3.avro.gen.StockAvg;
import hip.util.Cli;
import hip.util.CliCommonOpts;
import org.apache.avro.Schema;
import org.apache.commons.math.stat.descriptive.moment.Mean;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import parquet.avro.AvroParquetInputFormat;
import parquet.avro.AvroParquetOutputFormat;
import parquet.column.ColumnReader;
import parquet.filter.ColumnPredicates;
import parquet.filter.ColumnRecordFilter;
import parquet.filter.RecordFilter;
import parquet.filter.UnboundRecordFilter;

import java.io.IOException;
import java.util.List;

public class AvroProjectionParquetMapReduce extends Configured implements Tool {

  /**
   * Main entry point for the example.
   *
   * @param args arguments
   * @throws Exception when something goes wrong
   */
  public static void main(final String[] args) throws Exception {
    int res = ToolRunner.run(new Configuration(), new AvroProjectionParquetMapReduce(), args);
    System.exit(res);
  }

  /**
   * The MapReduce driver - setup and launch the job.
   *
   * @param args the command-line arguments
   * @return the process exit code
   * @throws Exception if something goes wrong
   */
  public int run(final String[] args) throws Exception {

    Cli cli = Cli.builder().setArgs(args).addOptions(CliCommonOpts.MrIoOpts.values()).build();
    int result = cli.runCmd();

    if (result != 0) {
      return result;
    }

    Path inputPath = new Path(cli.getArgValueAsString(CliCommonOpts.MrIoOpts.INPUT));
    Path outputPath = new Path(cli.getArgValueAsString(CliCommonOpts.MrIoOpts.OUTPUT));

    Configuration conf = super.getConf();

    Job job = new Job(conf);
    job.setJarByClass(AvroProjectionParquetMapReduce.class);

    job.setInputFormatClass(AvroParquetInputFormat.class);
    AvroParquetInputFormat.setInputPaths(job, inputPath);

    // 为 Job 设置谓词下推 [predicate pushdown]
    <span style="background-color: rgb(51, 255, 51);">AvroParquetInputFormat.setUnboundRecordFilter(job, GoogleStockFilter.class);</span>

    // 基于原始的schema来为 映射[projection] 定义一个新的 schema
    Schema projection = Schema.createRecord(Stock.SCHEMA$.getName(),
        Stock.SCHEMA$.getDoc(), Stock.SCHEMA$.getNamespace(), false);
    List<Schema.Field> fields = Lists.newArrayList();
    for (Schema.Field field : Stock.SCHEMA$.getFields()) {
      if ("symbol".equals(field.name()) || "open".equals(field.name())) {  // 只将股票代码和开盘价格映射输出
        fields.add(new Schema.Field(field.name(), field.schema(), field.doc(),
            field.defaultValue(), field.order()));
      }
    }
    projection.setFields(fields);
    <span style="background-color: rgb(51, 255, 51);">AvroParquetInputFormat.setRequestedProjection(job, projection); </span>       // 为 Job 设置映射[projection]


    job.setMapperClass(Map.class);
    job.setReducerClass(Reduce.class);

    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(DoubleWritable.class);

    job.setOutputFormatClass(AvroParquetOutputFormat.class);
    FileOutputFormat.setOutputPath(job, outputPath);
    AvroParquetOutputFormat.setSchema(job, StockAvg.SCHEMA$);

    return job.waitForCompletion(true) ? 0 : 1;
  }
// 创建一个继承 predicate 的类
  public static class GoogleStockFilter implements UnboundRecordFilter {

    private final UnboundRecordFilter filter;

    public GoogleStockFilter() {
      filter = ColumnRecordFilter.column("symbol", ColumnPredicates.equalTo("GOOG"));  // 定义一个过滤谓词,用来过滤出股票代码等于“GOOG”
    }

    @Override
    public RecordFilter bind(Iterable<ColumnReader> readers) {
      return filter.bind(readers);
    }
  }

  public static class Map extends Mapper<Void, Stock, Text, DoubleWritable> {   // 最初的 Stock 对象依旧提供给了 mapper

    @Override
    public void map(Void key,
                    Stock value,
                    Context context) throws IOException, InterruptedException {
      // 检查 null 值,避免记录因为谓词下推而被过滤掉 
      if (value != null) {      
        context.write(new Text(value.getSymbol().toString()),
            new DoubleWritable(value.getOpen()));   // 映射操作使得最后只有股票和开盘价格导出,其他字段为null
      }
    }
  }

  public static class Reduce extends Reducer<Text, DoubleWritable, Void, StockAvg> {

    @Override
    protected void reduce(Text key, Iterable<DoubleWritable> values, Context context) throws IOException, InterruptedException {
      Mean mean = new Mean();
      for (DoubleWritable val : values) {
        mean.increment(val.get());
      }
      StockAvg avg = new StockAvg();
      avg.setSymbol(key.toString());
      avg.setAvg(mean.getResult());
      context.write(null, avg);
    }
  }
}


运作上面的代码,可以看到股票代码为 'GOOG' 的股票平均值:

$ hip hip.ch3.parquet.AvroProjectionParquetMapReduce \
    --input stocks.parquet \
    --output output

$ hip --nolib parquet.tools.Main cat output/part-r-00000.parquet
symbol = GOOG
avg = 417.47799999999995


一、存储 PB 级环境监测数据的性能优化方案 技术工具:Hadoop 3.x 功能:分布式存储与资源管理 1.数据存储架构优化 为高效存储 PB 级环境监测数据,在原有 Hadoop 集群架构基础上,采用分层存储策略。将高频访问的实时监测数据近期预测数据存储于 HDFS 的高速存储层,选用 SSD 硬盘作为存储介质,利用其快速读写特性,满足实时监测与短期预测对数据读取速度的严格要求。对于历史监测数据等低频访问数据,则迁移至 HDFS 的大容量存储层,使用 HDD 硬盘降低存储成本。同时,通过Hadoop的异构存储管理功能,实现不同存储层之间的数据自动分层与迁移,在保证性能的前提下,优化存储资源利用率。 (1)异构存储配置实现 Hadoop 3.x 支持异构存储策略,通过配Storage Policy可自动管理数据分层。在hdfs-site.xml中添加以下配置: <property> <name>dfs.storage.policy.enabled</name> <value>true</value> </property> <property> <name>dfs.storage.policy.names</name> <value>LAZY_PERSIST, ALL_SSD, ONE_SSD, HOT, WARM, COLD, ALL_DISK</value> </property> 创建存储策略映射表,将不同类型数据分配到对应存储层: # 为实时数据设置SSD存储策略 hdfs storagepolicies -setStoragePolicy -path /air_quality/real_time -policy ALL_SSD # 为历史数据设置HDD存储策略 hdfs storagepolicies -setStoragePolicy -path /air_quality/historical -policy COLD (2)自动分层迁移脚本 编写定期执行的数据分层迁移脚本,将超过 30 天的历史数据自动迁移至冷存储层: #!/usr/bin/env python3 import subprocess import datetime import logging logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(message)s') def migrate_old_data(days_threshold=30): cutoff_date = (datetime.datetime.now() - datetime.timedelta(days=days_threshold)).strftime('%Y-%m-%d') # 获取所有超过阈值的文件 cmd = f"hdfs dfs -find /air_quality/data -type f -mtime +{days_threshold}" files = subprocess.check_output(cmd, shell=True).decode().strip().split('\n') for file in files: # 检查文件当前存储策略 policy = subprocess.check_output(f"hdfs storagepolicies -getStoragePolicy -path {file}", shell=True).decode().strip() # 如果不是冷存储策略,则迁移 if "COLD" not in policy: logging.info(f"Migrating {file} to COLD storage") subprocess.run(f"hdfs storagepolicies -setStoragePolicy -path {file} -policy COLD", shell=True) if __name__ == "__main__": migrate_old_data() 2.数据压缩与编码 在数据写入 HDFS 前,应用高效的数据压缩算法与编码技术。针对空气质量监测数据的特点,采用 Snappy 压缩算法,该算法在提供较高压缩比的同时,具备极快的压缩解压缩速度,能够显著减少数据存储空间,降低数据传输过程中的网络带宽消耗。此外,对数值型的污染物浓度等数据,运用列式存储与 Run - Length Encoding(行程长度编码)相结合的方式,进一步提升数据压缩效果,加速数据分析与查询操作,为 PB 级数据的高效处理提供支持。 (1)压缩算法配置 在 Hadoop 集群中配置 Snappy 压缩算法,修改mapred-site.xml: <property> <name>mapreduce.map.output.compress</name> <value>true</value> </property> <property> <name>mapreduce.map.output.compress.codec</name> <value>org.apache.hadoop.io.compress.SnappyCodec</value> </property> <property> <name>mapreduce.output.fileoutputformat.compress</name> <value>true</value> </property> <property> <name>mapreduce.output.fileoutputformat.compress.codec</name> <value>org.apache.hadoop.io.compress.SnappyCodec</value> </property> (2)列式存储与编码实现 使用 Parquet 列式存储格式处理数值型监测数据,配置示例: from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("AirQualityDataProcessing") \ .getOrCreate() # 读取原始数据 df = spark.read.csv("/air_quality/raw_data/*.csv", header=True) # 应用RLE编码并存储为Parquet格式 df.write \ .option("compression", "snappy") \ .option("parquet.enable.dictionary", "true") \ .option("parquet.page.size", 1048576) \ .parquet("/air_quality/processed_data") 3.集群扩展与负载均衡 随着环境监测数据量的持续增长,制定动态集群扩展策略。当集群存储利用率达到预设阈值(如 80%)时,自动添加新的 DataNode 节点。通过 Hadoop 的自动发现机制,新节点能够快速加入集群,并自动同步元数据与数据块,实现无缝扩展。同时,优化 YARN 资源管理器的负载均衡算法,根据各节点的 CPU、内存、磁盘 I/O 等资源使用情况,动态分配任务,避免部分节点负载过高而影响整体性能,确保集群在处理 PB 级数据时始终保持高效稳定运行。 (1)动态扩缩容脚本 实现基于存储利用率的自动扩缩容机制: #!/usr/bin/env python3 import subprocess import json import logging import requests logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(message)s') # 阈值配置 STORAGE_THRESHOLD = 0.8 # 80%使用率触发扩容 INSTANCE_TEMPLATE = "hadoop-datanode-template" MAX_NODES = 50 def get_cluster_usage(): # 获取HDFS集群使用情况 cmd = "hdfs dfsadmin -report" output = subprocess.check_output(cmd, shell=True).decode() # 解析输出获取使用百分比 for line in output.split('\n'): if "DFS Used%" in line: usage = float(line.split(':')[1].strip().replace('%', '')) / 100 return usage return 0.0 def scale_cluster(): usage = get_cluster_usage() logging.info(f"Current cluster usage: {usage:.2%}") # 获取当前节点数 cmd = "hdfs dfsadmin -report | grep 'Live datanodes' | awk '{print $3}'" current_nodes = int(subprocess.check_output(cmd, shell=True).decode().strip()) if usage > STORAGE_THRESHOLD and current_nodes < MAX_NODES: # 计算需要添加的节点数 nodes_to_add = min(5, MAX_NODES - current_nodes) logging.info(f"Adding {nodes_to_add} new datanodes...") # 使用GCP Compute Engine API添加节点 cmd = f"gcloud compute instance-groups managed resize hadoop-datanodes --size={current_nodes + nodes_to_add}" subprocess.run(cmd, shell=True) # 等待节点加入集群 logging.info("Waiting for new nodes to join the cluster...") # 实际应用中应添加等待节点就绪的逻辑 if __name__ == "__main__": scale_cluster() (2)资源调度优化配置 在yarn-site.xml中优化资源调度配置: <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value> </property> <property> <name>yarn.scheduler.capacity.root.queues</name> <value>air_quality, batch, default</value> </property> <property> <name>yarn.scheduler.capacity.root.air_quality.capacity</name> <value>60</value> </property> <property> <name>yarn.scheduler.capacity.root.air_quality.maximum-capacity</name> <value>80</value> </property> <property> <name>yarn.scheduler.capacity.resource-calculator</name> <value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value> </property> 三、方案实施效果评估与总结 1.性能评估 通过模拟 PB 级环境监测数据的写入、存储查询操作,对存储方案的性能进行全面评估。在数据写入方面,测试不同数据规模下的写入速度与吞吐量,验证数据压缩集群扩展策略对写入性能的提升效果;在数据查询环节,针对常见的空气质量指标查询、历史数据统计分析等场景,测量查询响应时间,评估数据编码负载均衡优化对查询性能的影响。将评估结果与预设的性能指标进行对比,分析方案在处理 PB 级数据时的优势与不足,为后续优化提供依据。 (1)基准测试脚本 使用 Terasort 基准测试评估 HDFS 性能: #!/bin/bash # 配置测试参数 SIZE=10000000000 # 10GB数据 NUM_MAPS=20 NUM_REDS=5 INPUT_DIR=/benchmarks/terasort/input OUTPUT_DIR=/benchmarks/terasort/output RESULT_FILE=~/terasort_results.txt # 生成测试数据 echo "Generating test data..." hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen -Dmapred.map.tasks=$NUM_MAPS $SIZE $INPUT_DIR # 执行排序测试 echo "Running terasort benchmark..." START_TIME=$(date +%s) hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar terasort -Dmapred.map.tasks=$NUM_MAPS -Dmapred.reduce.tasks=$NUM_REDS $INPUT_DIR $OUTPUT_DIR END_TIME=$(date +%s) # 计算并保存结果 ELAPSED_TIME=$((END_TIME - START_TIME)) echo "Terasort completed in $ELAPSED_TIME seconds" > $RESULT_FILE # 验证结果 echo "Validating results..." hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teravalidate $OUTPUT_DIR $OUTPUT_DIR/validate # 清理测试数据 echo "Cleaning up..." hdfs dfs -rm -r -f $INPUT_DIR $OUTPUT_DIR (2)性能监控配置 配置 Ganglia 监控 Hadoop 集群性能: # gmetad.conf配置 data_source "hadoop_cluster" namenode1:8651 datanode1:8651 datanode2:8651 # gmond.conf配置示例 cluster { name = "hadoop_cluster" owner = "AirQualitySystem" latlong = "unknown" url = "unknown"} udp_send_channel { host = namenode1 port = 8649 ttl = 1} udp_recv_channel { port = 8649} tcp_accept_channel { port = 8651 } 2.总结 性能优化成果:通过实施上述优化方案,系统性能提升显著 存储效率:通过分层存储压缩技术,存储成本降低 40%,存储容量利用率提升至 85% 处理速度:实时数据查询响应时间从平均 2.5 秒降至 0.8 秒,提升 68% 扩展性:动态扩缩容机制使集群可在 15 分钟内完成 5 节点扩展,满足突发数据增长需求 生成关于以上内容的代码运行截图。
06-12
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值