折腾了很久,被领导天天督促&指点,算是有个最基本的性能优化。
1. 背景介绍:
Hive使用hive-hbase-handler建立HBase external table。在hive查询包含count(*)、join、以及Predicate Pushdown等操作时,会调用MapReduce进行处理。本文旨在查询性能方面的优化,算是对工作中的一点记录。
优化主要分为两个方面:
1) HBase预分区以及hive–hbase-storage-handler的实现。
2) HBase参数调优。
2. 一些基本知识:
1) 对Map过程的基本理解:Map是将原始数据拆分成split,根据split启动Mapper。
2) Hadoop有两套API,一套是org.apache.hadoop.mapred,一套是org.apache.hadoop.mapreduce。前者是旧API,特点是底层基本类是接口,实现类需implements interface,而后者是新API,底层基本类是抽象类,实现类需extends abstractClass。
3) hive的hive-storage-handler,使用的是旧mapred API。在handler中,需指定实现org.apache.hadoop.mapred.InputFormat
接口。
3. org.apache.hadoop.mapred.InputFormat详解
简单来说,InputFormat 主要用于描述输入数据的格式,提供了以下两个功能:
1) 数据切分,按照某个策略将输入数据且分成若干个 split,以便确定 Map Task 的个数即 Mapper 的个数ÿ