Hive查询HBase调用MapReduce性能优化

折腾了很久,被领导天天督促&指点,算是有个最基本的性能优化。

1. 背景介绍:

Hive使用hive-hbase-handler建立HBase external table。在hive查询包含count(*)、join、以及Predicate Pushdown等操作时,会调用MapReduce进行处理。本文旨在查询性能方面的优化,算是对工作中的一点记录。

优化主要分为两个方面:
1) HBase预分区以及hive–hbase-storage-handler的实现。
2) HBase参数调优。

2. 一些基本知识:

1) 对Map过程的基本理解:Map是将原始数据拆分成split,根据split启动Mapper。
2) Hadoop有两套API,一套是org.apache.hadoop.mapred,一套是org.apache.hadoop.mapreduce。前者是旧API,特点是底层基本类是接口,实现类需implements interface,而后者是新API,底层基本类是抽象类,实现类需extends abstractClass。
3) hive的hive-storage-handler,使用的是旧mapred API。在handler中,需指定实现org.apache.hadoop.mapred.InputFormat 接口。

3. org.apache.hadoop.mapred.InputFormat详解

简单来说,InputFormat 主要用于描述输入数据的格式,提供了以下两个功能:
1) 数据切分,按照某个策略将输入数据且分成若干个 split,以便确定 Map Task 的个数即 Mapper 的个数ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值