Cloudera Impala 初体验

Cloudera发布了Impala0.1beta版,对比测试显示其性能优于Hive,但在测试过程中发现存在多个BUG。Impala通过采用MPP方案提供更高效的执行计划,尤其是在多表join操作上。然而,当前版本仍存在问题,如不支持external table,且集成和商用价值有限。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

李智慧


上周Cloudera发布其实时查询开源项目Impala 0.1beta版,部署了一个4台机器的集群,对比测试了下Hive和Impala,Impala性能确实有很大改善,但是测试过程中遭遇各种BUG、各种crash,当前版本仅仅是一个toy。


测试数据

https://github.com/intel-hadoop/HiBench

使用了hivebench中join case

但是impala不支持external table,复杂join异常,做了很多简化和改造。


select count(*) from rankings;

1320000


 select count(*) from uservisits;

14400000


SELECT sourceIP FROM rankings R JOIN  uservisits UV on (R.pageURL = UV.destURL) limit 1;
impala 17s

hive 53s


select count(*) from uservisits;
impala about 1s
hive 20s


Impala为什么这么快?

  1. 不同于Hive需要启动MapReduce任务执行查询计划(上面例子,Hive启动了4个MapReduce Job),Impala使用类似Greenplum的MPP方案,可以创建更高效的执行计划,特别在多表join的时候。
  2. Impala使用和dataNode部署在一起的impalad进程响应执行计划,操作本地数据,数据访问和任务启动更迅速。
  3. Impalad守护进程把jioin的数据都加载到内存中操作(可能会导致内存溢出)
  4. Impala更有效的使用了越来越快的网络带宽
  5. 纯粹的聚合操作,Impala更有优势(除最终汇总,无数据传输,全部local操作)
Impala当前版本的一些问题
  1. 和Hive集成,Impala需要使用Hive的Metadata数据库,create table这些操作需要在hive中完成。(官方的说法,这样可以更好的利用Hive验证Impala,”如果你不能消除一个缺点,你就把它表述成一个优点“)
  2. Bug不少,无商用价值
  3. 只能安装在RHEL6.2 CDH4.1

只要Cloudera对Impala下工夫,Impala成为Hive和Greenplum的替代方案是迟早的事。等着瞧热闹。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值