Impala简明调优手册

Impala是Cloudera开发、开源的一个原生于Hadoop的交互式SQL引擎。本身Impala的出现并不是为了替代Hive、Pig等现有的、常用的ETL工具。实用的场景往往于商业智能密不可分,比如对数据进行聚合(Aggregation)、做一些简单的分析统计(比如window function),通过JDBC/ODBC,集成到当今流行的BI工具中,例如Tableau等等。


这篇博文主要来探讨下关于Impala日常使用过程中的需要注意的点,不得不强调的是对于SQL的运行,一方面我们的确需要关注SQL本身的执行性能,比如多久可以执行完毕;但是,SQL的并发更是一个关键的考察点,毕竟我相信对于大部分生产上的集群,用户不止一位,任务也不止一个。另外,随着服务器标配的内存数日益增长,128GB、256GB的机器屡见不鲜,对于如何更加高效使用CPU会成为下一个热点 (CPU Efficiency)。

1. 使用Parquet
这一步一般是默认需要做的,在Impala中,定义Parquet格式数据表的示例:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值