鄙人最近准备离职,所以把之前工作中积累的一些东西整理下发上来,其中一部分发在公司内刊上,一部分是组内交流文档,标“原创”的都是本人原创,转载请注明谢谢!
Impala这个东西在我们实践应用中还是不错的,查询速度可以,就是稳定性一般,做好监控的话没有问题。我们装的是配套CDH5u3的2.1版本,装其他版本不是不可以,只不过cloudera不保证一定可用,需要自己解决一些坑,如果有明确需求要使用新特性的,就装最新版本。比如CDH5u3配套的Spark是1.2,但我们自己装的就是1.6的。本篇提供的安装方法是基于rpm的,缺点是需要装一堆依赖的东西(如hadoop等即使你已有但不是通过rpm装的),从官网下源码独立装也可以。另外里面的IP是我们自己集群的IP,需换成读者自己的。
参考文档:
http://www.cloudera.com/content/cloudera/en/documentation/cloudera-impala/latest/topics/impala_noncm_installation.html
http://blog.youkuaiyun.com/zhong_han_jun/article/details/45563505
1、下载impala软件包
要下载和hadoop主版本匹配的包,我们应下CDH5.3适用的包
http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.3.0/
下完后,可以在本地构建yum源来安装,也可以拷到每台机器后直接rpm安装,这里采用的是后一种方式。
]
2、impala主机包分发
这里把impala-state-store和impala-catalog所在的机器称为impala主机。参考文献中impala主机用的是namenode,考虑到namenode内存占用可能会比较大,我们没有选择namenode,而是选择10.100.10.15。
将下载的软件包中除impala-server-2.1.0+cdh5.3.0+0-1.cdh5.3.0.p0.32.el6.x86_64.rpm和impala-shell-2.1.0+cdh5.3.0+0-1.cdh5.3.0.p0.32.el6.x86_64.rpm的其余软件包拷贝到此机器的/software/impala/下。
3、impala从机包分发
这里把impala-server和impala-shell所在的机器称为impala从机,除10.100.10.15以外的所有datanode都当作从机。
将下载的软件包中除impala-state-store-2.1.0+cdh5.3.0+0-1.cdh5.3.0.p0.32.el6.x86_64.rpm和impala-catalog-2.1.0+cdh5.3.0+0-1.cdh5.3.0.p0.32.el6.x86_64.rpm的其余软件包拷贝到此机器的/software/impala/下。
以下4-6步需要在所有主机、从机上执行:
4、安装软件包