还需继续abc,这节学习安装使用impala
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。
下载安装网址: http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.16.1/
centos7最好是使用yum安装,可以自动安装依赖的包,因为impala安装依赖的包较多,还要注意依赖包的版本一致
1.修改 yum源
建立文件 /etc/yum.repos.d/impala.repo
[root@centos7 yum.repos.d]# cat impala.repo
#impala
[impala]
name=impala-rpm
baseurl=http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.16.1
gpgcheck=0
repo_gpgcheck=0
enabled=1
2.安装,有如下四个服务组件
yum install -y impala
yum install -y impala-server
yum install -y impala-state-store
yum install -y impala-catalog
yum install -y impala-shell
3.显示需要安装的包
4.配置,目录在/etc/impala,把 hdfs-site.xml,core-site.xml,hive-site.xml,hbase-site.xml 从 hadoop,hivs,hbase的conf目录复制到/etc/impala/conf目录
修改hdfs-site.xml,增加
<property> <name>dfs.client.read.shortcircuit</name> <value>true</value> </property> <property> <name>dfs.domain.socket.path</name> <value>/var/run/hadoop-hdfs/dn._PORT</value> </property> <property> <name>dfs.datanode.hdfs-blocks-metadata.enabled</name> <value>true</value> </property> <property> <name>dfs.client.file-block-storage-locations.timeout</name> <value>10000</value> </property>
5.启动impala
systemctl start statestored
systemctl start impala-catalog
systemctl start impala-server
6.因为我的系统里依赖包都安装好了,但版本不一致,我这里是cdh5.16.0的包,而yum安装系统识别的是5.16.1,意味着所有包都要重装新版本,并重新配置,当然,另外一个办法是安装新的虚拟机,整套按这个自动安装后重新每个依赖组件配置。
7.安装好后,即可进行测试,因为我在上个cloudera的集成安装里已经安装好了一个集成,就先用它测试一下
8. impala-shell
impala-shell 可以单独安装在任何一个客户端,并可以连接到运行 impala的任一台服务器,无需一定要连接到impala-server的服务器
impala 的表存储依赖hive,因此hdfs,hive启动后才能使用
9.通过impala安装提供的web界面监控impala
10. 也可以通过hue集成界面监控及操作
关于impala 的使用,参考如下网址:
https://www.w3cschool.cn/impala/impala_create_table_statement.html w3Cschool impala 教程