业务处理的过程中,使用到pyspark访问hive,直接访问没有问题,
后面遇到使用pyspark访问hive关联hbase的表(hive on hbase),就出现报错了。
首先集群已经可以通过spark-sql读取hive的数据,然后进行如下配置。
1.拷贝如下jar包到${spark_home}/jars(spark2.0之前是${spark_home}/lib):
hbase-protocol-1.2.0-cdh5.10.2.jar
hbase-client-1.2.0-cdh5.10.2.jar
hbase-common-1.2.0-cdh5.10.2.jar
hbase-server-1.2.0-cdh5.10.2.jar
hive-hbase-handler-1.1.0-cdh5.10.2.jar
2.将hbase的配置文件 hbase-site.xml 拷贝到${spark_home}/conf目录下。
这一步为了解决一些配置的访问问题,如zookeeper、hbase等
3.测试
spark-sql --jars /usr/lib/hbase-current/lib/hbase-server-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar,/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar
pyspark --jars /usr/lib/hbase-current/lib/hbase-server-1.1.1.jar,/usr/lib/hbase-curre

本文介绍如何通过Pyspark访问Hive关联Hbase的表,包括必要的jar包配置、Hbase配置文件的引入及创建Hbase外部表的过程。通过具体步骤展示从配置到测试的完整流程。
最低0.47元/天 解锁文章
2002





