使用前准备
- hive-site.xml复制到$SPARK_HOME/conf目录下
- hive连接mysql的jar包(mysql-connector-java-8.0.13.jar)也要复制到$SPARK_HOME/jars目录下
- 或者在spark-submit脚本中通过–jars指明该jar包位置
- 或者在spark-env.xml中把该jar包位置加入Class Path
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/jar包位置我测试不起作用
spark.sql.warehouse.dir参数
入门文档讲解spark sql如何作用在hive上时,提到了下面这个例子,其次有个配置spark.sql.warehouse.dir
val spark = SparkSession
.builder()
.appName("Spark Hive Example")
.config("spark.sql.warehouse.dir", warehouseLocation)
.enableHiveSupport()
.getOrCreate()
该参数指明的是hive数据仓库位置
spark 1.x 版本使用的参数是"hive.metastore.warehouse" ,在spark 2.0.0 后,该参数已经不再生效,用户应使用 spark.sql.warehouse.di

本文介绍了如何在Spark 2.4中使用已有的Hive仓库,包括将`hive-site.xml`配置文件复制到`SPARK_HOME/conf`,添加mysql连接jar包到`SPARK_HOME/jars`,设置`spark.sql.warehouse.dir`参数以指向Hive数据仓库,并解决无法加载mysql驱动及表不存在的错误。提供了解决`Table 'hive.PARTITIONS' doesn't exist`错误的方法和相关参考资料。
最低0.47元/天 解锁文章
354

被折叠的 条评论
为什么被折叠?



