spark on hive
1、spark on hive介绍
- (1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息
- (2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
- (3)接下来就可以通过spark sql来操作hive表中的数据
2、spark on hive 配置
- (1)将hive安装目录下conf/hive-site.xml拷贝到spark的conf目录下
(2)同时把hive安装目录下lib目录中的mysql驱动包,拷贝到spark的jars目录
(3)分发所有配置和拷贝mysql驱动到spark的其他节点
(4) 启动spark-sql 就可以操作hive的sql语句了。
注意需要添加配置
- –conf spark.sql.warehouse.dir=hdfs://bigdata-1:9000/user/hive/warehouse
3、操作实例
- 执行命令:spark-sql –master spark://bigdata-1bigdata-1:7077 –executor-memory 1g –total–executor-cores 2 –conf spark.sql.warehouse.dir=hdfs://bigdata-1:9000/user/hive/warehouse
- 操作:
- show databases;