在hive中,由于hive自带的计算引擎计算比较慢,这个时候可以使用spark替换hive的计算引擎,可以增加hive的计算速度。
在替换之前,首先虚拟机上要有spark的集群模式,spark 的yarn集群模式,需要hdfs,yran,hive
# 启动HDFS服务:NameNode和DataNodes
# 启动HiveMetaStore 服务
hive-server-manager.sh start
我这里hive的服务全部启动了,也可以单独启动iveMetaStore
# 设置Spark日志级别
cd /opt/installs/spark/conf/(这里的路径是你集群spark的配置文件设置)
mv log4j.properties.template log4j.properties
vi log4j.properties
#修改19行INFO为WARN
log4j.rootCategory=WARN, console
然后启动客户端(测试,是否可以通过spark进入hive的数据库)
spark-sql --master yarn --conf spark.sql.shuffle.partitions=2
进入之后测试一下能否打开看到数据库和打开数据库
然后启动spark在hive的引擎
/opt/installs/spark/sbin/start-thriftserver.sh \ (这个是我的spark配置的位置,按自己的位置配置)
--hiveconf hive.server2.thrift.port=10001 \
--hiveconf hive.server2.thrift.bind.host=bigdata01 \
--master yarn \
--conf spark.sql.shuffle.partitions=2
启动服务,该服务不会停止,一直在后台启动,假如启动不了,记得查看日志。
然后用dataGrip远程链接

然后下载驱动,之前设置的端口是10001,默认的10000和hive的冲突,所以改成10001

然后进入spark中测试一下

最低0.47元/天 解锁文章
8275

被折叠的 条评论
为什么被折叠?



