如何使用SparkSQL在hive中使用Spark的引擎计算

最新推荐文章于 2025-11-06 16:22:34 发布

原创

最新推荐文章于 2025-11-06 16:22:34 发布 · 1.8k 阅读

·

44

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hive #spark #hadoop

在hive中，由于hive自带的计算引擎计算比较慢，这个时候可以使用spark替换hive的计算引擎，可以增加hive的计算速度。

在替换之前，首先虚拟机上要有spark的集群模式，spark 的yarn集群模式，需要hdfs，yran，hive

# 启动HDFS服务：NameNode和DataNodes

# 启动HiveMetaStore 服务

hive-server-manager.sh start

我这里hive的服务全部启动了，也可以单独启动iveMetaStore

# 设置Spark日志级别
cd /opt/installs/spark/conf/（这里的路径是你集群spark的配置文件设置）
mv log4j.properties.template log4j.properties
vi log4j.properties
#修改19行INFO为WARN
log4j.rootCategory=WARN, console

然后启动客户端（测试，是否可以通过spark进入hive的数据库）

spark-sql --master yarn --conf spark.sql.shuffle.partitions=2

进入之后测试一下能否打开看到数据库和打开数据库

然后启动spark在hive的引擎

/opt/installs/spark/sbin/start-thriftserver.sh \ （这个是我的spark配置的位置，按自己的位置配置）
--hiveconf hive.server2.thrift.port=10001 \
--hiveconf hive.server2.thrift.bind.host=bigdata01 \
--master yarn \
--conf spark.sql.shuffle.partitions=2

启动服务，该服务不会停止，一直在后台启动，假如启动不了，记得查看日志。

然后用dataGrip远程链接

然后下载驱动，之前设置的端口是10001，默认的10000和hive的冲突，所以改成10001

然后进入spark中测试一下

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。