如何在DataGrip上使用hive的数据源编写Spark代码

深情秋刀鱼..

已于 2024-11-25 18:40:35 修改

阅读量666

点赞数 11

文章标签： hive spark hadoop linux 大数据数据仓库

于 2024-11-06 19:44:55 首次发布

本文链接：https://blog.youkuaiyun.com/qq_62049041/article/details/143577712

版权

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。

Spark作为一个计算平台并不是作为一个数据库不像hive以及mysql一样可以直接远程连接DataGrip使用，本篇就展示如何使用DataGrip使用hive作为数据源编写Spark代码查询hive数据库

首先确保你的hive以及Spark可以正常使用

本篇使用三台机器的集群配置spark_yarn模式

测试hive能否正常使用

首先，确保你已经安装了 Hive，并且配置了正确的环境变量。
打开终端或命令行界面，输入 "hive" 命令来启动 Hive CLI（命令行界面）。
出现以下界面表示已经安装了hive
还可以编写简单的hive代码来测试

测试spark能否正常使用

1. 启动HDFS以及yarn以及HiveMetaStore 服务

2. 运行spark-sql --master yarn --conf spark.sql.shuffle.partitions=2命令

出现可以编写的

3.可以写一些简单语句来测试

如果上述都没有问题接下来开始连接

输入如下命令

/opt/installs/spark/sbin/start-thriftserver.sh \
--hiveconf hive.server2.thrift.port=10001 \
--hiveconf hive.server2.thrift.bind.host=bigdata \
--master yarn \
--conf spark.sql.shuffle.partitions=2

/opt/installs/spark是安装路径

10001是你指定的端口号

bigdata是你的主机名

运行完毕后可以netstat -nltp | grep 10001查看端口10001运行的程序的进程号

然后ps-ef | grep 进程号查看是否启动

启动成功即可连接DataGrip

出现如下

表明连接成功

接下来开始将数据源设置成hive数据库的数据源

1.在hive 下修改hive-site.xml

添加

<property>
		<name>hive.metastore.schema.verification</name>
		<value>false</value>
	</property>

2.将hive-site.xml 复制到 spark的conf 下

cp /opt/installs/hive/conf/hive-site.xml /opt/installs/spark/conf

3.修改spark下的hive-site.xml

添加

<property>
		<name>hive.server2.thrift.port</name>
		<value>10001</value>
		<description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.</description>
	  </property>

4.分发到其余两台机器

xsync.sh /opt/installs/spark/conf/hive-site.xml

5.重启thrift服务

/opt/installs/spark/sbin/stop-thriftserver.sh

/opt/installs/spark/sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=bigdata --master yarn --conf spark.sql.shuffle.partitions=2

使用datagrip 重新连接一下，记得刷新一下连接。