如何在DataGrip上使用hive的数据源编写Spark代码

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一

Spark作为一个计算平台并不是作为一个数据库不像hive以及mysql一样可以直接远程连接DataGrip使用,本篇就展示如何使用DataGrip使用hive作为数据源编写Spark代码查询hive数据库

首先确保你的hive以及Spark可以正常使用

本篇使用三台机器的集群配置spark_yarn模式

测试hive能否正常使用

  1. 首先,确保你已经安装了 Hive,并且配置了正确的环境变量。

  2. 打开终端或命令行界面,输入 "hive" 命令来启动 Hive CLI(命令行界面)。

  3. 出现以下界面表示已经安装了hive

  4. 还可以编写简单的hive代码来测试

测试spark能否正常使用

1. 启动HDFS以及yarn以及HiveMetaStore 服务

2. 运行spark-sql --master yarn --conf spark.sql.shuffle.partitions=2命令

出现可以编写的

3.可以写一些简单语句来测试

如果上述都没有问题接下来开始连接

输入如下命令

/opt/installs/spark/sbin/start-thriftserver.sh \
--hiveconf hive.server2.thrift.port=10001 \
--hiveconf hive.server2.thrift.bind.host=bigdata \
--master yarn \
--conf spark.sql.shuffle.partitions=2

/opt/installs/spark是安装路径

10001是你指定的端口号

bigdata是你的主机名

运行完毕后可以netstat -nltp | grep 10001查看端口10001运行的程序的进程号

然后ps-ef | grep 进程号 查看是否启动

启动成功即可连接DataGrip

出现如下

表明连接成功

接下来开始将数据源设置成hive数据库的数据源

1.在hive 下修改hive-site.xml

添加

<property>
		<name>hive.metastore.schema.verification</name>
		<value>false</value>
	</property>

2.将hive-site.xml 复制到 spark的conf 下

cp /opt/installs/hive/conf/hive-site.xml /opt/installs/spark/conf

3.修改spark下的hive-site.xml

添加

<property>
		<name>hive.server2.thrift.port</name>
		<value>10001</value>
		<description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.</description>
	  </property>

4.分发到其余两台机器

xsync.sh /opt/installs/spark/conf/hive-site.xml

5.重启thrift服务

/opt/installs/spark/sbin/stop-thriftserver.sh

/opt/installs/spark/sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=bigdata --master yarn --conf spark.sql.shuffle.partitions=2

使用datagrip 重新连接一下,记得刷新一下连接。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值