大数据三大组件(spark,hadoop,hive)的安装之spark之伪分布式

本文详细介绍Spark2.4.0版本的伪分布式安装过程,包括解压、配置环境变量及测试步骤。确保Spark能够顺利处理Hive数仓任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说明一下,本次安装的spark是经过编译后的可以直接处理hive数仓的spark2.4.0版本

相关软件我已经放在链接中了

链接:https://pan.baidu.com/s/17240ITPR14vcRku6_P0kug?pwd=me15 
提取码:me15

1、首先进入spark-shell命令窗口输入import org.apache.spark.sql.hive.HiveContext

如果出现截图就代表这个spark版本不可以操作hive

2、如果正确则出现下面这种情况

3、下面这个些命令是解压spark的,解压完可以直接用

cd /home/hadoop/下载/
sudo tar -zxf ~/下载/spark-2.1.0-bin-h27hive.tgz -C /usr/local
#执行上面的解压缩命令时需要你输入当前登录用户的登录密码
cd /usr/local
sudo mv ./spark-2.1.0-bin-h27hive ./sparkwithhive
sudo chown -R hadoop:hadoop ./sparkwithhive
cd /usr/local/sparkwithhive/
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vim ./conf/spark-env.sh

4、运行这个

cd /usr/local/spark
cd /usr/local/sparkwithhive
#下面运行一个样例程序,测试是否成功安装
bin/run-example SparkPi 2>&1 | grep "Pi is"

出现,成功

5、测试是否可以正确访问hive中的数据库成功。

6、配置sparksql的远程连接。

第一步先启动Hadoop,然后在启动hive的metastore服务,hive --service metastore

然后在spark的安装目录下运行 sbin/start-thriftserver.sh

最后进入到spark的bin目录下运行beeline,然后测试!connect jdbc:hive2://localhost:10000

用netstat -ntulp |grep 10000查看10000端口是否启动

7、再到如下图去这个文件下添加这一行命令,重启服务。

8、测试链接,这个是我在datagrip测试的。

9、到此文章就结束了,如果写的不好,各位看不懂的,可以留言,我看到都会回复的,谢谢了。

提醒一下,如果想让别人访问自己搭建的这个大数据平台,可以把这些端口以内网穿透的方式映射出去,具体操作可以访问我前面的文章。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值