大数据三大组件(spark,hadoop,hive)的安装之spark之伪分布式

本文链接：https://blog.youkuaiyun.com/ymdaa555/article/details/136264124

本文详细介绍Spark2.4.0版本的伪分布式安装过程，包括解压、配置环境变量及测试步骤。确保Spark能够顺利处理Hive数仓任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

说明一下，本次安装的spark是经过编译后的可以直接处理hive数仓的spark2.4.0版本

相关软件我已经放在链接中了

链接：https://pan.baidu.com/s/17240ITPR14vcRku6_P0kug?pwd=me15
提取码：me15

1、首先进入spark-shell命令窗口输入import org.apache.spark.sql.hive.HiveContext

如果出现截图就代表这个spark版本不可以操作hive

2、如果正确则出现下面这种情况

3、下面这个些命令是解压spark的，解压完可以直接用

cd /home/hadoop/下载/
sudo tar -zxf ~/下载/spark-2.1.0-bin-h27hive.tgz -C /usr/local
#执行上面的解压缩命令时需要你输入当前登录用户的登录密码
cd /usr/local
sudo mv ./spark-2.1.0-bin-h27hive ./sparkwithhive
sudo chown -R hadoop:hadoop ./sparkwithhive
cd /usr/local/sparkwithhive/
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vim ./conf/spark-env.sh

4、运行这个

cd /usr/local/spark
cd /usr/local/sparkwithhive
#下面运行一个样例程序，测试是否成功安装
bin/run-example SparkPi 2>&1 | grep "Pi is"

出现，成功