ubuntu16.04 安装单机版spark

本文详细介绍了如何在Ubuntu环境下配置Spark和Java环境变量的过程,并分享了解决配置后无法显示Java版本号的问题,提供了将环境变量配置分别应用于系统全局和用户家目录的有效方案。

1 环境变量

spark-2.3.0-bin-hadoop2.7这是我的spark文件夹,这里替换成你的spark文件夹。

同样,jdk1.8.0_172是我的jdk文件夹,你需要替换成你的。

usr/路径下没有java文件夹,你需要新建一个文件夹,mkdir /usr/java

export SPARK_HOME=/usr/local/spark-2.3.0-bin-hadoop2.7
export PATH=$PATH:SPARK_HOME/bin

export JAVA_HOME=/usr/java/jdk1.8.0_172
export JRE_HOME=/usr/java/jdk1.8.0_172/jre
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

前两行是加spark的环境变量,后四行是加java的环境变量。

把上面的环境变量加入 /etc/profile,

管理员权限下,输入gedit /etc/profile,会弹出一个文件,粘贴在后面就行了。

然后执行命令 source /etc/profile,环境变量会立即生效。如果不重启不会生效的。

然后,输入java -version,会出现java的版本。

2 输入java -version没有出来版本号

但是,我的死活不出来,我以为是环境变量没有设置好,于是又搜了一大堆资料,还是不行。

花了好长时间,都快气死我了。

最后还把系统给搞崩了,就是linux系统频繁输入密码,就是进不了桌面。最后按crtl + alt + f1 进入root账号,把环境变量全删除才恢复正常。

如果输入java -version没反应,需要换个环境变量文件。

于是换了~/.bashrc就ok了。

同样的操作,gedit ~/.bashrc 粘上环境变量,然后source ~/.bashrc执行。

但我没搞清楚为什么。有人说:

/etc/profile 是系统全局环境变量设定
~/.bashrc用户家目录下的私有环境变量设定

这是我走的一条弯路,希望帮助需要的人。

3 python Spark kernel notebook

如果ubuntu16.04不能正常安装包,用pip install --user keras

pip install --user toree

jupyter toree install--spark_home=your-spark-home12

### 在 Ubuntu 16.04安装 Spark 2.4 的方法 #### 准备工作 在开始之前,确保已经完成以下准备工作: - 已经安装并配置好了 JDK 1.8[^1]。 - 下载了适合 Hadoop 版本的 Spark 安装包 `spark-2.4.0-bin-hadoop2.7.tgz`。 #### 解压 Spark 安装包 解压已下载的 Spark 压缩文件至目标目录。可以通过以下命令完成操作: ```bash tar -zvxf spark-2.4.0-bin-hadoop2.7.tgz ``` 该命令会将压缩包中的内容提取到当前路径下的一个名为 `spark-2.4.0-bin-hadoop2.7` 的新文件夹中[^3]。 #### 配置环境变量 为了方便使用 Spark,在 `.bashrc` 文件中设置必要的环境变量。编辑 `~/.bashrc` 文件并添加以下内容: ```bash export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export SPARK_HOME=/path/to/your/spark-2.4.0-bin-hadoop2.7 export PATH=$PATH:$JAVA_HOME/bin:$SPARK_HOME/bin ``` 其中 `/path/to/your/spark-2.4.0-bin-hadoop2.7` 应替换为你实际解压后的 Spark 路径。保存后执行以下命令使更改生效: ```bash source ~/.bashrc ``` #### 测试 Spark 是否安装成功 运行 Spark 自带的一个简单示例程序来验证其功能是否正常。切换到 Spark 主目录并执行以下命令: ```bash cd $SPARK_HOME bin/run-example SparkPi ``` 如果一切顺利,终端应显示计算圆周率的结果以及日志信息[^2]。 #### PySpark 支持 (可选) 如果你计划使用 Python 接口访问 Spark,则需进一步调整环境变量以支持 PySpark。继续修改 `.bashrc` 文件加入下面两行: ```bash export PYSPARK_PYTHON=python3 export PYSPARK_DRIVER_PYTHON=jupyter-notebook ``` 再次刷新 shell 环境加载新的设定: ```bash source ~/.bashrc ``` #### 启动集群服务(适用于多机模式) 对于需要搭建分布式架构的情况,请按照官方文档指引进行网络通信参数定制化处理,并分发 master/slave 设置给各个节点机器上。最后启动所有组件的服务实例: ```bash $SPARK_HOME/sbin/start-all.sh ``` 此时可以在浏览器输入 Master 地址加上端口号如 http://<master-ip>:8080 来监控整个系统的状态信息[^4]。 --- ### 注意事项 上述过程假设读者具备一定的 Linux 使用基础,能够独立解决可能遇到的一些常见问题比如权限不足或者依赖缺失等问题;另外不同版本之间可能存在细微差异所以建议参照最新发行版附带的手册获取最权威指导资料。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值