Linux服务器下PySpark环境安装

原创已于 2022-03-17 12:19:20 修改 · 1.3w 阅读

65 ·

CC 4.0 BY-SA版权

文章标签：

#服务器 #linux #centos

于 2022-01-30 20:05:42 首次发布

python 专栏收录该内容

13 篇文章

订阅专栏

本文详细介绍如何在Linux服务器上安装配置JDK、Python及Spark，实现PySpark环境的搭建。主要内容包括：JDK安装与环境变量配置、Python编译安装、Spark安装与配置等步骤。

该文章已生成可运行项目，

Linux服务器下PySpark环境安装

一、JDK安装

1. 下载JDK安装包

进入Java官网下载对应的JDK版本，建议下载较早的版本，可能出现不兼容的。这里选择下载jdk-8u321-linux-x64.tar，下载完毕适用Xftp7上传至服务器并解压。

tar -zxfv jdk-8u321-linux-x64.tar

2. 修改 `/etc/profile` 文件，添加环境变量配置信息。

vim /etc/profile

在文件末尾添加如下的配置信息

export JAVA_HOME=解压后的安装包位置
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=$:CLASSPATH:$JAVA_HOME/lib/

执行

source /etc/profile

使环境变量配置生效。

验证JDK环境，

[root@VM-20-8-centos ~]# java -version
java version "1.8.0_321"
Java(TM) SE Runtime Environment (build 1.8.0_321-b07)
Java HotSpot(TM) 64-Bit Server VM (build 25.321-b07, mixed mode)

如果按照上述步骤显示的仍然是OpenIDK(即系统自带的版本)，执行下面的命令更新java版本

update-alternatives --install /usr/bin/java java $JAVA_HOME/bin/java 1065
update-alternatives --install /usr/bin/javac javac $JAVA_HOME/bin/javac 1065
update-alternatives --install /usr/bin/jar jar $JAVA_HOME/bin/jar 1065
update-alternatives --install /usr/bin/javaws javaws $JAVA_HOME/bin/javaws 1065

然后执行下面的指令选择JDK版本

update-alternatives --config java

二、Python安装

安装相应的编译工具，在命令端执行

yum -y groupinstall "Development tools"
yum -y install zlib-devel bzip2-devel openssl-devel \
ncurses-devel sqlite-devel readline-devel tk-devel \
gdbml-devel db4-devel libpcap-devel xz-devel
yum install -y libffi-devel zliblg-dev
yum install zlib* -y

下载Python3.7安装包

建议下载Python3.6_{Python3.8的Python版本，还是版本兼容的问题}~

上传！解压！

tar -zxvf Python-3.7.7.tgz

进入解压后的目录，编译安装

./configure --prefix=/usr/local/python3 --enable-optimizations --with-ssl

第一个--prefix指定安装的路径，不指定的话，安装过程中软件所需的文件可能复制到其它目录中，这样在删除软件时会很不方便，复制软件也不方便。第二个--enable-optimizations开启优化选项，这样可以提高Python代码运行速度10%~20%。第三个--with-ssl是为了支持pip安装软件需要用到的ssl。

make && make install

这个过程比较耗时，会进行源码编译，并测试。

创建软链接

ln -s /usr/local/python3/bin/python3 /usr/local/bin/python3
ln -s /usr/local/python3/bin/pip3 /usr/local/bin/pip3

验证安装

[root@VM-20-8-centos ~]# python3
Python 3.7.7 (default, Jan 28 2022, 17:56:52)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>>

Hello, Python~

三、Spark安装

完成JDK和Python3的安装后，Spark的安装就“洒洒水”（简简单单啦）了。

下载Spark安装包并上传到服务器

Downloads | Apache Spark
1. 解压并配置环境变量即可
跟上述步骤类似，在/etc/profile中修改环境变量，同时添加**SPARK_PYTHON**变量，即Pyspark使用的Python编译器，路径为系统的Python目录
```
export SPARK_PYTHON=/usr/local/bin/python3
export SPARK_HOME=/root/spark/pakeage/spark-3.2.0-bin-hadoop3.2
```
别忘了还要source /etc/profile
1. 验证

[root@VM-20-8-centos spark-3.2.0-bin-hadoop3.2]# pyspark
Python 3.7.7 (default, Jan 28 2022, 17:56:52)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/01/30 19:54:56 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.2.0
      /_/

Using Python version 3.7.7 (default, Jan 28 2022 17:56:52)
Spark context Web UI available at http://VM-20-8-centos:4040
Spark context available as 'sc' (master = local[*], app id = local-1643543698074).
SparkSession available as 'spark'.
>>>

配置Spark环境后会连同配置pyspark的环境变量，因此可以直接输入pyspark执行。

至此，Spark以及Pysark安装完毕！

本文章已经生成可运行项目

5 条评论

qq_53034583 2022.09.25
最后spark配置环境那里是不是给少了一个命令呐，我加了export PATH=$SPARK_HOME/bin:$PATH才能运行pyspark
- 落咖啡回复qq_53034583 2023.06.08
  赞，是的，其实带$的都是变量，就算不设置直接写PATH都行，没有PATH运行不了