Linux服务器下PySpark环境安装

本文详细介绍如何在Linux服务器上安装配置JDK、Python及Spark,实现PySpark环境的搭建。主要内容包括:JDK安装与环境变量配置、Python编译安装、Spark安装与配置等步骤。
该文章已生成可运行项目,
Linux服务器下PySpark环境安装
一、JDK安装

​ 1. 下载JDK安装包

​ 进入Java官网下载对应的JDK版本,建议下载较早的版本,可能出现不兼容的。这里选择下载jdk-8u321-linux-x64.tar,下载完毕适用Xftp7上传至服务器并解压。

tar -zxfv jdk-8u321-linux-x64.tar
2. 修改 `/etc/profile` 文件,添加环境变量配置信息。
vim /etc/profile

​ 在文件末尾添加如下的配置信息

export JAVA_HOME=解压后的安装包位置
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=$:CLASSPATH:$JAVA_HOME/lib/

​ 执行

source /etc/profile

​ 使环境变量配置生效。

​ 验证JDK环境,

[root@VM-20-8-centos ~]# java -version
java version "1.8.0_321"
Java(TM) SE Runtime Environment (build 1.8.0_321-b07)
Java HotSpot(TM) 64-Bit Server VM (build 25.321-b07, mixed mode)
  • 如果按照上述步骤显示的仍然是OpenIDK(即系统自带的版本),执行下面的命令更新java版本
update-alternatives --install /usr/bin/java java $JAVA_HOME/bin/java 1065
update-alternatives --install /usr/bin/javac javac $JAVA_HOME/bin/javac 1065
update-alternatives --install /usr/bin/jar jar $JAVA_HOME/bin/jar 1065
update-alternatives --install /usr/bin/javaws javaws $JAVA_HOME/bin/javaws 1065
  • 然后执行下面的 指令选择JDK版本
update-alternatives --config java
二、Python安装
  1. 安装相应的编译工具,在命令端执行
yum -y groupinstall "Development tools"
yum -y install zlib-devel bzip2-devel openssl-devel \
ncurses-devel sqlite-devel readline-devel tk-devel \
gdbml-devel db4-devel libpcap-devel xz-devel
yum install -y libffi-devel zliblg-dev
yum install zlib* -y
  1. 下载Python3.7安装包

    建议下载Python3.6Python3.8的Python版本,还是版本兼容的问题~

    上传!解压!

tar -zxvf Python-3.7.7.tgz

​ 进入解压后的目录,编译安装

./configure --prefix=/usr/local/python3 --enable-optimizations --with-ssl

​ 第一个--prefix指定安装的路径,不指定的话,安装过程中软件所需的文件可能复制到其它目录中,这样在删除软件时会很不方便,复制软件也不方便。第二个--enable-optimizations开启优化选项,这样可以提高Python代码运行速度10%~20%。第三个--with-ssl是为了支持pip安装软件需要用到的ssl

make && make install

​ 这个过程比较耗时,会进行源码编译,并测试。

  1. 创建软链接
ln -s /usr/local/python3/bin/python3 /usr/local/bin/python3
ln -s /usr/local/python3/bin/pip3 /usr/local/bin/pip3

​ 验证安装

[root@VM-20-8-centos ~]# python3
Python 3.7.7 (default, Jan 28 2022, 17:56:52)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>>

​ Hello, Python~

三、Spark安装

​ 完成JDK和Python3的安装后,Spark的安装就“洒洒水”(简简单单啦)了。

  1. 下载Spark安装包并上传到服务器

    Downloads | Apache Spark

    1. 解压并配置环境变量即可

    跟上述步骤类似,在/etc/profile中修改环境变量,同时添加**SPARK_PYTHON**变量,即Pyspark使用的Python编译器,路径为系统的Python目录

    export SPARK_PYTHON=/usr/local/bin/python3
    export SPARK_HOME=/root/spark/pakeage/spark-3.2.0-bin-hadoop3.2
    

    别忘了还要source /etc/profile

    1. 验证
[root@VM-20-8-centos spark-3.2.0-bin-hadoop3.2]# pyspark
Python 3.7.7 (default, Jan 28 2022, 17:56:52)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/01/30 19:54:56 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.2.0
      /_/

Using Python version 3.7.7 (default, Jan 28 2022 17:56:52)
Spark context Web UI available at http://VM-20-8-centos:4040
Spark context available as 'sc' (master = local[*], app id = local-1643543698074).
SparkSession available as 'spark'.
>>>

​ 配置Spark环境后会连同配置pyspark的环境变量,因此可以直接输入pyspark执行。

至此,Spark以及Pysark安装完毕!

本文章已经生成可运行项目
要在Linux安装Pyspark,你可以按照以下步骤进行操作: 1. 首先,下载并解压Pyspark。你可以使用wget命令下载Pyspark的压缩包,例如:wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz。然后使用tar命令解压压缩包,例如:tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz。 2. 将解压后的Pyspark文件夹移动到你想要安装的位置。例如,你可以使用mv命令将文件夹重命名为spark,并将其移动到/usr/local目录下,即:mv spark-2.4.4-bin-hadoop2.7.tgz spark。 3. 编辑/etc/profile文件,将Pyspark的路径添加到环境变量中。你可以在文件末尾添加以下两行命令: export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin 同时,你还可以添加SPARK_PYTHON变量来指定Pyspark使用的Python编译器,例如:export SPARK_PYTHON=/usr/local/bin/python3。 4. 刷新配置文件,使其生效。你可以运行source /etc/profile命令来刷新配置文件。 5. 验证Pyspark安装是否成功。你可以打开终端并运行pyspark命令来启动Pyspark。如果一切正常,你将看到类似以下信息的输出: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 3.2.0 /_/ Using Python version 3.7.7 (default, Jan 28 2022 17:56:52) Spark context Web UI available at http://VM-20-8-centos:4040 Spark context available as 'sc' (master = local[*], app id = local-1643543698074). SparkSession available as 'spark'. 这样,你就成功地在Linux安装Pyspark。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Linux服务器PySpark环境安装](https://blog.youkuaiyun.com/js010111/article/details/122755433)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Linux 安装 pySpark](https://blog.youkuaiyun.com/m0_55389447/article/details/122658477)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 5
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值