PySpark(Spark3.0)
PySpark简单来说就是Spark提供的Python编程API,包括交互式的PySpark shell和非交互式的Python程序。
1.环境
- Spark3.0
- Hadooop3.2
- Centos7
- Python3.6.8
- Pycharm
- Windos10
其中值得注意的是Python的版本必须是3.6+,以下是Spark官网的说明
前提
Spark3.0的集群已经搭建完毕,本文使用的是Standalone模式的集群
Hadoop3.2分布式集群搭建完毕
2.PySpark shell
2.1安装python3
yum install -y python3
PS:集群中的所有节点都要安装
# 验证
python3 -V
2.1配置环境变量
PySparkShell的启动需要配置SPARK_HOME和PYSPARK_PYTHON这两个环境变量,如果不配置就会使用系统自带的Python2.7.5,由于Python2和Python3的语法是不兼容的,这样就会出现问题,导致PySPark无法使用。
vi /etc/profile
export SPARK_HOME=/opt/spark-3.0.2
export PATH=$PATH:$SPARK_HOME/bin
export PYSPARK_PYTHON=python3
# 刷新环境变量
source /etc/profile
注意:根据自己时间的路径配置
2.2使用PySpark Shell
# 启动Spark
/opt/spark-3.0.2/sbin/start-all.sh
# 在Spark的bin目录中有pySpark的脚本 直接全路径执行
/opt/spark-3.0.2/bin/pyspark
# 使用如下命令退出PySpark Shell
exit()
如果Python的版本不是3.6+ 那就需要检查环境变量配置是否正确以及环境变量是否生效
使用source /etc/profile 使环境变量的配置生效
注意:这样启动只是一个Local模式的PySpark Shell