大数据笔记spark篇（二）：pyspark的安装

最新推荐文章于 2025-06-24 10:08:08 发布

Ding_xiaofei

最新推荐文章于 2025-06-24 10:08:08 发布

阅读量2.9k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据云计算

本文链接：https://blog.youkuaiyun.com/Ding_xiaofei/article/details/80628599

本文介绍了如何安装和配置PySpark，重点在环境变量设置和本地模式的运行，包括各种运行模式的解释，如local[K]模式，并提供了在4个CPU核心上运行PySpark的示例。

开篇

关于spark的配置其实没有必要详细地写，这边我放上我学习参考的厦门大学的博客，拖了n年，我总算把单机版的spark给安装上了。

环境变量

export JAVA_HOME=/usr/lib/jvm/default-java
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH