hadoop和spark配置问题记录
Spark的WebUI访问不了
直接启动的start-all.sh是环境变量中配置的hadoop的脚本,不是spark的,因此启动spark的start-all.sh脚本即可。
Spark看不到Worker信息
此问题和下一问题:“Hadoop的Live Nodes显示为0” 是同一问题。
根本原因同“Hadoop的Live Nodes显示为0”,临时解决方法是:修改hadoop的start-env.sh,将其中的MASTER_IP改为MASTER_HOST,并将Master名改为Master的IP。
Hadoop的Live Nodes显示为0
原因是/etc/hosts中配置的IP发生了覆盖,只需要去掉127.0.0.1的masterIP就行,同时保留master和slave的真实IP

IDEA配置Scala+Maven项目相关
-
一些配置:使用IntelliJ IDEA开发Spark应用程序_厦大数据库实验室博客 (xmu.edu.cn),其他教程在优快云的收藏
配置PySpark环境
spark自带pyspark,不过版本不一定最新,以下采用黑马程序员的做法,在conda虚拟环境中安装。
1、安装conda发行版,这里选择miniconda3
miniconda安装及环境创建(Linux)_linux miniconda_蓬蓬奇的博客-优快云博客
2、安装python
注意安装的Python版本要和自己的pyspark兼容。我的是spark2.4.4,实测python3.8不兼容,python3.6兼容。
conda install python=3.6
这一步会自动安装pip
3、安装numpy库
pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple/
4、配置pyspark环境变量
需要配置3处地方:
首先配置黑马程序员中说的这两处(~/.bashrc和/etc/profile),记得source /etc/profile更新环境变量
export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
运行spark安装目录bin下的pyspark程序,如果显示的python版本是我们指定的,则无需配置下面的,否则配置:
打开spark安装目录conf下的spark-env.sh,发现存在PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON变量,修改为:
export PYSPARK_DRIVER_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
文章讲述了在配置Hadoop和Spark时遇到的问题,如SparkWebUI无法访问、Worker信息缺失以及HadoopLiveNodes显示为0的故障。这些问题的解决方法包括正确启动Spark脚本、修改环境变量和hosts文件。此外,还介绍了如何在IntelliJIDEA中配置Scala和Maven项目,以及在conda环境中搭建PySpark的步骤,包括安装miniconda3、选择兼容的Python版本、安装numpy库,并配置相应的环境变量。
1435

被折叠的 条评论
为什么被折叠?



