hadoop和spark配置问题记录

原创已于 2023-05-23 10:09:58 修改 · 713 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #spark #大数据

于 2023-05-18 21:44:54 首次发布

问题专栏收录该内容

6 篇文章

订阅专栏

文章讲述了在配置Hadoop和Spark时遇到的问题，如SparkWebUI无法访问、Worker信息缺失以及HadoopLiveNodes显示为0的故障。这些问题的解决方法包括正确启动Spark脚本、修改环境变量和hosts文件。此外，还介绍了如何在IntelliJIDEA中配置Scala和Maven项目，以及在conda环境中搭建PySpark的步骤，包括安装miniconda3、选择兼容的Python版本、安装numpy库，并配置相应的环境变量。

hadoop和spark配置问题记录

Spark的WebUI访问不了

直接启动的start-all.sh是环境变量中配置的hadoop的脚本，不是spark的，因此启动spark的start-all.sh脚本即可。

Spark看不到Worker信息

启动Spark在UI界面上看不到worker节点的信息_潇洒哥WH3的博客-优快云博客

此问题和下一问题：“Hadoop的Live Nodes显示为0” 是同一问题。

根本原因同“Hadoop的Live Nodes显示为0”，临时解决方法是：修改hadoop的start-env.sh，将其中的MASTER_IP改为MASTER_HOST，并将Master名改为Master的IP。

Hadoop的Live Nodes显示为0

Hadoop集群活跃节点为0解决方案_Ichimaru_Gin_的博客-优快云博客

原因是/etc/hosts中配置的IP发生了覆盖，只需要去掉127.0.0.1的masterIP就行，同时保留master和slave的真实IP

在这里插入图片描述

IDEA配置Scala+Maven项目相关

一些配置：使用IntelliJ IDEA开发Spark应用程序_厦大数据库实验室博客 (xmu.edu.cn)，其他教程在优快云的收藏
打包jar：在idea中将java项目中的单个类打包成jar包操作_java_脚本之家 (jb51.net)

配置PySpark环境

spark自带pyspark，不过版本不一定最新，以下采用黑马程序员的做法，在conda虚拟环境中安装。

1、安装conda发行版，这里选择miniconda3

miniconda安装及环境创建（Linux）_linux miniconda_蓬蓬奇的博客-优快云博客

2、安装python

注意安装的Python版本要和自己的pyspark兼容。我的是spark2.4.4，实测python3.8不兼容，python3.6兼容。

conda install python=3.6

这一步会自动安装pip

3、安装numpy库

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple/

4、配置pyspark环境变量

需要配置3处地方：

首先配置黑马程序员中说的这两处（~/.bashrc和/etc/profile），记得source /etc/profile更新环境变量

export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3

运行spark安装目录bin下的pyspark程序，如果显示的python版本是我们指定的，则无需配置下面的，否则配置：

打开spark安装目录conf下的spark-env.sh，发现存在PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON变量，修改为：

export PYSPARK_DRIVER_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3