在Linux Centos7 上使用pyspark Notebook

本文详细介绍了如何在服务器环境下安装Anaconda并配置Jupyter Notebook,包括添加root启动权限、修改配置文件以允许root运行、生成登录密码、设置远程访问及防火墙规则等步骤。

首先安装anaconda 参考:

https://blog.youkuaiyun.com/levy_cui/article/details/80898739

https://blog.youkuaiyun.com/levy_cui/article/details/51143153

anaconda安装时已经有了jupyter notebook,所以只需要配置好就可以!

一、添加root启动权限

如果输入  jupyter notebook --generate-config提示:
Running as root is not recommended. Use –allow-root to bypass.
则在后边加上 --allow-root
jupyter notebook --generate-config --allow-root

二、修改配置文件

vim /root/.jupyter/jupyter_notebook_config.py
将c.NotebookApp.allow_root = False前边的  '#'去掉,在把False修改为True

三、生成登录密码

因为采用的服务器环境所有建议生成一个密码

输入命令ipython
from notebook.auth import passwd
passwd()
Enter password:  输入一次密码
Verify password:  再次输入密码
sha1:ae9e423f48ae:a8................................

四、再次修改配置文件

vi /root/.jupyter/jupyter_notebook_config.py
c.NotebookApp.ip='*'
c.NotebookApp.password = u'sha1:ae9e423f48ae:a8................................'
c.NotebookApp.open_browser = False
c.NotebookApp.port =8888    #任意空闲端口,使用默认8888也可以

五、启动

 jupyter notebook  --ip=0.0.0.0 --no-browser --allow-root
 如果打开输入地址无法访问则需要关闭一下防火墙
 systemctl stop firewalld.service  #关闭firewall
 systemctl disable firewalld.service #禁止firewall开机启动
 firewall-cmd --state #查看默认防火墙状态(关闭后显示notrunning,开启后显示running)

在阿里安全组规则里开放你的开放端口比如这里的8888

最后再次启动命令行出现:

浏览器输入http://IP地址:8888 出现notebook界面这样就成功了

 

六、在notebook上使用pyspark,输入命令:

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark

 

CentOS 7 上安装和部署 PySpark 需要几个步骤。PySpark 是 Python 的 Spark API,它允许你在 Python 环境中使用 Apache Spark。以下是安装过程: **步骤1:更新系统并安装必要的包** ```sh sudo yum update -y sudo yum install epel-release -y # 加入额外的软件源,包含更多的 Python 包 ``` **步骤2:安装 Java** Spark需要Java运行环境,因为它是基于Java构建的。你可以从Oracle官网下载适合CentOS 7的Java JRE或JDK,然后安装。 ```sh sudo wget https://www.oracle.com/java/technologies/javase-jdk8-downloads.html \ -O jdk.tar.gz tar xzf jdk.tar.gz sudo mkdir -p /usr/lib/jvm/ sudo cp -r jdk1.8.0_*/jre/* /usr/lib/jvm/ # 根据下载的版本替换* sudo ln -s /usr/lib/jvm/java-1.8.0-openjdk-amd64/bin/java /usr/bin/java ``` **步骤3:安装Spark** 首先,访问Apache Spark官方网站下载适用于CentOS 7的Spark发行版。通常建议选择`spark-2.x.y-bin-hadoop2.x.tar.gz`。例如,对于Spark 3.x: ```sh wget https://downloads.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop2.7.tgz tar xzf spark-3.2.0-bin-hadoop2.7.tgz sudo mv spark-3.2.0-bin-hadoop2.7 /opt/spark ``` 设置环境变量指向Spark目录: ```sh echo 'export SPARK_HOME=/opt/spark' >> ~/.bashrc source ~/.bashrc ``` **步骤4:配置环境变量和启动脚本** 创建一个名为`spark-env.sh`的文件,用于设置Spark的环境变量: ```sh echo "export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64" >> $SPARK_HOME/conf/spark-env.sh echo "export PATH=$PATH:$SPARK_HOME/bin" >> $SPARK_HOME/conf/spark-env.sh ``` 创建启动脚本,比如`start-spark.sh`: ```sh echo '#!/bin/bash nohup /opt/spark/sbin/start-master.sh > spark_master.out 2>&1 & sleep 5 nohup /opt/spark/sbin/start-slave.sh spark://localhost:7077 > spark_slave.out 2>&1 &' > start_spark.sh chmod +x start_spark.sh ``` 现在你可以通过`./start_spark.sh`命令启动Spark。 **步骤5:测试安装** 打开一个新的终端窗口,运行 ` pyspark` 来检查是否成功安装了 PySpark 并可以连接到集群: ```sh pyspark ``` 如果一切正常,你会看到一个PySpark Shell。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值