centos7下安装python3、单机spark、jupyter

本文介绍如何在CentOS 7上进行基本的系统配置,包括设置开机自动联网、更换Java版本、安装Python及Jupyter Notebook,并实现与PySpark的集成,最后通过一个求π的案例演示如何使用这些工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

centos安装使用的是CentOS-7-x86_64-DVD-1708.iso 
root登录ssh

 

 

设置开机自动联网

vim /etc/sysconfig/network-scripts/ifcfg-ens33

根据其他资料显示,ifcfg-en33文件名不定,命名规则总是ifcfg-xxx,文件内容如下:

TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=dhcp
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=1bf1d746-36b1-4812-9295-9bdbe339b3a5
DEVICE=ens33
ONBOOT=no

将最后一行ONBOOT=no修改为ONBOOT=yes,保存退出。

配置linux环境

安装后续会用到的各种东西,其实缺啥补啥就行,只是每次补足缺少的东西,总要重新编译,很费劲。

yum install -y gcc zlib zlib-devel openssl-devel sqlite-devel

最后几行如下 
这里写图片描述

更改openjdk为java jdk

有啥用?不清楚,只是听说java jdk更好,所以瞎折腾。

卸载openjdk

rpm -qa | grep openjdk

结果如下: 
这里写图片描述
这几个openjdk都要卸载,依次执行以下命令

rpm -e --nodeps java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64
rpm -e --nodeps java-1.7.0-openjdk-1.7.0.141-2.6.10.5.el7.x86_64
rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.141-2.6.10.5.el7.x86_64
rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.131-11.b12.el7.x86_64

再次执行rpm -qa | grep openjdk检查是否卸载干净。结果如下: 
这里写图片描述

安装java jdk

cd /usr/local

把java jdk拽进来,我用的jdk-8u151-linux-x64.tar.gz

tar -zxvf jdk-8u151-linux-x64.tar.gz
mv ./jdk1.8.0_151 ./java/ # 名字太长,改个名字

修改java jdk环境变量

vim /etc/profile

文末增加以下内容

#java jdk
export JAVA_HOME=/usr/local/java
export PATH=$JAVA_HOME/bin:$PATH

保存退出,source /etc/profile使之生效。输入javac查看,再使用java -version查看如果正确安装,结果如下: 
这里写图片描述

安装python

cd /usr/local

把下载好的python拽进去,没有现成的wget下载一个也行。这里用的是Python-3.6.4.tgz

tar -zxvf Python-3.6.4.tgz
cd Python-3.6.4/
mkdir /usr/local/python3 # 创建安装文件夹,python3就安装在这里
./configure --prefix=/usr/local/python3 # 编译,指定安装目录
make && make install # 如果上一步没有安装依赖包,会提示出错,缺啥补啥,重新编译就完了。

配置python环境变量

看其他资料,一般都是使用ln -s /usr/local/python3/bin/python3 /usr/bin/python3创建软连接,不过个人不太习惯,因为接下来要设置python中搜索spark的环境变量,而用软连接这种方法,我不会设置,囧,因此还是使用修改环境变量的方法。 
命令行输入vim /etc/profile,文末增加以下内容

#python
export PYTHON_HOME=/usr/local/python3
export PATH=$PYTHON_HOME/bin:$PATH

保存退出,source /etc/profile使之生效。命令行输入python3 -Vpip3 -V如果正确安装,会分别返回如下结果:

Python 3.6.4
pip 9.0.1 from /usr/local/python3/lib/python3.6/site-packages (python 3.6)

安装Jupyter

pip3 install jupyter

安装成功截图如下: 
这里写图片描述
进入虚拟机,使用终端打开jupyter

source /etc/profile # 首次使用需要重新source使配置生效
jupyter notebook

命令行结果如下: 
这里写图片描述 
最终会打开jupyter如下: 
这里写图片描述

安装单机spark

cd /usr/local

把spark拽进来,我用的是spark-2.2.1-bin-hadoop2.7.tgz

tar -zxvf spark-2.2.1-bin-hadoop2.7.tgz
mv ./spark-2.2.1-bin-hadoop2.7 ./spark # 名字太长不看,改短

设置spark环境变量

vim /etc/profile

文末增加以下内容:

#spark
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin:$PATH
#add spark to python
export PYTHONPATH=/usr/local/spark/python

输入source /etc/profile使之生效,输入pyspark检查是否安装成功,如果正确安装,会返回如下界面: 
这里写图片描述

将pyspark与jupyter连接

打开vim /etc/profile配置环境变量。 
文末增加如下内容:

#add pyspark to jupyter
export PYSPARK_PYTHON=/usr/local/python3/bin/python3 # 因为我们装了两个版本的python,所以要指定pyspark_python,否则pyspark执行程序会报错。
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

回到虚拟机,打开终端,执行以下命令

source /etc/profile
pyspark

命令行结果如下: 
这里写图片描述

最终会打开jupyter,我们在jupyter中新建python3脚本。

输入sc检查pyspark是否成功启动,如果结果如下,说明pyspark成功启动。

这里写图片描述

使用jupyter运行一个spark案例

求π

import random
num_samples = 1000
def inside(p):     
    x, y = random.random(), random.random()
    return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
3.184

这里写图片描述

一、进行换源处理,这里选的是阿里的yum源 1:在root用户下输入 cd /etc/yum.repos.d 命令,输入ls 并展开 2:将CentOS-Base.repo 进行备份,在root用户下输入命令 curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo 3:第三步完成后输入命令 yum clean all 4:第四步完成后输入命令 yum makecache 直至数据加载完成 5:第五步完成后输入命令 yum update -y 更新安装包 直至完成 6:最后在root用户下输入命令 yum install wget 安装wget软件,安装成功如图所示 二、在基于Red Hat的发行版中,可以使用DNF或YUM工具安装Python: yum install python3 安装完成后,执行以下命令检查安装结果: python3 --version 环境配置 vi ~/.bashrc export SPARK_HOME=/usr/local/spark export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.7-src.zip:$PYTHONPATH export PATH=$SPARK_HOME/bin:$PATH source ~/.bashrc 三、打开Pyspark cd /usr/local/spark ./bin/pyspark 现在,你可以开始编写你的第一个PySpark程序。可以使用以下代码创建一个简单的Spark应用程序,计算一个数据集的平均值。 from pyspark.sql import SparkSession # 创建Spark会话 spark = SparkSession.builder \ .appName("MyFirstApp") \ .getOrCreate() # 创建数据 data = [(1, &#39;Alice&#39;), (2, &#39;Bob&#39;), (3, &#39;Cathy&#39;)] columns = ["id", "name"] # 创建DataFrame df = spark.createDataFrame(data, columns) # 显示DataFrame内容 df.show() # 计算平均值 average_id = df.groupBy().avg("id").first()[0] print(f"Average ID: {average_id}") # 结束Spark会话 spark.stop() 四、jupytor Install pip: yum install epel-release yum install python3-pip Verify pip Installation: pip3 --version 1. 安装编译工具和依赖库 yum groupinstall "Development Tools" yum install -y python3-devel libffi-devel openssl-devel pkgconfig 2. 安装 argon2 依赖库 yum install -y libargon2-devel 3更新 pip 和 setuptools pip3 install --upgrade pip setuptools wheel 4. 单独安装 argon2-cffi-bindings pip3 install argon2-cffi-bindings 1. 安装Jupyter(Linux终端) 在Linux终端中运行以下命令: pip3 install jupyter 2. 配置Spark环境变量(Linux终端) 在Linux终端中编辑环境变量文件: vi ~/.bashrc export SPARK_HOME=/usr/local/spark export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.7-src.zip:$PYTHONPATH export PATH=$SPARK_HOME/bin:$PATH source ~/.bashrc 3. 安装依赖库(Linux终端) 在Linux终端中安装Python依赖: pip3 install findspark pyspark 2、生成jupyter配置文件 #root用户: jupyter notebook --generate-config --allow-root 3、打开ipython,生成密码 ipython from notebook.auth import passwd passwd() – 输入密码并按回车确认 输入密码后,会生成秘钥,稍后用到,秘钥:&#39;argon2:$argon2id$v=19$m=10240,t=10,p=8$mPEEyotF56sm8V1Iv6/6Ng$xM7dYChXNFxeVBG9LaHUcTmj5pLRSOiFB3hfqSPe/Sk&#39; 4、修改配置文件 vi /root/.jupyter/jupyter_notebook_config.py c.NotebookApp.ip = &#39;*&#39; #c.NotebookApp.notebook_dir = &#39;/root/jupyder_dir&#39; c.NotebookApp.open_browser = False c.NotebookApp.password = &#39;argon2:$argon2id$v=19$m=10240,t=10,p=8$mPEEyotF56sm8V1Iv6/6Ng$xM7dYChXNFxeVBG9LaHUcTmj5pLRSOiFB3hfqSPe/Sk&#39; c.NotebookApp.port = 8888 c.NotebookApp.allow_remote_access = True c.NotebookApp.allow_root = True 5、启动jupyter – root用户 jupyter notebook --allow-root
最新发布
06-05
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值