linux创建pyspark虚拟环境

Python伊甸园

已于 2024-01-04 13:58:30 修改

阅读量903

点赞数 12

文章标签： linux pytorch 人工智能

于 2024-01-02 16:24:51 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_42830697/article/details/135334632

版权

一、创建虚拟环境

conda create -n test python=3.6.6

二、注意添加镜像

vi /root/.condarc

channels:
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - http://mirrors.ustc.edu.cn/anaconda/pkgs/main/
  - http://mirrors.ustc.edu.cn/anaconda/pkgs/free/
show_channel_urls: true
ssl_verify: true

三、安装pyspark

pip install pyspark==3.2.0 -i https://pypi.doubanio.com/simple/

四、安装其他包

pip install numpy==1.19.0 -i https://pypi.doubanio.com/simple/

pip install matplotlib==3.3.3 -i https://pypi.doubanio.com/simple/

pip install scikit-learn==0.24.2 -i https://pypi.doubanio.com/simple/

pip install pytz

pip install pandas==1.1.5 -i https://pypi.doubanio.com/simple/

五、Web ui 页面

六、提交一个任务

${SPARK_HOME}/bin/spark-submit \
--master local[2] \
${SPARK_HOME}/examples/src/main/python/pi.py \
10

python闲聊Q群：768615042

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Python伊甸园

关注关注

12
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Linux 安装 pySpark

JanLEE

01-23

867

1、安装Java和Scale。 1.1、Java 参考 Java 安装运行 1.2、Scale安装 1）下载并解压官网地址：https://www.scala-lang.org/download/ wget https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgz tar -zxvf scala-2.13.1.tgz mv scala-2.13.1 scala 2）配置 vim /etc/profile SCALA_HOME=/

linux创建虚拟环境（python虚拟环境）

大柳的博客

12-25

1万+

解决问题1：为便于对包进行管理，多个python项目需要使用独立的python环境，这样便于进行包的管理，利用Anaconda来创建一个干净的python虚拟环境解决问题2：在提交代码到yarn模式的时候，会出现诸如类似如下报错。 ImportError: No module named numpy 第一步：安装Anaconda。系统中首先需要安装的有anaconda，然后才可以使用conda命令，此步骤是为了用conda命令。下载。下载途径可以选择从官网下载，但速度很慢。建议使用清华大学开源软件

参与评论您还未登录，请先登录后发表或查看评论

Linux 环境安装Pyspark

qq_65960840的博客

12-18

1683

1.将下载好的安装包上传到linux系统中2.解压安装包按回车多次按空格，直到看到最后时候输入yes再次输入yes输入想要安装的路径，注意：最后一个anaconda3是安装时候自动创建的文件夹，所以要保证上一个目录下没有anaconda3这个文件夹。输入yes后，继续回车然后等待安装。安装完成。

Pyspark环境搭建及案例（Windows）

最新发布

W_chuanqi的博客

04-06

1541

如果不怕包的版本管理混乱，可以直接使用已有的Python环境。首先，我们新建一个文件夹，作为虚拟环境的存放路径（也可以不用，conda创建虚拟环境时检测到没有会自动新建）：创建完成：安装psutil。

Linux下配置pyspark环境

WGS.

03-22

1797

文章目录下载安装包解压文件在启动PySpark之前，需要设置以下环境来设置Spark路径和 Py4j路径现在我们已经设置了所有环境，让我们转到Spark目录并通过运行以下命令调用PySpark shell 下载安装包 https://spark.apache.org/downloads.html 这里就安装最新版了解压文件 tar -zxvf /export/spark-3.1.1-bin-hadoop2.7.tgz -C /export/service/ 在启动PySpark之前，需要设置以下环

Linux系统下Spark的下载与安装（pyspark运行示例）

m0_55245520的博客

01-04

2774

最近需要完成数据课程的作业，因此实践了一下如何安装并配置好spark。

Linux CentOS安装PySpark3.5（单机版）详细教程及机器学习实战

weixin_44458771的博客

09-05

2106

PySpark 是 Apache Spark 的 Python 接口，提供了一套丰富的 API，用于进行分布式数据处理、机器学习和复杂的数据分析任务。它允许 Python 开发者利用 Spark 的并行计算和内存计算能力，处理大规模数据集。PySpark 提供了 DataFrame、DataSet 和 RDD 等数据结构，以及各种算子，用于数据的读取、转换和计算。

linux虚拟机搭建pyspark环境

诗蕊的专栏

06-30

6447

搭建linux虚拟机下载virtualbox，下载地址：https://www.virtualbox.org/wiki/Downloads，然后安装。下载centos操作系统，http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1804.iso，然后在virtualbox中新建虚拟机。创建名字...

windows+pycharm+pyspark+linux远程开发环境搭建

m0_47792921的博客

04-04

3182

Anaconda liunx版本下载 Anaconda | The World’s Most Popular Data Science Platform Anaconda linux版本安装上传文件到虚拟机安装目录下在安装目录下运行程序 sh ./Anaconda3-2021.11-Linux-x86_64.sh 按回车继续，之后按空格一直到 yes/no 输入yes 再之后输入需要安装的目录之后就等待安装完成 Anaconda换源 sudo gedit ~/.condarc 添加内容 chan

anaconda创建虚拟环境下安装的pyspark包，在哪里，如何进行环境配置

11-04

Anaconda 创建的虚拟环境中安装的 PySpark 包通常会位于该虚拟环境的 site-packages 目录下。具体路径通常是类似这样的： ``` anaconda-root/condaenvs/your-env-name/lib/pythonX.Y/site-packages/pyspark/ ``` ...

pyspark 引入虚拟环境依赖包以及向yarn集群提交任务攻略

u010569893的博客

07-18

2727

Pyspark spark-submit 集群提交任务以及引入虚拟环境依赖包攻略以虚拟环境引入project_demo项目包，并向spark yarn提交spark任务为例：将project_demo安装到虚拟环境中 1）virtualenv local_venv #创建虚拟环境 2）source local_venv/bin/activate #运行虚拟环境 3）pip insta...

win10下Anaconda3在虚拟环境python_version=3.5.3 中配置pyspark

天之涯~海之角

07-25

5561

win10下Anaconda3在虚拟环境python_version=3.5.3 中配置pyspark1. 序经过了一天的修炼，深深被恶心了，在虚拟环境中配置pyspark花式报错，由于本人实在是不想卸载3.6版的python,所以硬刚了一天，终于摸清了配置方法，并且配置成功,不抱怨了，开讲

linux目录下pyspark,Linux下搭建PySpark环境

weixin_34475212的博客

04-29

184

安装spark：tar -zxvf ./spark-2.4.3-bin-hadoop2.7.tgz -C ./sparkexport SPARK_HOME=/home/service/spark-2.4.5-bin-hadoop2.7export PATH=$SPARK_HOME/bin:$PATH安装hadoop：tar -zxvf ./hadoop-2.6.0-cdh5.8.5.tar.gz ...

Linux服务器下PySpark环境安装

热门推荐

js010111的博客

01-30

1万+

Linux服务器下PySpark环境安装一、JDK安装 1. 下载JDK安装包进入Java官网下载对应的JDK版本，建议下载较早的版本，可能出现不兼容的。这里选择下载jdk-8u321-linux-x64.tar，下载完毕适用Xftp7上传至服务器并解压。 tar -zxfv jdk-8u321-linux-x64.tar 2. 修改 `/etc/profile` 文件，添加环境变量配置信息。 vim /etc/profile 在文件末尾添加如下的配置信息 export JAVA_HO

在Linux上配置PySpark

Lauhoman的博客

04-20

1万+

在Linux上配置PySpark2016-04-20 20:58:49配置环境系统：Debian - 8.3.0内核版本：3.16.0-4-amd64Python版本：2.7.9GCC版本：4.9.2JDK版本：1.8.0引言因为想要在OSX上面安装PySpark（Spark的Python版本），为了保证安装过程顺利，所以我决定现在Linux虚拟机里面安装一遍，了解一下过程和注意的问题。配置过程1.

python虚拟环境可以运行pyspark_PyCharm搭建Spark开发环境实现第一个pyspark程序

weixin_39850599的博客

11-23

336

一, PyCharm搭建Spark开发环境Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6通常情况下，Spark开发是基于Linux集群的，但这里作为初学者并且囊中羞涩，还是在windows环境下先学习吧。参照这个配置本地的Spark环境。之后就是配置PyCharm用来开发Spark。本人在这里浪费了不少时间，因为百度出来...

linux环境安装pyspark

weixin_37684231的博客

04-19

320

操作系统：Ubuntu 18.04,64位。所需软件： Java 8 +，Python 3.7 +, Scala 2.11.12+ 安装步骤： Step 1: Java 8安装 sudo apt-get update sudo apt-get install openjdk-8-jdk java -version 安装成功后，会显示如下画面： Step 2: 如果Java安装完成后，我们安装Scala： wget https://downloads.lightbend.com/scala/2.12.8

Linux:Spark(Python版)安装和环境变量配置

ZMC2822846684的博客

09-16

4155

Spark 环境搭建：java8以上版本+Python3.x.x版本+hadoop3.x.x版本+Spark3.x.x环境搭建

linux系统pyspark和hadoop环境搭建

03-13

### 如何在Linux系统上搭建PySpark和Hadoop环境要在Linux系统上设置PySpark和Hadoop环境，需要完成几个关键步骤。以下是详细的说明： #### 1. 安装Java 由于Hadoop依赖于Java运行时环境（JRE），因此必须先安装Java开发工具包（JDK）。可以通过以下命令验证当前系统是否已安装Java[^1]： ```bash java -version ``` 如果未安装，则可以使用APT包管理器来安装OpenJDK： ```bash sudo apt update sudo apt install openjdk-8-jdk ``` #### 2. 设置JAVA_HOME环境变量为了使操作系统能够识别Java的位置，在`~/.bashrc`文件中添加如下配置： ```bash export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$PATH:$JAVA_HOME/bin ``` 保存并重新加载`.bashrc`文件以应用更改： ```bash source ~/.bashrc ``` #### 3. 下载并解压Hadoop 从Apache官方网站下载最新版本的Hadoop二进制文件，并将其解压缩到指定目录下： ```bash wget https://downloads.apache.org/hadoop/common/stable/hadoop-x.y.z.tar.gz tar -xzvf hadoop-x.y.z.tar.gz -C /opt/ ln -s /opt/hadoop-x.y.z/ /opt/hadoop ``` 编辑Hadoop配置文件中的核心参数，例如`hdfs-site.xml`和`core-site.xml`。 #### 4. 配置Hadoop环境变量同样地，通过修改`~/.bashrc`文件将Hadoop路径加入系统的环境变量中： ```bash export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 再次执行`source ~/.bashrc`更新shell会话。 #### 5. 安装Python及其库支持确保已经安装了Python以及pip工具之后，继续安装PySpark所需的依赖项： ```bash sudo apt-get install python3-pip pip3 install pyspark pyarrow findspark ``` #### 6. 启动Hadoop服务启动NameNode与DataNode守护进程之前，请确认SSH无密码登录已被正确配置好。接着依次运行下面两条指令开启集群节点的服务： ```bash start-dfs.sh start-yarn.sh ``` #### 7. 测试PySpark脚本编写简单的测试程序验证整个流程是否成功连通。比如创建一个名为test_pyspark.py的新文件，内容如下所示： ```python from pyspark import SparkContext, SparkConf if __name__ == "__main__": conf = SparkConf().setAppName('TestApp').setMaster('local') sc = SparkContext(conf=conf) data = range(1, 1000) rdd = sc.parallelize(data) result = rdd.map(lambda x: x * 2).collect() print(result[:10]) ``` 最后利用spark-submit提交作业或者直接交互式解释器里尝试操作数据集即可。 ---