linux创建pyspark虚拟环境

一、创建虚拟环境

conda create -n test python=3.6.6

二、注意添加镜像

vi /root/.condarc
channels:
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - http://mirrors.ustc.edu.cn/anaconda/pkgs/main/
  - http://mirrors.ustc.edu.cn/anaconda/pkgs/free/
show_channel_urls: true
ssl_verify: true

三、安装pyspark

pip install pyspark==3.2.0 -i https://pypi.doubanio.com/simple/

四、安装其他包

pip install numpy==1.19.0 -i https://pypi.doubanio.com/simple/
pip install matplotlib==3.3.3 -i https://pypi.doubanio.com/simple/
pip install scikit-learn==0.24.2 -i https://pypi.doubanio.com/simple/
pip install pytz
pip install pandas==1.1.5 -i https://pypi.doubanio.com/simple/

五、Web  ui 页面

六、提交一个任务

${SPARK_HOME}/bin/spark-submit \
--master local[2] \
${SPARK_HOME}/examples/src/main/python/pi.py \
10

python闲聊Q群:768615042

### 如何在Linux系统上搭建PySpark和Hadoop环境 要在Linux系统上设置PySpark和Hadoop环境,需要完成几个关键步骤。以下是详细的说明: #### 1. 安装Java 由于Hadoop依赖于Java运行时环境(JRE),因此必须先安装Java开发工具包(JDK)。可以通过以下命令验证当前系统是否已安装Java[^1]: ```bash java -version ``` 如果未安装,则可以使用APT包管理器来安装OpenJDK: ```bash sudo apt update sudo apt install openjdk-8-jdk ``` #### 2. 设置JAVA_HOME环境变量 为了使操作系统能够识别Java的位置,在`~/.bashrc`文件中添加如下配置: ```bash export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$PATH:$JAVA_HOME/bin ``` 保存并重新加载`.bashrc`文件以应用更改: ```bash source ~/.bashrc ``` #### 3. 下载并解压Hadoop 从Apache官方网站下载最新版本的Hadoop二进制文件,并将其解压缩到指定目录下: ```bash wget https://downloads.apache.org/hadoop/common/stable/hadoop-x.y.z.tar.gz tar -xzvf hadoop-x.y.z.tar.gz -C /opt/ ln -s /opt/hadoop-x.y.z/ /opt/hadoop ``` 编辑Hadoop配置文件中的核心参数,例如`hdfs-site.xml`和`core-site.xml`。 #### 4. 配置Hadoop环境变量 同样地,通过修改`~/.bashrc`文件将Hadoop路径加入系统的环境变量中: ```bash export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 再次执行`source ~/.bashrc`更新shell会话。 #### 5. 安装Python及其库支持 确保已经安装了Python以及pip工具之后,继续安装PySpark所需的依赖项: ```bash sudo apt-get install python3-pip pip3 install pyspark pyarrow findspark ``` #### 6. 启动Hadoop服务 启动NameNode与DataNode守护进程之前,请确认SSH无密码登录已被正确配置好。接着依次运行下面两条指令开启集群节点的服务: ```bash start-dfs.sh start-yarn.sh ``` #### 7. 测试PySpark脚本 编写简单的测试程序验证整个流程是否成功连通。比如创建一个名为test_pyspark.py的新文件,内容如下所示: ```python from pyspark import SparkContext, SparkConf if __name__ == "__main__": conf = SparkConf().setAppName('TestApp').setMaster('local') sc = SparkContext(conf=conf) data = range(1, 1000) rdd = sc.parallelize(data) result = rdd.map(lambda x: x * 2).collect() print(result[:10]) ``` 最后利用spark-submit提交作业或者直接交互式解释器里尝试操作数据集即可。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值