pyspark环境配置

半_调_子

已于 2022-08-29 23:15:23 修改

阅读量600

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： spark hadoop 大数据

于 2022-05-23 23:18:46 首次发布

本文链接：https://blog.youkuaiyun.com/wangjunji34478/article/details/124937269

python 专栏收录该内容

5 篇文章

订阅专栏

本文指导读者如何在Python环境中安装Hadoop、Spark、Java和Anaconda，并使用PyCharm编写代码，实现从文本文件中读取数据，进行单词计数和聚合。重点介绍了设置环境变量和SparkContext的创建过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一：下载所有hadoop二进制包

第二：下载spark 包

第三：下载java

第四：下载anancode

# 创建虚拟环境 pyspark, 基于Python 3.8
conda create -n pyspark python=3.8

# 切换到虚拟环境内
conda activate pyspark

# 在虚拟环境内安装包
pip install pyhive pyspark jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

通过pycharm写代码：

# coding:utf8
from pyspark import SparkConf, SparkContext
import os
os.environ['JAVA_HOME'] = r"C:\Java\jdk1.8.0_201"
os.environ['SPARK_HOME'] = r"D:\spark-3.1.2-bin-hadoop2.7"
os.environ['PYSPARK_PYTHON'] = r"D:\anaconda3\envs\pyspark\python.exe"
os.environ['HADOOP_HOME']=r"D:\hadoop-2.7.7"
if __name__ == '__main__':
    conf = SparkConf().setAppName("helloword")
    # 通过SparkConf对象构建SparkContext对象
    sc = SparkContext(conf=conf)

 
    file_rdd = sc.textFile("./myfile.text")

 
    words_rdd = file_rdd.flatMap(lambda line: line.split(" "))

    # 将单词转换为元组对象, key是单词, value是数字1
    words_with_one_rdd = words_rdd.map(lambda x: (x, 1))

    # 将元组的value 按照key来分组, 对所有的value执行聚合操作(相加)
    result_rdd = words_with_one_rdd.reduceByKey(lambda a, b: a + b)

    # 通过collect方法收集RDD的数据打印输出结果
    print(result_rdd.collect())