windows安装pyspark(python版spark)

最新推荐文章于 2025-05-18 16:16:35 发布

原创最新推荐文章于 2025-05-18 16:16:35 发布 · 2.1k 阅读

6 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

63 篇文章

订阅专栏

本文详细介绍如何在本地环境中安装并配置JDK与PySpark，通过实例演示如何使用PySpark进行数据处理，包括数据创建、转换及聚合操作，适合初学者快速上手。

1.安装jdk，参见前文

2.安装pyspark

#这个比较慢
pip install -U pyspark

#这个快一点
pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

from pyspark.sql import SparkSession
from pyspark.sql.functions import col
 
# 初始化
spark = SparkSession.builder.master("local[*]").appName("FiratApp").getOrCreate()
 
# 下面两句都可以获取0到9的数据
# data = spark.createDataFrame(map(lambda x: (x,), range(10)), ["id"])
data = spark.range(0, 10).select(col("id").cast("double"))
 
# 求和
data.agg({'id': 'sum'}).show()
 
# 关闭
spark.stop()