1.安装jdk,参见前文
2.安装pyspark

#这个比较慢
pip install -U pyspark
#这个快一点
pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
# 初始化
spark = SparkSession.builder.master("local[*]").appName("FiratApp").getOrCreate()
# 下面两句都可以获取0到9的数据
# data = spark.createDataFrame(map(lambda x: (x,), range(10)), ["id"])
data = spark.range(0, 10).select(col("id").cast("double"))
# 求和
data.agg({'id': 'sum'}).show()
# 关闭
spark.stop()
本文详细介绍如何在本地环境中安装并配置JDK与PySpark,通过实例演示如何使用PySpark进行数据处理,包括数据创建、转换及聚合操作,适合初学者快速上手。
4963

被折叠的 条评论
为什么被折叠?



