import pyspark from pyspark import SparkConf, SparkContext import os import sys os.environ['PYSPARK_PYTHON'] = sys.executable os.environ['PYSPARK_DRIVER_PYTHON'] = sys.executable if __name__ == '__main__': # 创建 SparkConf 对象并设置应用名称和主节点 conf = SparkConf() \ .setAppName("test") \ .setMaster("local[*]") \ # 创建 SparkContext 对象 sc = SparkContext(conf=conf) # 创建一个列表 data = [1, 2, 3, 4, 5] # 将列表转换为 RDD distData = sc.parallelize(data) # 使用 reduce 方法计算 RDD 中所有元素的和 x = distData.reduce(lambda a, b: a + b) # 打印结果 print(x) # 停止 SparkContext sc.stop()
pycharm 上运行 pyspark demo
最新推荐文章于 2025-06-01 13:31:27 发布