运行python版本的Spark程序

最新推荐文章于 2025-06-24 16:30:27 发布

houmou

最新推荐文章于 2025-06-24 16:30:27 发布

阅读量1.1w

点赞数 7

CC 4.0 BY-SA版权

分类专栏： Spark python 文章标签： python spark

本文链接：https://blog.youkuaiyun.com/houmou/article/details/50925573

本文介绍了两种运行Python版本Spark程序的方法：通过spark-submit解释执行和使用Python解释执行。在spark-submit方式中，需在python脚本开头导入Spark模块，并使用spark-submit提交。而在Python解释执行时，由于缺少pyspark和py4j模块，需要设置PYTHONPATH环境变量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

两种方法：

使用 spark-submit 解释执行python脚本
使用 python 解释执行python脚本

1. 使用Spark-submit解释执行python脚本

python脚本中需要在开头导入spark相关模块，调用时使用spark-submit提交，示例代码如下：

===========================================================

"""odflow.py"""
from pyspark import SparkContext

fileDir = "/TripChain3_Demo.txt"
# sc = SparkContext("local", "ODFlow")
sc = SparkContext("spark://ITS-Hadoop10:7077", "ODFlow")
lines = sc.textFile(fileDir)

# python不能直接写多行的lambda表达式，所以要封装在函数中
def toKV(line):
    arr = line.split(",")
    t = arr[5].split(" ")[1].split(":")
    return (t[0]+t[1]+","+arr[11]+","+arr[18],1)

r1 = lines.map( lambda line : toKV(line) ).reduceByKey(lambda a,b: a+b)
# 排序并且存入一个（repartition）文件中
r1.sortByKey(False).saveAsTextFile("/pythontest/output")

===========================================================

发布命令为：