PySpark RDD 之 foreach

最新推荐文章于 2025-03-10 19:00:00 发布

原创最新推荐文章于 2025-03-10 19:00:00 发布 · 8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#pyspark #foreach

pyspark 专栏收录该内容

16 篇文章

订阅专栏

本文深入探讨了PySpark中foreach函数的使用方法，该函数能够将指定的函数应用于RDD的所有元素，通过实例展示了如何利用foreach进行数据处理。文章还提供了一个使用PySpark 2.3.0版本的具体代码示例。

1. pyspark 版本

2.3.0版本

2. 官网

foreach(f)[source]

Applies a function to all elements of this RDD.

中文：将函数应用于此RDD的所有元素。

>>> def f(x): print(x)
>>> sc.parallelize([1, 2, 3, 4, 5]).foreach(f)

3. 我的代码

from pyspark import SparkContext, SparkConf
conf = SparkConf().setMaster("local").setAppName("foreach")
sc = SparkContext(conf=conf)
lines = sc.parallelize([1, 2, 3, 4, 5])
print('lines= ', lines.collect())

>>> lines=  [1, 2, 3, 4, 5]


def f(x):
    print(x)
def tranformtion(x):
    temp_list = []
    for i in range(x):
        temp_list.append(i)
    return temp_list
# rdd = lines.flatMap(lambda x:tranformtion(x))
rdd = lines.map(lambda x:tranformtion(x)).foreach(f)

后台打印：