1. pyspark 版本
2.3.0版本
2. 官网
foreach(f)[source]
Applies a function to all elements of this RDD.
中文: 将函数应用于此RDD的所有元素。
>>> def f(x): print(x)
>>> sc.parallelize([1, 2, 3, 4, 5]).foreach(f)
3. 我的代码
from pyspark import SparkContext, SparkConf
conf = SparkConf().setMaster("local").setAppName("foreach")
sc = SparkContext(conf=conf)
lines = sc.parallelize([1, 2, 3, 4, 5])
print('lines= ', lines.collect())
>>> lines= [1, 2, 3, 4, 5]
def f(x):
print(x)
def tranformtion(x):
temp_list = []
for i in range(x):
temp_list.append(i)
return temp_list
# rdd = lines.flatMap(lambda x:tranformtion(x))
rdd = lines.map(lambda x:tranformtion(x)).foreach(f)
后台打印:

本文深入探讨了PySpark中foreach函数的使用方法,该函数能够将指定的函数应用于RDD的所有元素,通过实例展示了如何利用foreach进行数据处理。文章还提供了一个使用PySpark 2.3.0版本的具体代码示例。
3万+

被折叠的 条评论
为什么被折叠?



