map算子:
功能map算子,是将RDD数据一条条处理(处理逻辑基于map算子中接收的处理函数),返回新的RDD:rdd.map(func)
from pyspark import SparkConf , SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "D://python3.8/python.exe" #pyspark在python的解释器在哪
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf = conf)
#准备一个RDD
rdd = sc.parallelize([1,2,3,4,5])
#计算
#(T)—> u 其中(T)表示传入参数鉴定,表示接受一个传入参数的函数,-u表示返回值
def func(data):
return data*10
rdd2 = rdd.map(func)
print(rdd2.collect())
sc.stop()