0、前言
本文列举几个常见的pyspark动作函数,几个常见的转换函数点这里
| count() | 返回数据集中的元素个数 |
|---|---|
| collect() | 以列表的形式返回数据集中的所有元素 |
| first() | 返回数据集中的第一个元素 |
| take(n) | 以数组的形式返回数据集中的前n个元素 |
| reduce(func) | 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素 |
| foreach(func) | 将数据集中的每个元素传递到函数func中运行 |
1、collect()
rdd = sc.parallelize([1, 2

最低0.47元/天 解锁文章
2237

被折叠的 条评论
为什么被折叠?



