1. Spark的编程流程就是:
将数据加载为RDD(数据输入)
对RDD进行计算(数据计算)
将RDD转换为Python对象(数据输出)
2. 数据输出的方法
将RDD的结果输出为Python对象的各类方法
collect:将RDD内容转换为list
reduce:对RDD内容进行自定义聚合
take:取出RDD的前N个元素组成list返回
count:统计RDD元素个数返回
collect算子:
将RDD各个分区内的数据,统一收集到Drive中,形成一个list对象
reduce算子:
对RDD数据集按照传入的逻辑进行聚合,返回值等同于计算函数的返回
<