PySpark中RDD与DataFrame:区别和联系
1. 弹性数据集RDDRDD是一个抽象的分布式数据集合,它提供了一系列转化操作(例如基本的map()、flatMap()、filter(),类集合操作union()、intersection()、subtract())和行动操作(例如collect()、count()、take()、top()、reduce()、foreach())。可以说,RDD是非常灵活的数据集合,其中可以存放类型相同或者...
原创
2018-06-16 18:35:05 ·
12487 阅读 ·
2 评论