spark dataframe用法
最近想升级spark,研究了下新版spark的功能Dataset 和Dataframe。Dataset 是分布式数据集, dataset的API是在spark 1.6版本中添加地,它的初衷是为了提升RDD(强类型限制, 可以使用lambda函数)优化SQL执行引擎。Dataset是JVM中的一个对象,可以作用于其它操作(map,faltMap, filter等)。Dataset API提供Scal...
原创
2018-06-15 15:56:12 ·
797 阅读 ·
0 评论