dateset[row]=datefrarme也就是说dataframe是dataset的一种特殊情况,他两者与rdd最大的区别 有两点
1、dataframe和dataset 用的是堆外内存不采用java的Gc所以对内存的利用会更加高效
2、dataframe和dataset 带有执行计划,可以对任务进行优化,比如join().distinct() ,他会自动优化成先distinct后jion,而且3.0版本后,他不光会优化执行顺序,他还可以分析如果是小表,就可以直接广播,直接不需要shuffe了
dataset,dataframe,rdd区别
最新推荐文章于 2024-11-28 11:54:12 发布
这篇博客深入探讨了DataFrame和Dataset相对于RDD的两大优势:使用堆外内存提高内存利用率,以及内置的执行计划实现任务优化。通过自动优化执行顺序,如在join()和distinct()操作中,系统会智能地先执行distinct再进行join,甚至在3.0版本后能识别小表并进行广播,避免shuffle操作,显著提升性能。
1890

被折叠的 条评论
为什么被折叠?



