Hive、Spark Sql中为什么说group by是distinct的优化?
用LogicalPlan带你一探究竟
无论是Hive还是SparkSql都会生成LogicalPlan,PhysicalPlan只要我们明白了 他在底层如何转换如何优化的就能知道group by和distinct有何区别。
group by
sql: “select name from student group by name”

distinct
sql:“select distinct name from student”

看图说话
我们会发现distinct的逻辑计划在底层生成的优化后的逻辑化转换成了group by的逻辑计划
这篇博客深入探讨了Hive和SparkSql中groupby与distinct操作的底层逻辑。通过分析LogicalPlan,揭示了distinct在优化过程中实际上转化为groupby的实现方式。这一转换表明,groupby在某些情况下可能是distinct的更优选择,特别是在大数据处理场景下。
1242

被折叠的 条评论
为什么被折叠?



