
sparksql
文章平均质量分 76
CodeZhuxh
这个作者很懒,什么都没留下…
展开
-
浅谈Hive SQL的优化
目前团队的数据处理都在Hadoop集群上,一是因为需要处理的数据量都是亿级的,这种规模的数据适合用Hadoop集群并行处理;二是免除了分库分表给查询处理上带来的麻烦。Hive是基于Hadoop的一个数据仓库工具,它将存储在HDFS上的结构化的文件映射成一张关系型数据库表,提供简单的SQL查询功能。本文结合Hive SQL的运行原理谈一谈Hive SQL的优化问题。1. 数据过滤应尽早做,同时只选择所需要的列这个原则在传统的RDMS数据中应该也适用,因为数据提前过滤了之后进行join或者其他操原创 2022-02-17 14:01:32 · 6605 阅读 · 6 评论 -
Spark SQL PERCENTILE分析调研
Spark percentile原理https://zhuanlan.zhihu.com/p/340626739https://www.cnblogs.com/myseries/p/10880641.htmlHive percentile采用的是特殊的数据结构,先通过一轮聚合把每个数值出现的次数用元组的形式存储起来,再通过内存中元组的取值排序取到分位值。所以 Hive 需要在 UDAF 的计算中将数据进行压缩或预处理,那么 Mapper 是需要在生成时不断通过聚合计算更新,其内部实现基于 h原创 2021-03-29 19:12:37 · 2219 阅读 · 0 评论 -
Spark SQL distinct分析优化总结
Spark count distinct原理由于distinct过程会导致数据膨胀,导致shuffle、reduce双端数据倾斜,因此distinct算子操作特别慢distinct慢的主要原因:数据膨胀原理:select count(distinct id), count(distinct name) from table_a distinct算子在处理过程中是将distinct后的字段和group by字段共同作为key传入reduce,导致shuffle.原创 2021-03-29 19:07:28 · 7610 阅读 · 7 评论