
数据仓库
文章平均质量分 91
瑟科塞斯
努力奋斗
展开
-
SQL理论知识第一部分
1、hive sql中空字符串和null2、hive sql中order by、sort by、distribute by、cluster by用法3、连接查询中,on和where条件含义原创 2022-09-05 20:23:31 · 993 阅读 · 0 评论 -
数据倾斜的原因及解决方案
数据倾斜数据倾斜定义数据倾斜表现数据倾斜原因数据倾斜解决方案1、group by导致数据倾斜2、count(distinct)特殊值较多3、join操作4、空值或数据类型不一致所致5、优化in/exists6、排序选择数据倾斜定义定义:对于集群系统,一般缓存是分布式的,即不同节点负责一定范围的缓存数据。我们把缓存数据分散度不够,导致大量的缓存数据集中到了一台或者几台服务节点上,称为数据倾斜。一般来说数据倾斜是由于负载均衡实施的效果不好引起的。举例:如果有10亿数据,一台电脑可能要10小时,现在集群有1原创 2022-04-19 00:02:06 · 8018 阅读 · 0 评论