- 博客(2)
- 收藏
- 关注
原创 数据倾斜的原因及其解决方案
发生倾斜的根本原因在于,shuffle之后,key分布的数据量不均匀,使得大量的key集中在某个reduce节点,导致此节点过于“忙碌”,在其他节点都处理完之后,任务的结整需要等待此节点处理完,使得整个任务被此节点堵塞。
2023-03-16 17:44:00
1522
原创 sql入门及大数据概念
题目:订单交易表(orders),对商品按照月份累加汇总。比如,一月份显示一月的交易金额,二月份显示一月份+二月份的交易金额。链接无效可直接搜文章标题:Hive侧视图 Lateral View(单个、多个、outer)(附案例)表2=>表1 可以使用 hive 的内置函数 trans_array()进行转化。表2=>表1 可以使用 hive 的内置函数 explode()进行转化。ps:不想出现null,可直接coalesce替换,代码如下。(1)使用多个SELECT语句进行分组。
2023-03-15 17:20:51
930
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人