HIVE相关
迷惘的小行星
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HiveSQL语句中SELECT,FROM,WHERE,GROUP BY,LIMIT,ORDER BY的执行顺序
1.from 2.where 3.group by 4.order by 5.limit 6.select原创 2021-01-22 22:31:04 · 1437 阅读 · 2 评论 -
hive中处理数据倾斜
1.count(distinct) 当某key的值过多时,处理此key的reduce非常耗时,因为只有一个reduce任务 解决办法:将值为空的情况单独处理,如过滤空值的行,在最后结果中加1 2.不同类型关联产生数据倾斜 如int类型和string类型做join操作时,reduce非常耗时,只有一个reduce 解决办法:把int类型转换成string类型 3.开启数据倾斜负载均衡 set hive.groupby.skewindata=true 处理过程:生成两个MRJob,先随机分发处理,再通过key原创 2022-05-12 22:12:13 · 452 阅读 · 0 评论 -
Hive常用函数介绍
1.instr 搜索字符串中指定字符出现的位置,如果没有找到则返回0 instr("abcd",'b') 结果2 2.substr substr("abcdef",1,3) ab substr("abcdef",4) 字符串截取函数,截取指定字符串的内容,若字符串后的参数个数为2,则截取1-3位置(初始位置为0)的字符串; 若 ...原创 2022-01-18 16:35:49 · 1310 阅读 · 0 评论 -
Hive使用中经常用到的SQL
1.表创建 1.1方式1 create table t1( org_id int, banner string, pv int, uv int) partitioned by(day_id string) ##分区 row format delimited fields terminated by '\t' stored as textfile; 1.2方式2 create table t2 as select * from t1; 1.3方式3 create table t2 li原创 2022-01-09 15:25:17 · 1017 阅读 · 0 评论
分享