
hive
孙张宾
持续进步
展开
-
Hive窗口函数总结
基础的:SUM,AVG,MIN,MAX NTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值 ROW_NUMBER() –从1开始,按照顺序,生成分组内记录的序列 RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位 DENSE_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位 CUME_DIST 小于等于当前值的行数/分组内总行数 PE原创 2017-01-03 16:57:32 · 702 阅读 · 0 评论 -
Hive join on的不等条件实现方法
hql的join on操作只支持相等条件,比如:select * from a join b on a.id=b.id;但是不支持相等条件以外的情况,比如:select * from a join b on a.id <> b.id;select * from a join b on a.name like '%'+b.name+'%';这是因为Hive很难把不等条件翻译成mapreduce jo原创 2016-12-02 22:31:09 · 30605 阅读 · 2 评论 -
Hive动态分区
把数据insert或者load进指定的表分区,这个分区需要时已经存在的,如果想让hive表自动生成分区时,需要配置开启动态分区,配置如下:SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.exec.max.dynamic.partitions.pernod原创 2017-01-03 17:26:59 · 1199 阅读 · 0 评论 -
Hive查询总结
先看下官网的查询语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WH原创 2017-01-03 19:14:34 · 1353 阅读 · 0 评论