
Hive
文章平均质量分 50
就想叫筷子
这个作者很懒,什么都没留下…
展开
-
Hive开窗
练习的时候发现hive也支持开窗函数三个字段的意思:用户名,月份,访问次数 A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-0...原创 2019-01-18 19:37:32 · 229 阅读 · 0 评论 -
Hive on Spark 互相匹配的版本对照表
Hive Version Spark Version 3.0.x 2.3.0 2.3.x 2.0.0 2.2.x 1.6.0 2.1.x 1.6.0 2.0.x 1.5.0 1.2.x 1.3.1 1.1.x 1.2.0转载 2019-01-22 08:15:02 · 5836 阅读 · 0 评论 -
Hive的Transform功能(转载)
Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQLSELECT date, count(uid)FROM xxxGROUP BY date但是,如果我想在reduce阶段对每天的uid形成一个列表,进行排序并输出,这在Hive中没有现成的功能。那么,可以自写脚本...转载 2019-02-12 15:18:00 · 3381 阅读 · 0 评论 -
hive SMB join 验证实验
关于hive的SMB join 有一些成立的前提条件首先: 两张表是分桶的,在创建表的时候需要指定:CREATETABLE(……) CLUSTERED BY (col_1) SORTED BY (col_1) INTO buckets_Nums BUCKETS其次:两张表分桶的列必须是JOIN KEY最后:需要设置一些bucket相关的参数set hive.auto.conve...原创 2019-03-12 16:01:54 · 3522 阅读 · 0 评论 -
hive中关于cube的使用
在hive中也可以使用cube或者roll up的语法示例select rang_age,PRODUCT_TYPE_CH,y,count(*),grouping__idfrom temp_1 twhere t.validate_date_rank=1and PRODUCT_TYPE_CH='意外伤害保险'and rang_age='20-30岁'group by ran...原创 2019-03-25 11:17:59 · 6026 阅读 · 0 评论 -
将collect_set改成既排重又排序
collect_set无法满足业务需要,只排重不排序。为了实现又排重又排序,重写了collect_set的底层源码。其实就是把底层的LinkHashSet改成TreeSet。涉及到的类org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectSet;org.apache.hadoop.hive.ql.udf.generic.Generi...原创 2019-04-16 16:03:37 · 6500 阅读 · 2 评论 -
hive中与oracle一些看上去类似但结果不同的写法总结
1、hive中的date_format与oracle的to_date两个函数都用来将给定字符串转换成指定格式,date_format最终转换成字符串,to_date转成日期。另外to_date中用来指定转换格式的模板yyyymmdd,大写小均可以得到的结果也是一致的select to_date('2019-01-01','yyyy-mm-dd'), to_date('2019-01-01',...原创 2019-04-22 09:55:14 · 2450 阅读 · 1 评论