hive
Monkey_cz
日常更博提升技术
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive中排序和聚集比较
//五种子句是有严格顺序的:where → group by → having → order by → limit//where和having的区别://where是先过滤再分组(对原始数据过滤),where限定聚合函数hive> select count(*),age from tea where id>18 group by age;//having是先分组再过滤(对每个组进...转载 2018-03-02 22:21:30 · 558 阅读 · 0 评论 -
hive实现自增列的两种方法
hive没有关系数据库中的自增列(oracle中rownum),但它对自增序列有支持,通常有两种方法生成代理键:1)使用row_number()窗口函数2)使用一个名为UDFRowSequence的用户自定义函数(UDF)假设现在有维度表tbl_dim和过渡表tbl_stg,现在要将tbl_stg的数据装载到tbl_dim,装载的同时生成维度表的代理键。方法一(使用row_number()生成代理...转载 2018-03-05 10:19:36 · 3506 阅读 · 0 评论 -
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例)。分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别。0x01 ...转载 2018-05-27 16:28:00 · 979 阅读 · 0 评论
分享