
hive
文章平均质量分 67
luffy
JD数据罗盘
展开
-
hive之窗口函数理解与实践
rt_data表存放了当天每半小时的店铺销售数据------------------------------------------------------------1.统计截止到当前时间段的店铺累计销售金额select shop_id, stat_date, ordamt, sum(ordamt) over(partition by shop_id order by stat_da原创 2015-01-13 14:58:39 · 44125 阅读 · 10 评论 -
Lateral View语法
1). Lateral View语法[html] view plaincopylateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* fromClause: FROM baseTable (lateralView)*转载 2014-09-28 18:07:06 · 2703 阅读 · 0 评论 -
hive多表插入
多表插入指的是在同一条语句中, 把读取的同一份元数据插入到不同的表中。只需要扫描一遍元数据即可完成所有表的插入操作, 效率很高。多表操作示例如下。hive> create table mutill as select id,name from userinfo; #有数据hive> create table mutil2 like mutill; #无数据,只有表结构hive> fro原创 2014-02-14 15:51:29 · 6494 阅读 · 0 评论 -
on条件与where条件的区别
目录(?)[-]JOIN联表中ONWHERE后面跟条件的区别数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户。 在使用left jion时,on和where条件的区别如下:1、 on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。2、where条件是在临时转载 2013-11-21 10:35:45 · 2313 阅读 · 0 评论 -
Hive优化总结
Hive优化总结---by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如转载 2013-10-01 20:19:09 · 921 阅读 · 0 评论 -
hive SQL优化之distribute by和sort by
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://yaoyinjie.blog.51cto.com/3189782/703873 最近在优化hiveSQL,下面是一段排序,分组后取每组第一行记录的SQLINSERT OVERWRITE TABLE t_wa_funnel_distinct_temp转载 2013-10-01 18:06:11 · 1125 阅读 · 0 评论