
Hive
想做架构师
这个作者很懒,什么都没留下…
展开
-
Hive 茄子快传案例
多维度统计分析茄子快传用户信息数据截图:1.MR编程,将JSON数据转化,剔除脏数据,上传到Linux的package nuc.edu.ls;import java.io.IOException;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;...原创 2018-08-31 09:21:17 · 980 阅读 · 0 评论 -
Hive 查找app每天的新增用户
新增用户思路:1:抽取出来当天活跃用户 etl_user_active_day,2: 拿当天活跃用户跟历史用户做对比(得出当日的新增用户)3:增加新增用户到历史记录表里面4:对当日新增用户进行各维度统计/** 历史用户表 **/create table etl_history_user(uid string);/** 创建一个每日新增用户表 **/create...原创 2018-08-31 15:12:00 · 2937 阅读 · 0 评论 -
Hive 复合类型存储
arrays: ARRAY<data_type> ) 示例:array类型的应用假如有如下数据需要用hive的表去映射: 战狼2,吴京:吴刚:龙母,2017-08-16 三生三世十里桃花,刘亦菲:痒痒,2017-08-20 设想:如果主演信息用一个数组来映射比较方便 建表:create table t_movie(moi...原创 2018-08-29 08:35:26 · 269 阅读 · 0 评论 -
Hive 电影topN
数据:{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}{"movie":"661","rate":"3","timeStamp":"978302109"原创 2018-09-01 14:48:30 · 698 阅读 · 0 评论 -
Hive 小知识
CTAS建表语法1.通过以存在的表建表(类似与复制)create table t_user1 like t_user22.在建表 的时候插入数据create table t_user1 asselect * from t_user2数据导入导出方式1:导入数据的一种方式:手动用hdfs命令,将文件放入表目录;方式2:在hive的交互式shell中用hi...原创 2018-09-01 15:09:45 · 177 阅读 · 0 评论 -
Hive 级联报表查询
数据:需求:查询每人每月的盈利以及当年至当月的累计利润实现: 1.建表导入数据2.先统计出每月的利润 3.查询结果自连接,条件:一表的月份大于等于二表的月份(累计求出各个月份的总利润)select t1.name,t1.month,t1.allincome, sum(t2.allincome)from(select name,substr(time,...原创 2018-08-30 10:19:25 · 855 阅读 · 0 评论 -
Hive 查询有连续三天销售记录的销售报表
数据:求解思路: 使用row_number函数打标记根据shopid分区,以time升序排列,根据date_sub(to_date(time),flag)生成对应日期 比如A分区中的五号标记和六号标记,如果根据data_sub生成的日期是一致的,那么这两天就是相邻的 eg: 五号标记 2015-3...原创 2018-08-30 11:24:10 · 1991 阅读 · 0 评论