- 博客(4)
- 收藏
- 关注
原创 Sprak combineByKey详解
1、背景在数据分析中,处理Key,Value的Pair数据是极为常见的场景,例如我们可以针对这样的数据进行分组、聚合或者将两个包含Pair数据的RDD根据key进行join。从函数的抽象层面看,这些操作具有共同的特征,都是将类型为RDD[(K,V)]的数据处理为RDD[(K,C)]。这里的V和C可以是相同类型,也可以是不同类型。这种数据处理操作并非单纯的对Pair的value进行map,而是针对不同的key值对原有的value进行联合(Combine)。因而,不仅类型可能不同,元素个数也可能不同。com
2021-08-11 14:00:25
399
原创 hive sql 求所有用户和活跃用户的总数及平均年龄
hive sql 求所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)有日志如下,请写出代码求得所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)建表导入数据注意:这里都默认每个人的年龄是不变的,不考虑一个人的年龄增长的情况;用到的知识点有hive的 over()开窗函数、row_number()函数、lead()函数思路一1. 求所有用户的总数和平均年龄1)先求出每个用户的年龄2) 再求所有用户的总数和平均年龄2.求活跃用户总数和平均年龄(活跃用户指连续
2021-07-24 10:38:43
1457
1
原创 Hive Sql 查询最被喜欢的爱好的前三名
需求:查询最被喜欢的爱好的前三名。(需求解析:最被喜欢的爱好,就是看哪个爱好的人数最多)user_hobbys表,数据如下、数据是制表符隔开的:name sex hobbyjohn 男 打乒乓球,游泳,看电影jack 男 打乒乓球,看电影lucy 女 看书,购物lili 女 游泳,看电影create table if not exists user_hobbys(name string,sex string,hobby array)row format delimited
2020-08-29 17:20:28
867
原创 Hive Sql 求每个用户连续登陆的最大天数
@[TOC]Hive Sql 求每个用户连续登陆的最大天数uid,dt1,2019-08-011,2019-08-021,2019-08-031,2019-08-041,2019-08-061,2019-08-072,2019-08-012,2019-08-023,2019-08-013,2019-08-034,2019-07-284,2019-07-294,2019-08-014,2019-08-024,2019-08-034,2019-08-044,2019-08-0
2020-08-29 15:41:14
1506
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人