自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Sprak combineByKey详解

1、背景在数据分析中,处理Key,Value的Pair数据是极为常见的场景,例如我们可以针对这样的数据进行分组、聚合或者将两个包含Pair数据的RDD根据key进行join。从函数的抽象层面看,这些操作具有共同的特征,都是将类型为RDD[(K,V)]的数据处理为RDD[(K,C)]。这里的V和C可以是相同类型,也可以是不同类型。这种数据处理操作并非单纯的对Pair的value进行map,而是针对不同的key值对原有的value进行联合(Combine)。因而,不仅类型可能不同,元素个数也可能不同。com

2021-08-11 14:00:25 399

原创 hive sql 求所有用户和活跃用户的总数及平均年龄

hive sql 求所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)有日志如下,请写出代码求得所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)建表导入数据注意:这里都默认每个人的年龄是不变的,不考虑一个人的年龄增长的情况;用到的知识点有hive的 over()开窗函数、row_number()函数、lead()函数思路一1. 求所有用户的总数和平均年龄1)先求出每个用户的年龄2) 再求所有用户的总数和平均年龄2.求活跃用户总数和平均年龄(活跃用户指连续

2021-07-24 10:38:43 1457 1

原创 Hive Sql 查询最被喜欢的爱好的前三名

需求:查询最被喜欢的爱好的前三名。(需求解析:最被喜欢的爱好,就是看哪个爱好的人数最多)user_hobbys表,数据如下、数据是制表符隔开的:name sex hobbyjohn 男 打乒乓球,游泳,看电影jack 男 打乒乓球,看电影lucy 女 看书,购物lili 女 游泳,看电影create table if not exists user_hobbys(name string,sex string,hobby array)row format delimited

2020-08-29 17:20:28 867

原创 Hive Sql 求每个用户连续登陆的最大天数

@[TOC]Hive Sql 求每个用户连续登陆的最大天数uid,dt1,2019-08-011,2019-08-021,2019-08-031,2019-08-041,2019-08-061,2019-08-072,2019-08-012,2019-08-023,2019-08-013,2019-08-034,2019-07-284,2019-07-294,2019-08-014,2019-08-024,2019-08-034,2019-08-044,2019-08-0

2020-08-29 15:41:14 1506 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除