Hive中获取每组数据中id最大的数据

原创已于 2024-05-25 11:20:24 修改 · 651 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库

于 2024-05-25 11:09:26 首次发布

Hive 专栏收录该内容

7 篇文章

订阅专栏

题目：重复数据只保留一条id最大的

数据准备：

CREATE TABLE t19 (
    id    int,
    name string
) ;
INSERT INTO t19 VALUES ('1', 'A')
,('2', 'A')
,('3', 'A')
,('4', 'B')
,('5', 'B')
,('6', 'C')
,('7', 'B')
,('8', 'B')
,('9', 'B')
,('10', 'E')
,('11', 'E')
,('12', 'E');

1.使用窗口函数

窗口函数可以用来在同一组中为每行分配一个行号，然后对筛选出行号为 1 的行（即 id 最大的行）。

假设你的表名为 t19，并且你要按 name 分组，那么你可以这样写查询：

使用row_number()开窗函数为同一name组的每行分配行号，按照id降序排列，得到的排序顺序是从1开始递增的，这是‘row_number()’自带的固有属性。

此时因为id是降序排列，id大的name排在前列，则r1=1对应的name就是我们所需要的id最大的name，通过子查询嵌套，按照where条件查询r1=1就可以查询出最大的id。

select id,name
from (select *,row_number() over (partition by name order by id desc ) r1
from t19) t1 where r1=1;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

浩哥码字贼快

关注关注

11
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python语言学习之pandas：DataFrame二维表的简介、常用函数、常用案例(增删改查排序之选择指定列、根据条件选择特定数据、赋值、列名重命名、修改列数据、处理缺失值、列合并、分组之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

07-23

7581

Python语言学习之pandas：DataFrame二维表的简介、常用函数、常用案例(增删改查排序之选择指定列、根据条件选择特定数据、赋值、列名重命名、修改列数据、处理缺失值、列合并、分组之详细攻略目录 DataFrame的简介 DataFrame的常用案例推荐文章 Py之Pandas：Python的pandas库简介、安装、使用方法详细攻略 Python之pandas：DataFrame二维表的简介、常用函数、常用案例之详细攻略 Python：Python实现读入、

Hive数据加密：增强数据安全性

AI天才研究院

08-04

1016

Hive数据加密：增强数据安全性 1.背景介绍 1.1 大数据时代的数据安全挑战在当今大数据时代,企业每天都在生成和处理海量数据。这些数据中往往包含了敏感信息,如用户个人信息、财务数据等。随着数据量的增长和数据价值的提升,数据安全

参与评论您还未登录，请先登录后发表或查看评论

获取分组后取某字段最大一条记录（求每个类别中最大的值的列表）

SunWuKong_Hadoop的博客

03-08

4092

获取分组后取某字段最大一条记录方法一：(效率最高) select * from test as a where typeindex = (select max(b.typeindex) from test as b where a.type = b.type ); 方法二：(效率次之) select a.* from test a, (select type,m

mysql （hive）获取分组后，求最大值

warm_day的博客

08-29

8926

获取分组后取某字段最大一条记录方法一：(效率最高) hive不支持 select * from test as a where typeindex = (select max(b.typeindex) from test as b where a.type = b.type ); 方法二：(效率次之) select a.* from test a, (select ty...

mysql分组求最大值所在行重复_mysql分组排序取最大值所在行，类似hive中row_number() over partition by...

weixin_42298424的博客

01-19

809

如下图，计划实现：按照 parent_code 分组，取组中code最大值所在的整条记录，如红色部分。(类似hive中：row_number() over(partition by))select c.* from( select a.*, (@i := case when @key_i=parent_code then @i+1 else 1 end) as sort_num,(@k...

mysql 窗口函数分组查找最大id

weixin_40922824的博客

08-29

205

我整理的一些关于【MySQL】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/yOSbkR使用 MySQL 窗口函数分组查找最大 ID 的实现在数据库开发中，我们常常需要对数据进行分组和聚合操作。例如，我们可能需要在某个表中查找每个组的最大 ID。本文将引导你如何使用 My...

SQLServer ntile获取每组前10%的数据

12-15

在给定的标题和描述中，我们关注的是如何利用`NTILE`来获取每组数据的前10%。下面将详细解释`NTILE`函数的工作原理以及如何运用它来实现这个目标。 **NTILE函数详解** `NTILE(n)`函数将结果集分成n个组，每个组尽...

Hive 表中数据的增删查改操作深度剖析与实战应用

xjiet的博客

11-18

1510

通过本文对 Hive 表中数据的增删查改操作的全面且深入的介绍，我们详细了解了每一种操作的具体语法、适用场景、注意事项以及丰富的代码示例和对比分析。在实际的大数据处理与分析工作中，根据不同的业务需求和数据情况，灵活且准确地运用这些操作方法是至关重要的。同时，要始终牢记数据的重要性，在执行如删除、更新等可能影响数据完整性的操作时，务必谨慎小心，提前做好备份和验证工作，避免因误操作带来的数据丢失、数据不一致等严重问题。

hiveSQL进阶--10__测试一组数据中是否存在某个值

CLKTOY的博客

09-04

1056

目录0-问题描述1-问题解决2-总结 0-问题描述 SQL 测试一组数据中是否存在某个值，你想根据某一组行记录里是否包含某个特定值来生成一个布尔值。试想这样一个例子，一个学生在一段时间内会参加若干场考试。假设他每 3 个月会参加 3 场考试。只要他通过了任何一场，将返回一个标志（flag）以表示考试通过。如果 3 场都没有通过，也会返回一个标志以表示考试未通过。有如下数据： create table v as select 1 student_id, 1 test_id,

如何在 Hive SQL 中处理复杂的数据类型？

石榴姐yyds

01-05

1241

Arrays：存储有序元素的集合，元素类型相同。Maps：存储键值对的集合，键和值可以是不同的数据类型。Structs：存储不同数据类型的元素，类似于对象或记录。

hive udf 分组取top1_Hive中实现Group By后，取Top K条记录

weixin_34017915的博客

12-23

523

RT，在Hive中，使用了Group By后，是无法再sort，再取Top K的，我们可以用UDF + distributed by + sort by 实现这个功能。Assume you have a table with three columns: user, category and value. For each user, you want to select top N catego...

group by分组后获得每组中时间最大的那条记录

热门推荐

Java修炼记

11-22

15万+

用途： GROUP BY 语句用于根据一个或多个列对结果集进行分组。例子：原表：现在，我们希望根据USER_ID 字段进行分组，那么，可使用 GROUP BY 语句。我们使用下列 SQL 语句： SELECT ID,USER_ID,problems,last_updated_date from t_iov_help_feed

hive 查询一个字段最大值的所在记录

我的的博客

03-24

7767

hive 查询一个字段最大值的所在记录思路是： - 先查询出最大值 - 将这个最大值当做一张表然后去关联原有表 - 让这个原有表的字段和最大值这个字段去关联相等，则能找出最大值记录 select * from antenna a cross join (select max(VERTICAL) maxv from antenna ) as b where a.vertical=b.m...

hive 求最大最小值均值及对应的一个key键(对应行)

数据之美的博客

06-07

6296

hive 求最大最小均值就不多说了。此次在业务上碰到一个问题，是要求最大值、最小值、平均值的同时，还要求最大值、最小值对应行的key字段（以找到对应时间）。并且key中的时间戳还是0时区，在查询时要注意对时区进行转换。表结构大致如下： key double id+时间对应的double数值方法一：join (最常见) 比如取最小值和最小值所在行对应的key： select * from ( select min(d) as min from ( select key,d f

hive窗口函数

qq_34124060的博客

02-01

850

建立一张测试表 CREATE TABLE test (cookieid STRING, create_time STRING, pv INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 查看表数据 select * from test; +----------------+-------------------+----------+--+...

hive查询之开窗函数<7>

及时雨的csdn

02-06

388

学习hive的开窗函数，顺便总结一番：普通的聚合函数聚合的行集是组,开窗函数聚合的行集是窗口。因此,普通的聚合函数每组(Group by)只返回一个值，而开窗函数则可为窗口中的每行都返回一个值。简单理解，就是对查询的结果多出一列，这一列可以是聚合值，也可以是排序值。开窗函数一般分为两类,聚合开窗函数和排序开窗函数。目录聚合开窗函数 sum开窗函数 count开窗函数 min...

Hive如何取最大分区

别人笑我太疯癫，我笑他人看不穿。

05-06

9194

在我们数据处理的时候取最大分区是一个常有的事，可以说在原始层流出的数据百分之九十九的表都要涉及到最大分区，因为不是增量表就是全量表，所以最大分区怎么取也是一个众说风云的事情，接下来我给大家说说我的经验，供大家参考一下首先我们不能直接max(time)，不然效率上就不能说拖整个数据流的后退了，那简直是裤子都拉没了也不要有使用hive的show partitions tablename，然后排序取第一个或最大值这样的想法，因为show语句的结果不能做为一个结果集用，会报错的第一种方式我们可以考虑使用如下的

hive中取最大值最小值的函数

qq_42456324的博客

09-18

1万+

max()和min()函数 select a,max(b) from t group by a select a,min(b) from t group by a max和min函数是取某一列中的最大或者最小值 greatest()和least()函数 select greatest(-1, 0, 5, 8) --8 select least(-1, 0, 5, 8) -- -1 greatest和least函数是取某一行中的最大或者最小值，但一定是比较相同类型的数据，如果数据类..

hive窗口函数实战(2)

bitcarmanlee的博客

04-08

1217

1.什么是窗口函数在明白窗口函数的用途之前，我们先稍微提一下聚合函数，比如sum, count等常用的聚合函数，作用是将一列中多行的值合并为一行。与之对应的是，窗口函数完成的功能是本行内运算，从而多行的运算结果，即每一行的结果对应的多行的结果。一般窗口函数的语法为 function() over (partition by column1, column2 order by column3) ...

hive中清洗数据的函数

最新发布

06-22