Hive SQL复杂场景实现(2) —— 实时/最大在线人数

最新推荐文章于 2025-03-01 22:47:36 发布

原创

最新推荐文章于 2025-03-01 22:47:36 发布 · 5.5k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#SQL #Hive

本文探讨如何使用Hive SQL解决实时/最大在线人数问题。通过两种方法，包括join关联和sum() over()函数，解析计算逻辑，并提供实际案例分析。解法2利用窗口函数，对于大规模数据在SparkSQL中表现出良好性能。

本文同时发表于我的个人博客http://xinyuwg.com，访问该链接以获得详细信息与更好的阅读体验。
本文为原创内容，未经允许请勿转载。

背景

这个问题一开始是一个同事问我的，能不能用SQL求某一天哪个时刻进行中的订单量最多，这个数是多少？我寻思挺有意思，就细想了一下。其实思考下可以发现，如果要求一段时间内的同时处于服务过程中的最大订单量，相当于也要知道每个时刻的数量，所以求最大和求实时是等同的。

这个问题在不同的业务场景下有不同的意义，比如一个游戏的同时在线人数，比如一个服务器的实时并发数，比如一个仓库的货物积压数量等等。

一般而言对于需要知道并发数的业务场景都会通过实时监控来完成，而不会通过sql进行离线计算。但本着深挖sql潜能的想法，如下提供一个不切实际的解法与一个真实可行的方法。

数据

假设我们的业务场景是回溯某一天的某游戏的最大同时在线人数，并有表connection_detail记录用户每一次上线和下线时间：

user_id	login_time	logout_time	dt
213142	2019-01-01 12:21:22	2019-01-01 13:45:21	20190101
412321	2019-01-01 13:35:11	2019-01-01 16:01:49	20190101
…	…	…	…

解法1：(join关联)

我们先思考一个问题，假设我们实时有一个变量online_cnt记录着当前在线人数，那么什么情况下这个数会发生变化呢？聪明的你一定想到是当有用户登录或者有用户登出的时刻。说到这思路应该就清晰了，我们需要去求每一个用户登入或登出时刻的在线人数。从另一个角度，我们需要知道每当一个用户登录或登出的时刻，用多少人还在线上。


select 
    max(online_cnt) as max_online_cnt
from
(
    select 
        b.`timestamp`,
        count(

最低0.47元/天解锁文章

6 条评论

Harbour_zhang 2021.08.25
over() 里，不加参数默认的是表中所有的记录，怎么会是第一行到当前行呢
- XinyuWg回复Harbour_zhang 2021.08.26
  sum() over()是到当前行的累计求和哦而且也指定了顺序

飞天飞哥 2021.04.14
is_td_finish 是哪里来的

松哥看世界 2021.03.22
unix_timestamp不转不行吗
- QuantumWalk回复松哥看世界 2021.07.15
  转换主要是为了做累加

倒吃甘蔗 2020.02.10
老哥怎么不跟新了，你写的文章非常棒啊