
SQL
文章平均质量分 73
SS
高达一号
这个作者很懒,什么都没留下…
展开
-
大数据_SQL_5min访问达到100次的用户
某公司网站每日访问量达到10亿级别的访问量,每次访问记录一条数据,数据包含如下字段:用户ID,访问时间(毫秒级),访问页面。要求使用hive求出所有在5分钟内访问次数达到100次的用户(求出用户ID即可)假设存在如下表table_a用户id (uid), 访问事件 (visit_time), 访问页面 (page)原创 2024-08-08 21:08:57 · 364 阅读 · 0 评论 -
SQL_牛客网_SQL264_求每个登陆日期的次日留存率
2020-10-12登录了3个(user_id为2,3,1)新用户,2020-10-13,只有2个(id为2,1)登录,故2020-10-12新用户次日留存率为2/3=0.667;2020-10-14登录了1个(user_id为4)新用户,2020-10-15,user_id为4的用户登录,故2020-10-14新用户次日留存率为1/1=1.000;第1行表示user_id为2的用户在2020-10-12使用了客户端id为1的设备登录了牛客网,因为是第1次登录,所以是新用户。牛客每个人最近的登录日期(五)原创 2023-09-12 12:19:43 · 1030 阅读 · 0 评论 -
SQL_Hive_大表JOIN大表数据倾斜优化(事实表JOIN维度表)
如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题。首先引入一个具体的问题场景,然后基于此介绍各自优化方案。原创 2023-08-14 12:07:24 · 698 阅读 · 0 评论 -
SQL_分组求次大问题_一份登陆日志,查到今天每个人倒数第二次登陆的时间、地点、ip等信息?
一份登陆日志,查到今天每个人倒数第二次登陆的时间、地点、ip等信息?问题解法 :避免开窗函数导致的数据倾斜,先求最大,再求次大。原创 2023-08-14 13:17:28 · 111 阅读 · 0 评论 -
SQL_Hive_数据倾斜优化大全
有一些算法基础的同学都知道排序操作在软件领域是开销非常大的操作,目前大规模应用的几大排序算法的时间复杂度中最好的也是O(nlogn),即随着数据量的增长而非线性的增长。通常这个条件都会满足的,因为如果不满足的话,说明key值非常多,非常稀疏,也不会产生倾斜的困境了。在优化战略生态部门的任务dwd_ocloud_dau_info_d任务的时候,我们发现任务的运行时间一直在增长,一度达到7个小时,直到8月1号便再也跑不成功,总是OOM(内存不够),即使将executor的内存调高到10G依然解决不了问题。转载 2023-07-25 12:26:24 · 261 阅读 · 0 评论 -
SQL_求店铺的topN && 开窗函数数据倾斜
有50W个 店铺,每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志,(2)每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数。某互联网大厂的一道比较有深度的面试题。(1)每个店铺的UV(访客数)原创 2023-07-25 09:49:39 · 556 阅读 · 0 评论 -
SQL_SQL_求连续登录天数
【代码】SQL_SQL_求连续登录天数。转载 2023-07-21 00:16:24 · 214 阅读 · 0 评论 -
Hive_HQL_复杂SQL_连续发单天数
原文地址:1.Hive SQL复杂场景实现(1) —— 连续发单天数https://blog.youkuaiyun.com/Adrian_Wang/article/details/89791948 至今在数据分析岗摸爬滚打已有一年,尚且不敢说自己挖掘洞见的本事提升多少。但实打实的与SQL打了一年的交道,接触过各种各样的业务场景,完成过各种千奇百怪的需求,自我感觉在sql编程上也颇有体会。 相信接触过SQL的人都明白知道其非常容易上手,作为一个结构化查询语言,其在数据提取上给人们提供了非常大...转载 2020-06-13 22:24:07 · 1380 阅读 · 0 评论 -
HIVE_SQL_复杂SQL_求访问深度以及前一跳和下一跳的地址
今天面试遇到了一道题,通过HQL 求访问深度以及当前页与下一页面的地址前提假设:1.用户只访问同一page一次2.用户单一标签页跳转有如下图1 转换为 图2 格式,即访问路径问题 图1 图2SELECT tmpB.platform, tmpB.user_id, tmpB.seq, t...原创 2020-06-05 02:17:05 · 641 阅读 · 0 评论 -
Hive_HQL_Hive优化_复杂SQL_观看不同视频个数的前5名
今天,遇到了一个问题,求 : 某一天HIVE分区表的数据,观看视频个数不同的前5名user_id。问题描述 :用户浏览日志(date, user_id, video_id), 统计 2020.03.29 观看不同视频个数的前5名 user_id。(大数据集)先创建表,并构建数据CREATE TABLE IF NOT EXSITS user_video_log( user_id BIGINT, video_id BIGINT)PARTITIONED BY( pt STRIN..原创 2020-06-04 09:44:21 · 1136 阅读 · 2 评论 -
Hive_SQL_复杂SQL_计算最大在线人数
原文链接:1.Hive SQL复杂场景实现(2) —— 实时/最大在线人数https://blog.youkuaiyun.com/adrian_wang/article/details/89840671背景 之前遇到这个问题:,能不能用SQL求某一天哪个时刻进行中的订单量最多,这个数是多少?我寻思挺有意思,就细想了一下。其实思考下可以发现,如果要求一段时间内的同时处于服务过程中的最大订单量,相当于也要知道每个时刻的数量,所以求最大和求实时是等同的。 这个问题在不同的业务场景下有不同的...转载 2020-06-13 21:53:15 · 5548 阅读 · 0 评论 -
SQL_SQL_常见面试问题
问题类型 :窗口函数使用。原创 2023-07-20 17:33:00 · 233 阅读 · 0 评论