- 博客(85)
- 收藏
- 关注
原创 StarRocks执行原理与SQL性能优化策略探索
然后第二阶段会收集上游每个instance的分组结果,完成全局的去重操作,并进行第一阶段的分组统计(即按日期统计当前instance数据中日期维度对应的uv)。最后根据日期分桶交由第三阶段计算全局的uv,这里可以看到实际第三阶段还是会存在数据倾斜的情况(即数据最后还是只会由7个instance进行处理),但是这里由于上游为统计后的数据,分组键与聚合值占用空间并不大(只有一个日期和一个统计值),所以不容易造成OOM,而且第三阶段的最终聚合也只要将相同分组的统计结果进行加和即可。
2025-04-07 13:47:23
307
原创 sql题解--打折日期交叉问题
2) 比较start_date 与 移动下来的数据, 如果开始时间大, 则不需要操作, 反之则将移动下来的数据加一替换当前行的开始时间。1) 将当前行以前的数据中最大的end_date放置到当前行。4) 按照品牌分组,计算每条数据加一后的总和。3) 将每行的结束时间减去开始时间。
2025-04-05 19:44:07
231
原创 SQL打折日期交叉问题
比如vivo品牌,第一次活动时间为2021-06-05到2021-06-15,第二次活动时间为2021-06-09到2021-06-21其中9号到15号为重复天数,只统计一次,即vivo总打折天数为2021-06-05到2021-06-21共计17天。字段名:brand(品牌)、stt(打折开始日期)、edt(打折结束日期)。表名:good_promotion。编辑数据文件good_promotion.txt。② 计算每个商品总的打折销售天数。数据为平台商品促销数据。注意:其中的交叉日期。
2025-02-28 15:45:54
439
原创 SQL分组问题
② 统计每个用户连续的访问记录中,如果时间间隔小于6s,就分为一个组(统计某个用户连续的访问记录,如果时间间隔小于60s,就分为一组。编辑文件user_visit.txt。下列为电商公司用户访问时间数据。观察数是标准的时间戳吗。
2025-02-28 11:10:38
328
原创 SQL间隔连续问题
② 计算每个用户最大的连续登录天数,可以间隔一天。如:如果一个用户在1,3,5,6登录游戏,则视为连续6天登录。1. 数据结构:某游戏公司记录的用户每日登录数据。② 计算每个用户最大的连续登录天数,可以间隔一天。字段名:id(用户id)、dt(日期)创建文件game_user.txt。表名:game_user。
2025-02-18 21:50:03
330
原创 Leetcode面试高频题分类刷题总结
面试中最常考的(分类的稍微有点粗糙了,没有细分出回溯/分治来,准备找个时间给每个DFS的题标记下是哪种DFS)注意:后两题是与快速排序非常相似的快速选择(Quick Select)算法,面试中很常考。以下8个门类是面试中最常考的算法与数据结构知识点。和链表反转几乎是所有链表类问题的基础,尤其是。,代码很短,建议直接背熟。
2025-02-03 15:37:10
1136
原创 撤销 Git 中标记为 “assume unchanged“ 的文件
要撤销 Git 中标记为 "assume unchanged" 的文件,你可以使用。
2024-12-26 11:23:55
127
原创 grep命令从文件中抓取字符串返回一整行太长,如何只返回指定字符串附近的文字
【代码】grep命令从文件中抓取字符串返回一整行太长,如何只返回指定字符串附近的文字。
2024-11-06 14:27:43
154
原创 Starrocks报错com.starrocks.mysql.nio.AcceptListener$AfterConnectedException: Reach limit of connection
【代码】Starrocks报错com.starrocks.mysql.nio.AcceptListener$AfterConnectedException: Reach limit of connection。
2024-10-14 11:28:24
239
原创 利用CoreDump文件快速定位Doris的查询问题
Doris开发手记3:利用CoreDump文件快速定位Doris的查询问题 - HappenLee - 博客园
2024-09-25 11:44:26
176
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人