- 博客(480)
- 收藏
- 关注
原创 小灶4_计算资源治理+数据倾斜
(前期不做维度退化,后期每个ads都做一次关联 left join 出问题。不能substring 有的人入职早 工号短 , 有的人入职晚 工号长。如果只想取三个字段,关联以后,怎么算 sum count。2.reduce端:数据倾斜:key的分布不均。DWD层 订单明细表 关联 其他所有 的维度。过滤能写在 关联里面 就一定要写在里面。插入数据容易报错,少字段,字段顺序乱的。DWD层 订单明细表 关联商品维度。DWD层 订单明细表 关联日期维度。DWD层 订单明细表 关联地域维度。
2025-03-23 12:00:59
15
原创 小灶2_数仓开发流程
派生指标:dws、dwm(不同维度、颗粒度 group by 汇总出的指标),加班时长,近30天下单金额,最近通话的人数。数据探查(做好数据模型):(最值,空值,比例)(字段长度,数据量+去重后的数据量)没有工具的,自己写sql。数据比对(加字段 ):加字段,影响内容,数据量翻倍,其他字段变为空。上线:审核有数据倾斜sql,时间长短,资源配置是否合理,看依赖是否为空,一开始设计好,强规范定义,审核(是否合理,是否有服用指标)。指标管理:开发完以后,指标要收口,指标维护,飞书文档维护指标。
2025-03-22 23:54:55
57
原创 高频 SQL 50 题(基础版)_1517. 查找拥有有效邮箱的用户
【代码】高频 SQL 50 题(基础版)_1517. 查找拥有有效邮箱的用户。
2025-03-10 18:03:22
103
原创 高频 SQL 50 题(基础版)_1327. 列出指定时间段内所有的下单产品
【代码】高频 SQL 50 题(基础版)_1327. 列出指定时间段内所有的下单产品。
2025-03-10 18:02:28
109
原创 高频 SQL 50 题(基础版)_185. 部门工资前三高的所有员工
【代码】高频 SQL 50 题(基础版)_185. 部门工资前三高的所有员工。
2025-03-10 18:01:22
87
原创 高频 SQL 50 题(基础版)_1204. 最后一个能进入巴士的人
【代码】高频 SQL 50 题(基础版)_1204. 最后一个能进入巴士的人。
2025-03-10 17:58:26
79
原创 Flink八股
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。在国外一些社区,有很多人将大数据的计算引擎分成了 4 代,当然,也有很多人不会认同。我们先姑且这么认为和讨论。首先第一代的计算引擎,无疑就是 Hadoop 承载的 MapReduce
2025-03-08 20:45:50
838
原创 Hive八股
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce/Spark的任务的工具,甚至更进一步可以说hive就是一个MapReduce/Spark Sql的客户端为什么要使用hive?
2025-03-08 20:15:43
931
原创 Hadoop八股
MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。MapReduce运行在yarn集群。
2025-03-08 20:14:24
699
原创 Spark八股
开发中如何保证数据的安全性性及读取效率: 可以对频繁使用且重要的数据,先做缓存/持久化,再做 checkpint 操作。-持久化和 Checkpoint 的区别:1.位置: Persist 和 Cache 只能保存在本地的磁盘和内存中(或者堆外内存–实验中) Checkpoint 可以保存数据到 HDFS 这类可靠的存储上。
2025-03-08 20:12:35
654
原创 高频 SQL 50 题(基础版)_602. 好友申请 II :谁有最多的好友
【代码】高频 SQL 50 题(基础版)_602. 好友申请 II :谁有最多的好友。
2025-03-05 00:26:40
127
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人