
大数据开发
文章平均质量分 59
Young_IT
“中国光谷•华为杯”第十九届中国研究生数学建模竞赛(国一)
展开
-
维度建模步骤
维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。其典型的代表是星形模型,以及在一些特殊场景下使用的雪花模型。其设计分为以下几个步骤。原创 2024-07-11 15:36:58 · 278 阅读 · 0 评论 -
请写sql满足业务:找到连续登录3天以上的用户
该查询使用了子查询和窗口函数来计算每个用户的登录日期的行号,并与前一天的日期进行比较。如果两个连续的日期之间的差为1,则认为用户连续登录了2天以上。此外,查询结果中的重复用户ID将被移除,只返回一个用户ID。如果需要返回所有连续登录2天以上的用户ID,可以适当修改查询。函数对每个用户的登录日期进行排序,并为每一行分配一个行号。函数检查当前日期与前一天的日期之间的差是否为1。如果条件满足,则返回该用户的ID。请注意,上述查询假设登录日期是按升序排列的。如果登录日期没有排序,可以在子查询中的。原创 2024-07-04 22:05:09 · 984 阅读 · 0 评论 -
Spark-RDD算子大全
Spark RDD(弹性分布式数据集)是Spark中的核心抽象,它代表一个不可变、分区的分布式数据集合。下面是一些常用的RDD算子:map(func):对RDD中的每个元素应用给定的函数,返回一个新的RDD。filter(func):对RDD中的每个元素应用给定的函数,返回满足条件的元素组成的新的RDD。flatMap(func):对RDD中的每个元素应用给定的函数并返回一个迭代器,将所有迭代器的元素组合成一个新的RDD。原创 2024-01-16 14:03:30 · 1020 阅读 · 0 评论 -
Hive中的四种排序
order by 是全局排序,可能性能会比较差;sort by分区内有序,往往配合distribute by来确定该分区都有那些数据;distribute by 确定了数据分发的规则,满足相同条件的数据被分发到一个reducer;cluster by 当distribute by和sort by 字段相同时,可以使用cluster by 代替distribute by和sort by,但是cluster by默认是升序,不能指定排序方向;原创 2024-01-08 11:29:41 · 778 阅读 · 0 评论 -
数仓分层结构
ODS层:数据存储格式:JSON/TSV+ gzip压缩(默认)Operate Data Store-- 存储从mysql业务数据库和日志服务器的日志文件中采集到的数据-- 日志数据-- 格式:JSON--业务数据--历史数据-- 格式:-- 全量-- Datax : TSV原创 2024-01-04 15:50:37 · 1103 阅读 · 0 评论 -
多值维度的原因与解决办法?
如果事实表中一条记录在某个维度表中有多条记录与之对应,称为多值维度。例如,下单事实表中的一条记录为一个订单,一个订单可能包含多个商品,所会商品维度表中就可能有多条数据与之对应。第二种:在事实表中采用多字段保存多个维度值,每个字段保存一个维度 id。这种方案只适用于多值维度个数固定的情况。第一种: 降低事实表的粒度,例如将订单事实表的粒度由一个订单降低为一个订单中的一个商品项。针对这种情况,通常采用以下两种方案解决。建议尽量采用第一种方案解决多值维度问题。原创 2023-10-26 23:30:01 · 266 阅读 · 0 评论 -
Spark中的Driver、Executor、Stage、TaskSet、DAGScheduler等介绍
在 Spark 中,有多个概念和组件相互协作,以实现分布式数据处理。如有错误,欢迎指出!如有错误,欢迎指出!如有错误,欢迎指出!原创 2023-10-13 16:37:00 · 2489 阅读 · 0 评论 -
Spark工作流程
整个流程中,Spark 通过惰性求值和执行计划的方式实现了高效的数据流处理。它利用分布式计算和内存存储的优势,将数据加载到内存中进行处理,从而加速了计算过程。同时,Spark 提供了丰富的转换和操作操作,使得用户可以快速高效地处理和分析大规模数据集。原创 2023-10-13 14:13:46 · 948 阅读 · 0 评论 -
Spark 的主要组件及任务分工
Spark 是一个开源的分布式计算框架,旨在处理大规模数据集的快速计算和分析。Cluster Manager(集群管理器):【资源管理】Executor(执行器):【计算/执行任务】Driver(驱动器):【任务调度】原创 2023-10-13 14:11:41 · 1636 阅读 · 0 评论 -
Spark RDD简记
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。原创 2023-10-12 17:08:16 · 643 阅读 · 0 评论