
数仓
文章平均质量分 70
morsunlight
程序猿->攻城狮->架构头子->砖家
展开
-
Hive中lateral view的应用到源码解读
hive中lateral view的执行过程和explode的执行过程原创 2022-01-20 17:17:26 · 2482 阅读 · 0 评论 -
电商系统的数仓分层
数仓分层的目的:一、把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题二、减少重复开发:规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性三、隔离原始数据:不论是数据的异常还是数据敏感性,是真实数据与统计数据解耦开。数仓分层:ODS(Operation Data Store)层:原始数据层。存放原始数据,直接加载原始日志、数据,数据保持原貌不作处理DWD(Data warehouse detail)层:对ODS层数据进行清洗(原创 2021-04-14 22:10:36 · 276 阅读 · 0 评论 -
hive自定义函数的运用
背景:公司属于世界top500强。旗下有一个子公司从事教育,接触一些儿教育数据。上周公司需要做一个关于教育的数仓,其中有一个指标是关于教师在某线上软件使用情况的统计。具体指标为每个小时,教师的登录情况、备课情况、授课情况。由于每条记录中只有开始时间和结束时间,所以我们只能取到时间段,无法定位到每个小时数。综上:解决方案(三步走):第一步:将开始时间与结束时间进行连接第二步:写hive udtf函数将时间段取出年月日时,并解决时间临界问题第三步:写hive udf函数将时间段取出每个小时数..原创 2021-04-14 15:38:07 · 366 阅读 · 0 评论 -
疫情项目数据的维度建模
ODS层表名 来源 备注 ods_epidemic_db_epidemic_user_old eceb_epidemic_user 每日用户填报数据 ods_epidemic_teacher_1 eceb_epidemic_staff 疫情填报职工表 ods_epidemic_student_1 eceb_epidemic_student 疫情填报学生表 ods_epidemic_staff_org_1 eceb_epidemic_s原创 2021-02-25 10:09:50 · 416 阅读 · 0 评论 -
数仓项目之财务年终账单
三、项目开发(一)、开发周期数仓开发人员:XXX(项目经理) 指标分析 指标检测 维度建模 逻辑测试 预计时间(天) 3 12 3 实际时间(天) 5 12 5 ...原创 2020-12-28 17:31:40 · 485 阅读 · 0 评论