
_lxxm
文章平均质量分 93
十六ᵛᵃᵉ
AGI爱好者!AGI革命进行时!!数仓&可视化&数据分析
展开
-
day10-会员主题开发
从dwm_mem_member_behavior_day_i表查找。获取dwm_mem_member_behavior_day_i表。分别计算最近30天和最近90天消费的会员,然后左关联,判断空值。xxx公司 2020-10 到 2022-11 报表开发。从dwm_mem_second_buy_i表获取。负责xxxx架构设计,负责技术选型,负责团队管理。从dwm_mem_sell_order_i获取。从dwm_mem_first_buy_i获取。MapReduce执行流程。Yarn资源调度流程。原创 2024-11-27 10:15:33 · 1007 阅读 · 0 评论 -
Day09-会员主题开发
项目的分层一旦确认后,所有主题都是按照该分层开发有些主题可能不用该分层,那么在设计表的时候可以不用设计该分层的表。原创 2024-11-26 12:12:16 · 1054 阅读 · 0 评论 -
Day08-核销主题开发
最终按照需求计算的数据内容,所有可以根据需求分析得到对应表门店会员分类周表门店会员分类月表门店会员统计周表门店会员统计月表会员首次充值表门店新老会员消费月表会员复购统计天表会员贡献天表。原创 2024-11-26 12:06:58 · 898 阅读 · 0 评论 -
HiveSQL优化
将那些产生倾斜的key和对应v2的数据, 从当前这个MR中移出去, 单独找一个MR来处理即可, 处理后, 和之前的MR进行汇总结果即可。候, 将其提前配置设置好即可, 在后续运行的时候, 程序会自动将设置的key的数据单独找一个MR来进行处理即可, 处。当前这个k2的数据存在数据倾斜, 自动将其剔除, 交由给一个单独的MR来处理即可,两个MR处理完成后, 将结果基于。思路: 在执行MR的时候, 会动态统计每一个 k2的值出现重复的次数, 当这个重复的次数达到一定的阈值后, 认为。原创 2024-11-26 11:59:09 · 1873 阅读 · 0 评论 -
拉链表...
定义与作用拉链表是一种用于维护历史状态和最新状态数据的表。它记录每条信息的生命周期,当一条记录的生命周期结束时,会重新开始一条新的记录,并将当前日期放入生效开始日期。实现方法start_time(生效开始时间)和end_time(生效结束时间)。start_time使用数据导入的时间,end_time初始设置为9999-12-31。通过时间判断数据是最新数据还是历史数据。示例过程创建原始表:包含基本信息和时间戳字段。插入初始数据:使用函数调整时间戳。创建拉链表。原创 2024-11-25 21:52:03 · 293 阅读 · 0 评论 -
day07-核销主题开发
先在dws.dws_goods_store_goods_statistics_quarter_i表中上卷出销售,损耗,收获,要货指标。计算 dwm_stock_store_goods_loss_quarter_i 表中数据。计算 dwm_order_store_goods_receipt_quarter_i 表。计算dwm_order_store_goods_require_quarter_i表。计算dwm_sold_goods_sold_dtl_i表中的数据。对表数据进行合并然后再统一聚合计算进行计算。原创 2024-11-24 15:54:21 · 854 阅读 · 0 评论 -
Day06-核销主题开发
文章目录Day06-核销主题开发一、DWD层表处理门店销售明细表三个事实表处理门店销售明细表门店销售支付表三张门店销售表关联关联五个维度表线上余额表商城订单表商城订单明细表商城核销明细表门店库调表其他表二、DWM层开发2-1 DWM层建表2-2 DWM层表处理商品销售明细表门店销售商城销售Day06-核销主题开发一、DWD层表处理门店销售明细表三个事实表处理门店销售明细表ods_sale_store_sale_dtl_icombination_flag:描述订单中的商品时组合商品还是组合成原创 2024-11-24 15:51:38 · 778 阅读 · 0 评论 -
day05-核销主题开发
主要涉及四大核心业务,分别为:销售业务,会员业务,供应链业务,商城业务线下销售线下业务的库存变换及时线上销售流程线上购买商品时,库存变化不及时,订单处于待付款,已支付,配送中,已完成,在已完成订单中库存才会进行修改所以销售数据计算时,就要考虑线上订单状态已核销(订单处于完成状态)已售卖 (订单产生就是已经售卖)业务需求部门需要全面分析线上线下的销售情况,包括销售、取消、退款的金额、成本、单量、SKU以及活动的情况,共同讨论决定需要分析的维度和指标销售产生的数据被保存在mysql中。原创 2024-11-21 22:03:51 · 929 阅读 · 0 评论 -
day04-DIM层数据处理
关系型数据库,支持SQL语法操作使用定时任务工具实现对数仓代码(hiveSQL代码)的定时执行oozie(apache的开源工具) 和 DolphinScheduler(apache的开源工具)实现任务的定时执行官网 https://dolphinscheduler.apache.org/zh-cnApache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。原创 2024-11-20 16:42:56 · 740 阅读 · 0 评论 -
day03-数仓设计
主题根据需求是对指标数据进行归类,每个分类是一个主题主题域根据业务分析需求的划分领域,将联系较为紧密的数据主题的集合在一起主题域下面可以有多个主题,主题还可以划分成更多的子主题,主题和主题之间的建设可能会有交叉现象(数据交叉)主题域:川菜(主题域)鱼香(主题):鱼香肉丝(子主题),鱼香茄子。。。麻辣(主题):麻婆豆腐,麻辣兔头。。。销售主题域售卖主题不同门店的售卖分析(子主题) sum(订单金额),count(订单id) group by 门店销售额销售量。原创 2024-11-20 16:23:02 · 1257 阅读 · 0 评论 -
day02-数据采集
官网: https://github.com/alibaba/DataX/blob/master/introduction.mdDataX 是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。原创 2024-11-20 16:14:23 · 816 阅读 · 0 评论 -
day01-甄选
数据仓库就是对公司的过往历史数据进行计算分析,为公司决策提供数据支撑数据仓库本质就是一套智能决策系统数据存储Hadoop的HDFS数据计算Hadoop的Mapreduce和YarnHive查询引擎数据分析展示FineBIFineReport数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能是将联机事务处理(OLTP)经年累月所累积的大量数据资料,通过数据仓库理论所特有的资料储存架构,进行系统的分析整理,利各种分析方法,如。原创 2024-11-15 19:10:02 · 746 阅读 · 0 评论