
数仓电商项目
文章平均质量分 76
数据仓库电商项目(尚硅谷)
四月天03
这个作者很懒,什么都没留下…
展开
-
八、电商数仓项目——可视化报表Superset
第 第 1 章 章 Superset 入门1.1 Superset 概述Apache Superset 是一个开源的、现代的、轻量级 BI 分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。1.2 Superset 应用场景由于 Superset 能够对接常用的大数据分析工具,如 Hive、Kylin、Druid 等,且支持自定义仪表盘,故可作为数仓的可视化工具。第 2 章 章 Superset 安装第 3 章 章 S...原创 2021-12-11 18:17:37 · 3519 阅读 · 0 评论 -
数据质量管理:自定义脚本or质量监控工具Griffin
1 Griffin 概述Apache Griffin 是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度度量数据资产,从而提升数据的准确度和可信度。例如:离线任务执行完毕后检查源端和目标端的数据数量是否一致,源表的数据空值等。2 Griffin 架构原理UI创建Job1)Measure 列表2) Job 列表3) 监控仪表盘面板单击放大图片使用Griffin进行数据质量监控管理数据准备--c...原创 2021-07-16 16:24:32 · 1937 阅读 · 2 评论 -
数仓OLAP(一)--即席查询 Kylin
1 Kylin 定义Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay Inc 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。Kylin 架构1)REST ServerREST Server 是一套面向应用程序开发的入口点,旨在实现针对 Kylin 平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发 cube 构建任...原创 2021-07-17 19:25:51 · 1471 阅读 · 4 评论 -
六、数据仓库电商项目——应用层、ADS、APP层
数仓搭建-ADS层设备主题活跃设备数主题(日、周、月)需求定义:日活:当日活跃的设备数 周活:当周活跃的设备数 月活:当月活跃的设备数 drop table if exists ads_uv_count;create external table ads_uv_count( `dt` string COMMENT '统计日期', `day_count` bigint COMMENT '当日用户数量', `wk_count` bigint COMMENT原创 2021-05-14 17:25:50 · 1948 阅读 · 0 评论 -
五、数据仓库电商项目——DWT层、可与DWS合并一层
DWT层DWT层将DWS层每日聚合的数据进行积累,DWT层不是分区表,是一个累积型全量表,并且数据来源与DWS层。累积性全量表:查询要改动的旧数据,查询新增和变化的新数据,新旧关联,以新换旧,导入覆盖。DWT设备主题宽表用户主题宽表drop table if exists dwt_user_topic;create external table dwt_user_topic( user_id string comment '用户id', login_d..原创 2021-05-14 17:05:43 · 1355 阅读 · 0 评论 -
四、数据仓库电商项目——DWS层
DWS层dws层的数据从dwd层来选取,在建模上进行主题分类,分类后每个主题都制作一张表,按照dwd层的数据,进行每日的轻度聚合,一般是建宽表。说明:本次DWS层的数据清洗是与DWT(主题宽表DWT层则是针对全部进行统计。DWT层 每日设备行为 每日会员行为 每日商品行为 每日优惠券统计 (预留) 每日活动统计(预留) 每日购买行为 DWT层 设备主题宽表 会员主题宽表 商品主题宽表 优惠券主题宽表 活动主题宽表 会原创 2021-05-14 15:31:41 · 767 阅读 · 0 评论 -
三、数据仓库电商项目——DWD层
启动日志start_log清洗到DWD用到的函数:get_json_object1)person表xjson字段内容为:Xjson=[{"name":"大郎","sex":"男","age":"25"},{"name":"西门庆","sex":"男","age":"47"}]2)取出第一个json对象SELECT get_json_object(xjson,"$.[0]") FROM person;结果是:{"name":"大郎","sex":"男","age":"25"}3)取出第原创 2021-05-14 11:30:20 · 1649 阅读 · 0 评论 -
二、数据仓库电商项目——ODS层
ODS层ODS层是整个阶段最简单一层分层,主要职责是建立数据原始层,将数据都保存在HDFS上,经过步骤1我们建立出来了两个数据文件夹,一个是db,一个是log,分别代表业务数据、用户行为数据。ODS层的特点:(1)保持数据原貌不做任何修改,起到备份数据的作用。(2)数据采用压缩,减少磁盘存储空间(例如:原始数据100G,可以压缩到10G左右)(3)创建分区表,防止后续的全表扫描实现需求1、选择...原创 2021-05-14 11:06:04 · 1937 阅读 · 1 评论 -
一、数据仓库电商项目——数据的生成与传输
尚硅谷的电商大数据项目,在这里不介绍了,简单来说,就是将电商的业务数据以及用户的行为数据进行ETL,最后清洗出来有用的数据进行展示。这个项目中的数据都是仿造出来的,真正生产线上的数据也是通过埋点得到相应规则的数据,不过省略了这一步,现在靠做好的jar包生产数据就可以了。刚才也说了,该项目有两部分数据,一部分叫做业务数据,一部分叫做用户行为数据。业务数据所谓业务数据就是电商内的业务,由一些订单,优惠券,商品信息,评价等等业务组成,这些数据是以日志的格式打印出来,通过数据流保存到HD...原创 2021-05-14 09:56:17 · 1089 阅读 · 2 评论 -
数据仓库电商项目-整体架构
1.1技术选型数据采集:flume存储平台:hdfs基础设施:hive(数据仓库基础设施)运算引擎:mapreduce/spark资源调度:yarn任务调度:azkaban/oozie元数据管理:atlas(或自研系统)OLAP引擎:kylin/presto (或clickhouse)前端界面:superset(或自研javaweb系统)存储系统:底层存储HDFS,产出存储(hbase,elastic search,click house,kylin,mysql)1,数..原创 2021-07-09 21:30:19 · 1488 阅读 · 3 评论