
Data_Warehouse项目
文章平均质量分 95
记录离线数仓项目和实时数仓项目总结笔记
岁月的眸
认定学习目标,不断提升自我!
展开
-
离线电商数仓3.0项目即席查询复盘笔记
离线电商数仓3.0的即席查询笔记kylin的简介与架构Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay Inc 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。kylin架构1)REST ServerREST Server 是一套面向应用程序开发的入口点,旨在实现针对 Kylin 平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发 cube 构建任务原创 2022-03-27 21:06:34 · 2858 阅读 · 2 评论 -
Flink电商数仓项目复盘笔记-01
Flink电商数仓项目笔记电商实时数仓分层介绍 普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。 实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。例如下图:例如:我们在普通实时SparkStreaming项目中,直接从数据源获取后通过过滤然后获取新增数据和变化数据,之后进行GM原创 2022-04-07 09:21:26 · 3537 阅读 · 0 评论 -
复盘离线电商数仓3.0项目–数据开发梳理
复盘离线电商数仓项目–数据开发梳理业务数据数仓分层ods层到ads层的开发开源BI工具SupersetODS层业务数据&日志数据ods层业务数据使用Sqoop脚本从Mysql数据库拉取数据落盘到hdfs然后创建ods层的外部表_分区表使用封装好的shell脚本将数据load到对应的表中,脚本如下(参考模板):#!/bin/bashAPP=gmallhive=/opt/module/hive/bin/hive# 如果是输入的日期按照原创 2022-03-24 15:24:51 · 4252 阅读 · 0 评论