
数据仓库
文章平均质量分 84
数据仓库
959y
奋斗ing
展开
-
维度表和事实表以及明细表和宽表和窄表的区别
维度表和事实表以及明细表和宽表和窄表的区别原创 2023-03-16 13:19:05 · 2833 阅读 · 0 评论 -
[技术选型] ClickHouse和StarRocks的介绍
StarRocks介绍和ClickHouse的OLAP介绍原创 2023-02-14 20:14:34 · 3122 阅读 · 0 评论 -
[电商实时数仓] 数据仓库建模过程分析
数据仓库建模过程原创 2023-01-20 14:22:30 · 2735 阅读 · 0 评论 -
数据安全治理 1
数据安全治理 1原创 2023-01-17 22:53:51 · 561 阅读 · 0 评论 -
大数据平台之数据存储
大数据之数据存储技术原创 2022-08-03 21:53:22 · 18569 阅读 · 0 评论 -
大数据数仓高级面试题 4
1.数仓构建1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼业务模型,总线矩阵,划分主题域;3). 定制规范 命名规范、开发规范、流程规范4). 数仓架构分层:一般分为操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),其中公共维度模型层包括明细数据层(DWD和汇总数据层(DWS)公共维度模型层(CDM):存放明细事实数据、维表数据及公共指标汇总数据,其中明细事实数据、维表数据一般根据ODS层数据加工生成:公共指标汇总数据一般根据维表数据和明细事实数据加工生成。C原创 2021-10-28 15:07:16 · 611 阅读 · 0 评论 -
大数据数仓高级面试题 3
大数据数仓高级面试题 3原创 2023-01-12 17:52:44 · 1268 阅读 · 0 评论 -
大数据数仓高级面试题 1
大数据数仓高级面试题 1原创 2023-01-09 15:48:35 · 919 阅读 · 1 评论 -
大数据数仓高级面试题 2
1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。分别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:2、数据仓库和数据库原创 2021-07-28 13:18:09 · 2373 阅读 · 0 评论 -
数据仓库发展
数仓发展历程原创 2022-08-11 19:10:13 · 258 阅读 · 0 评论 -
[技术选型] 开源大数据OLAP引擎
文章目录1.开源OLAP综述2.开源数仓解决方案1.开源OLAP综述如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHouse和Apache Doris。应用最广的数据查询系统主要有Druid,Kylin和HBase。MPP引擎主要有Trino,PrestoDB和Impala。这些引擎在行业内有着广泛的应用。在云资源层,主要有ECS。在存储层的JindoFS提供了以OSS为基底的Had原创 2022-03-24 22:07:58 · 763 阅读 · 0 评论 -
ELT和ETL
ETL 和 ELT 有很多共同点,从本质上讲,每种集成方法都可以将数据从源端抽取到数据仓库中,两者的区别在于数据在哪里进行转换文章目录1.ETL2.ELT3.ELT的演变4.ELT的工作原理5.什么时候我们选择ELT6.数据湖是不是很好的ELT落脚点7.总结1.ETLETL - 抽取、转换、加载从不同的数据源抽取信息,将其转换为根据业务定义的格式,然后将其加载到其他数据库或数据仓库中。另一种 ETL 集成方法是反向 ETL,它将结构化数据从数据仓库中加载到业务数据库中,如我们常用数据仓库加工好的报原创 2022-03-17 20:57:26 · 656 阅读 · 0 评论 -
实时数仓之 Kappa 架构与 Lambda 架构
文章目录1.数据仓库概念2.离线大数据架构3.Lambda 架构4.Kappa 架构5. Lambda 架构与 Kappa 架构的对比1.数据仓库概念数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库概念是 Inmon 于 1990 年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增,开始使用 大数据工具 来替代经典数仓中的传统工具。原创 2022-03-14 17:39:50 · 1508 阅读 · 0 评论 -
数仓链路保障体系与数据测试方法
文章目录1.数据链路介绍2.数据层测试2.1 数据及时性2.2 数据完整性2.3 数据准确性3.应用层测试4.后续规划1.数据链路介绍应用服务层、数据网关层、应用存储层、数据仓库,并且作业开发、元数据管理等平台为数据计算、任务调度以及数据查询提供了基础能力。对于质量把控来说,最核心的两个部分是:数据仓库以及数据应用部分。因为这两部分属于数据链路中的核心环节,相对于其他层级而言,日常改动也更为频繁,出现问题的风险也比较大。2.数据层测试数据层的质量保障,可以分成三个方面:数据及时性、完整性、准确性原创 2022-03-07 18:21:11 · 911 阅读 · 0 评论