数仓整体架构体会

数仓整体架构体会

1.数据仓库的stg阶段的数据来源于日志采集和离线数据采集。
对离线数据开发,包括数据开发平台和任务调度系统,数据开发平台对数据进行计算和整理,任务调度系统对作业进行调度,调度方式包括时间触发、依赖触发和时间+依赖出发。
作业的状态有成功、准备中和等待(附任务未完成)。
2.在odm层、idm层和sdm层建立数据模型,对数据进行开发。
数据模型是指数据组织和存储方法,强调从业务、数据存取、使用角度来合理存储数据。
建立数据模型的方法包括维度建模和三范式建模,根据不同的需求建立选择不同的模型。
3.元数据,又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据可以帮助数据仓库管理员和开发人员快速找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。

<think>好的,用户现在想查找关于数据仓库技术架构的图表或设计示例。我需要结合之前提供的引用内容来回答这个问题。首先,用户提到的引用[2]和[4]都涉及数据仓库的分架构和实例,特别是引用[2]详细介绍了ODS、DWD、DWS、ADS这些次,以及工具的选择。引用[4]提到了一个金融企业的据架构实例,使用了分布式数据库和大据技术,这可能对用户有帮助。接下来,用户需要的是技术架构图示例或设计方法。根据引用[5],架构图需要分展示,业务架构、据架构等,所以可能需要用类似的思路来构建技术架构图。另外,引用[3]提到了事实星座模式,可能在据模型设计部分需要提及。我需要确保回答结构清晰,分次说明技术架构,并给出示例图的主要次和组件。同时,用户可能需要了解实现工具,如Hadoop、Spark、Flink等,这些在引用[2]和[4]中有提到。此外,引用[4]中的分布式数据库和大据技术可以作为技术选型的例子。还要注意用户可能需要架构设计的关键点,比如据治理、扩展性、性能优化等,这些在引用[1]和[4]中都有涉及。最后,生成的相关问题应该围绕架构设计方法、工具选择、分差异等,帮助用户进一步探索。</think>### 数据仓库技术架构图示例及设计要点 数据仓库技术架构通常分为**据采集、存储、处理、服务**,并结合现代大据组件实现高效管理。以下是典型的分架构示例和设计方法: --- #### 一、技术架构图示例(分结构) ```plaintext |-----------------------| | 据服务 (ADS) | → BI工具、API接口、报表系统 |-----------------------| | 数据仓库 (DWS) | → 主题宽表、聚合指标 |-----------------------| | 据明细 (DWD) | → 清洗后的标准化据 |-----------------------| | 原始 (ODS) | → 日志、关系型数据库、外部据源 |-----------------------| | 据采集 | → Flume、Kafka、Sqoop、CDC工具 |-----------------------| | 基础设施 | → Hadoop、云存储、分布式数据库 |-----------------------| ``` --- #### 二、各核心组件及工具 1. **据采集** - 工具:$Flume$(日志采集)、$Kafka$(实时流)、$Sqoop$(关系型数据库同步) - 作用:对接多源异构据,支持批量和实时采集[^2]。 2. **存储(ODS/DWD/DWS)** - ODS:原始据存储,格式与源系统一致,如$HDFS$或对象存储。 - DWD:清洗后的标准化据,使用$Parquet$或$ORC$列式存储[^3]。 - DWS:主题宽表,通过$Spark SQL$或$Hive$聚合生成。 3. **处理** - 批处理:$Spark$、$Hive$ - 实时处理:$Flink$、$Kafka Streams$ - 计算与存储分离架构(如据湖一体)[^4]。 4. **服务(ADS)** - 提供API、据集市、BI接口(如$Tableau$、$Superset$)。 - 支持即席查询(如$Presto$、$ClickHouse$)。 --- #### 三、架构设计关键点 1. **技术选型** - 根据据规模选择存储引擎(如$HBase$用于高并发查询,$Iceberg$用于ACID特性)[^4]。 - 结合云原生技术(如$AWS Redshift$、$Snowflake$)提升弹性扩展能力。 2. **据治理** - 元据管理($Atlas$)、据血缘追踪($Apache Lineage$)。 - 分设计需明确各据生命周期和权限控制[^5]。 3. **性能优化** - 使用列式存储和压缩算法(如$Snappy$)。 - 通过分区和分桶策略加速查询。 --- #### 四、示例架构图(文字描述) $$ \begin{array}{|c|c|} \hline \text{据应用} & \text{BI工具、API服务} \\ \hline \text{计算引擎} & \text{Spark/Flink/Presto} \\ \hline \text{存储引擎} & \text{HDFS/Iceberg/Hudi} \\ \hline \text{据采集} & \text{Kafka/Flume/CDC} \\ \hline \end{array} $$ > 注:现代架构常采用**湖一体**模式,结合据湖的灵活性与的规范性[^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值