ETL架构师面试题(一)

本文介绍了ETL项目中逻辑数据映射的重要性和作用,它是数据迁移策略的元数据,用于描述源系统到数据仓库的数据转换。数据探索阶段则旨在理解源系统,为后续建模和映射打基础。确定起始来源数据对于一致性维度的建立至关重要,设计者需要深入了解数据源,考虑用户需求和业务系统支持,确保数据质量和完整性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本部分的题目来自Kimball的ETL Toolkit著作。仅供参考

分析

一、什么是逻辑数据映射?它对ETL项目组的作用是什么?

       逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息:

目标表名:

目标列名:

目标表类型:注明是事实表、维度表或支架维度表。

SCD类型:对于维度表而言。

源数据库名:源数据库的实例名,或者连接字符串。

源表名:

源列名:

转换方法:需要对源数据做的操作,如Sum(amount)等。

       逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的,它起着元数据的作用。项目中最好选择能生成逻辑数据映射的数据迁移工具。

二、在数据仓库项目中,数据探索阶段的主要目的是什么?

       在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段,一个是数据探索阶段(Data Discovery Phase),另一个是异常数据检测阶段。

      数据探索阶段包括以下内容:

1.收集所有的源系统的文档、数据字典等内容。

2.收集源系统的使用情况,如谁在用、每天多少人用、占多少存储空间等内容。

3.判断出数据的起始来源(System-of-Record

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值