1. 简述说下一致性维度、一致性事实、总线矩阵 ?
在数据仓库和维度建模中,一致性维度、一致性事实和总线矩阵是三个关键概念,它们共同支持数据仓库的一致性和灵活性。
-
一致性维度(Conformed Dimension):
- 一致性维度是一种设计模式,确保不同事实表中使用的维度具有相同的结构和含义。这意味着无论在哪个事实表中,维度表的属性和层次结构都是一致的。
- 例如,如果“时间”维度在多个事实表中使用,那么它应该在所有表中具有相同的属性,如年、月、日等。
-
一致性事实(Conformed Fact):
- 一致性事实是指在多个事实表中使用的度量值具有相同的定义和计算方式。这有助于确保跨不同事实表的度量值是可以比较的。
- 例如,如果“销售额”在多个事实表中使用,它应该在所有表中以相同的方式计算,以确保数据的一致性。
-
总线矩阵(Bus Matrix):
- 总线矩阵是一种工具,用于记录和沟通数据仓库中的一致性维度和事实。它通常是一个表格,列出了所有的维度和事实,并指出它们在不同业务过程或主题区域中的使用情况。
- 总线矩阵有助于数据仓库设计者和业务分析师理解数据模型的覆盖范围,确保数据的一致性,并作为沟通工具来协调不同团队的工作。
应用场景:
-
一致性维度:在电子商务平台中,如果“产品”维度在销售、库存和客户行为等多个事实表中使用,确保“产品”维度的一致性有助于进行跨领域的分析。
-
一致性事实:在财务分析中,如果“收入”这一度量值在不同地区的销售事实表中使用,保持“收入”的一致性定义有助于比较不同地区的业绩。
-
总线矩阵:在大型组织中,总线矩阵可以帮助数据仓库团队和业务部门理解数据模型的结构,确保不同项目和系统中数据的一致性。
通过使用一致性维度、一致性事实和总线矩阵,组织可以构建一个灵活、可扩展且易于维护的数据仓库,支持复杂的业务分析和决策制定。
2. 简述从ODS层到DW层的ETL,做了哪些工作 ?
ETL(Extract, Transform, Load)是从操作数据存储(Operational Data Store, ODS)层到数据仓库(Data Warehouse, DW)层的核心过程。以下是ETL过程中通常执行的工作:
-
数据抽取(Extract):
- 从源系统(如事务处理系统、日志文件等)中提取数据,这些数据可能存储在不同的数据库或数据格式中。
-
数据清洗(Data Cleaning):
- 识别并纠正数据错误,如去除重复记录、修正格式错误、填补缺失值等。
-
数据转换(Transform):
- 将数据转换成适合数据仓库的格式和结构。这可能包括:
- 数据类型转换:例如,将日期从字符串转换为日期类型。
- 数据聚合:如将多个记录汇总为一个聚合值。
- 数据关联:将来自不同源的数据根据特定键合并。
- 应用业务规则:根据业务逻辑对数据进行处理。
- 将数据转换成适合数据仓库的格式和结构。这可能包括:
-
数据集成(Data Integration):
- 将来自不同源的数据集成到一个统一的数据模型中,确保数据的一致性和完整性。
-
数据映射