SAS数据仓库:ETL管理与数据报告全解析
1. SAS数据仓库ETL管理策略
在SAS数据仓库中,ETL(提取、转换、加载)管理涉及制定与数据存储和管理直接相关的策略。这些策略包括建立数据、代码和变量的命名规范,以及制定与用户权限和数据访问相关的规则。其中,数据传输策略尤为重要,它涵盖了数据流入和流出数据系统的各个方面。
1.1 数据传输类型
数据仓库中不可避免地会发生两种类型的数据传输:
- 外部数据提供商的数据导入仓库。
- 仓库内的数据导出到仓库系统之外。
此外,还可能存在内部数据集的传输,例如从一个内部服务器到另一个内部服务器。
内部数据传输通常已有相关策略覆盖。例如,负责ETL功能但不直接从数据提供商读取原始数据,也不将数据加载到最终仓库结构的工作人员,只能有限访问与转换相关的数据存储区域,从而限制了他们引入新数据或导出数据的能力。
而与数据提供商交互以及将转换后的数据加载到最终数据集市、仓库或湖结构的人员,通常是一小部分高级程序员和仓库领导者,他们被授予访问这些高度安全区域的权限,并负责控制数据进出仓库系统的传输,以减少不必要的数据传输。
1.2 数据导入策略制定
对于管理数据导入仓库的策略,每个纳入仓库的数据集都来自不同的来源,因此有不同的政策和协议来控制数据。高级编程团队中的个人可以成为特定数据集的主题专家(SME),负责这些数据集的原始数据传输,以及开发和更新相关的ETL代码和文档文件。数据接收策略的具体步骤如下:
1. 为每个数据集指定一个SME,并由该SME与数据提供商建立联系人。
2. 当需要传输新数据集时,数据提供商
超级会员免费看
订阅专栏 解锁全文
45

被折叠的 条评论
为什么被折叠?



