SAS数据仓库:满足用户需求与系统互联
1. 满足SAS数据仓库用户需求
1.1 数据管理与用户需求
在SAS数据仓库的管理中,需要考虑分析师和开发者两类用户的需求。许多数据管理项目,如调查数据集原生变量的调查代码手册,以及仓库派生变量的数据字典,分析师和开发者都会用到。但也有一些项目,如ETL代码使用说明和ETL代码所基于的研究结果,主要是针对开发者的数据管理文件。
1.2 数据管理文件示例
以下是一些数据管理文件的示例:
| 文件类型 | 用途 | 用户群体 |
| — | — | — |
| 调查代码手册 | 解释调查数据集原生变量 | 分析师、开发者 |
| 数据字典 | 说明仓库派生变量 | 分析师、开发者 |
| ETL代码使用说明 | 指导开发者使用ETL代码 | 开发者 |
| ETL代码研究结果 | 为ETL代码开发提供依据 | 开发者 |
1.3 跨培训的重要性
为了更好地维护数据仓库,不同类型的分析师和开发者应进行跨培训。例如,负责在去标识服务器上进行数据去标识的开发者与维护云服务器的开发者进行跨培训。这样,当一方无法履行职责时,另一方可以替代,并且能让开发者更好地理解彼此工作的挑战,从而改进工作流程以更好地服务客户。
1.4 满足用户需求的措施
为了满足分析师和开发者的需求,可以采取以下措施:
-
服务分析师
:提供数据访问权限,以及有用的分析变量,如外键和交叉表变量,鼓励分析师将仓库数据与其他数据集连接,为纵向分析提供更多灵活性。
-
服务开发者
:管理数据管理委员会,提供数据管理和其他支持。
2. SAS数据仓库与其他系统的互联
2.1 SAS系统的发展与互联性
最初,SAS设计为在其自身环境中运行,数据编辑、分析、报告和可视化都在同一环境中完成。但随着互联网的发展,SAS增加了互操作性功能,现在可以将SAS数据提供给其他系统,通过SAS/ACCESS组件连接非SAS数据存储,还能使用优化的软件在SAS外部进行数据报告和可视化。
2.2 技能提升
以下是需要掌握的技能:
- 设计将SAS数据仓库的数据提供给非SAS应用程序的系统,如在IBM Cognos中提供星型模式。
- 创建SAS数据仓库与非SAS数据仓库(如SQL数据仓库)的连接,并将数据复制到SAS数据仓库。
- 创建SAS数据仓库与云数据的连接以实现互操作性。
2.3 向其他系统提供SAS数据
2.3.1 提供数据的步骤
向非SAS系统提供SAS数据可分为两个步骤:
1. SAS数据仓库创建数据提取并将其传输给非SAS系统开发者。
2. 非SAS系统进行ETL,将SAS数据整合到非SAS系统中。
2.3.2 标识符处理的重要性
在数据传输过程中,标识符的处理至关重要。如果在第一步提取的数据中包含敏感个人标识符,这些标识符将在第二步传输到新系统中,可能会带来隐私和保密风险,因此需要谨慎考虑。
2.4 实施去标识政策
2.4.1 外键的作用
外键是用于连接数据集的索引,如美国数据集里的FIPS代码可作为州的外键。公共领域的外键(如FIPS代码)对于丰富仓库信息非常重要,但使用私人或个人外键(如医疗记录号MRN或社会安全号SSN)时需要特殊考虑。
2.4.2 个人标识符的风险与处理
个人外键虽然对数据仓库用户有用,但将包含个人标识符的数据存储在数据仓库中存在风险,尤其是当数据通过互联网连接且可访问时。因此,应尽可能对个人标识符进行交叉映射,而公共领域标识符可以保持其原始格式。
2.5 创建交叉表
2.5.1 交叉表示例
创建标识符交叉表是使用个人标识符作为外键但不将其存储在实时数据仓库中的第一步。以下是一个简单的示例:
| SSN | MRN | WarehouseID |
| — | — | — |
| 111 - 22 - 3333 | 123 - 456 | 1 |
| … | … | … |
2.5.2 交叉表列说明
- SSN :个人标识符,不希望存储在实时数据仓库中,但在某些情况下可能需要用于连接非医疗相关数据集。
- MRN :医疗记录号,在医疗记录中存在,用于连接相关医疗数据集。
- WarehouseID :仓库生成的唯一标识符,ETL后,用其替换所有的MRN和SSN,这样可以在不存储个人标识符的情况下连接数据,还能在紧急情况下重新识别数据。
2.6 分析师工作流程和服务器设置
2.6.1 服务器设置
将原始的已识别数据处理为实时数据仓库中的数据,同时用仓库标识符替换标识符,需要特定的服务器和分析师设置:
-
去标识服务器
:用于执行替换个人标识符的ETL步骤,应放置在物理安全区域,无互联网连接,分析师需现场操作。
-
ETL服务器
:大多数ETL转换步骤在此服务器上进行,适合大型团队远程执行ETL操作。
2.6.2 去标识服务器设置流程
graph LR
A[数据提供者提供原始数据] --> B[物理媒体存储原始数据]
B --> C[现场分析师将数据放置在去标识服务器]
C --> D[运行替换私人标识符的代码]
D --> E[将去标识数据放置在便携式物理媒体]
E --> F[将去标识数据放置在数据仓库网络]
2.6.3 数据仓库功能
转换后的去标识数据加载到支持远程开发者和分析师团队的系统中,开发者可现场或远程进行ETL和维护,分析师远程访问资源。这种方式确保即使系统在互联网上且可远程访问,也不会存储个人标识符,降低了数据泄露的风险。
3. 详细操作与应用案例
3.1 数据提取与传输操作步骤
向非SAS系统提供SAS数据时,具体的操作步骤如下:
1.
数据提取
:
- 确定需要提取的数据范围,根据非SAS系统的需求,筛选出相关的数据集。
- 使用SAS的相关工具或代码进行数据提取,确保提取的数据准确无误。
2.
数据传输
:
- 选择合适的传输方式,如文件传输协议(FTP)、安全文件传输协议(SFTP)等。
- 将提取的数据传输给非SAS系统开发者,在传输过程中要注意数据的完整性和安全性。
3.
非SAS系统的ETL
:
- 非SAS系统开发者接收到数据后,进行ETL操作,将SAS数据整合到非SAS系统中。
- 检查数据的格式和结构,确保数据能够正确地被非SAS系统识别和处理。
3.2 交叉表创建的详细流程
创建标识符交叉表时,可按照以下流程进行:
1.
数据收集
:收集包含个人标识符(如SSN、MRN)的数据集。
2.
表结构设计
:设计交叉表的结构,确定需要包含的列,如SSN、MRN、WarehouseID等。
3.
数据录入
:将收集到的数据录入到交叉表中,确保数据的准确性和完整性。
4.
唯一标识符生成
:为每个记录生成唯一的WarehouseID,可使用数据库的自动编号功能或自定义算法。
5.
数据验证
:验证交叉表中的数据,确保每个个人标识符都对应唯一的WarehouseID。
3.3 应用案例分析
以美国州卫生部门在COVID - 19疫情期间的数据处理为例,分析SAS数据仓库与其他系统互联的应用。
1.
数据收集与分析
:在疫情前,州卫生部门使用SAS常规收集和分析传染病爆发数据。
2.
数据传输需求
:疫情爆发后,需要将COVID - 19疫情数据定期发送给联邦政府进行跟踪、分析和可视化。
3.
数据处理与传输
:
- 州卫生部门使用SAS进行数据提取和去标识处理,创建交叉表,用WarehouseID替换个人标识符。
- 通过安全的传输方式将去标识后的数据发送给联邦政府,联邦政府使用多种工具(包括SAS和其他工具)进行后续处理。
3.4 服务器设置的注意事项
在设置去标识服务器和ETL服务器时,需要注意以下事项:
| 服务器类型 | 注意事项 |
| — | — |
| 去标识服务器 | - 放置在物理安全区域,防止未经授权的访问。
- 断开与互联网的连接,避免数据泄露风险。
- 仅允许授权的分析师现场操作。 |
| ETL服务器 | - 确保服务器具有足够的性能和存储空间,以支持大型团队的ETL操作。
- 提供稳定的网络连接,方便开发者和分析师远程访问。
- 定期进行数据备份,防止数据丢失。 |
4. 总结与建议
4.1 关键要点总结
- 在SAS数据仓库管理中,要充分考虑分析师和开发者的需求,通过提供数据访问、有用的分析变量以及数据管理支持等方式,满足不同用户的需求。
- 实现SAS数据仓库与其他系统的互联时,要注意数据提取、传输过程中标识符的处理,实施去标识政策,创建交叉表,确保数据的安全性和隐私性。
- 合理设置服务器,将去标识和ETL操作分开,保障数据处理的高效性和安全性。
4.2 建议
-
对于数据仓库管理人员:
- 加强分析师和开发者的跨培训,提高团队的协作能力和问题解决能力。
- 定期评估数据管理项目,根据用户需求和技术发展,及时调整数据管理策略。
-
对于开发者:
- 熟练掌握ETL代码的编写和使用,不断优化ETL流程,提高数据处理效率。
- 关注数据安全问题,严格遵守去标识政策,确保个人标识符的安全处理。
-
对于分析师:
- 充分利用外键和交叉表变量,将仓库数据与其他数据集连接,进行更深入的数据分析。
- 及时反馈数据使用过程中遇到的问题,为数据仓库的优化提供建议。
4.3 未来展望
随着信息技术的不断发展,SAS数据仓库将面临更多的挑战和机遇。未来,可能会出现更多新的技术和工具,用于提高数据处理的效率和安全性。同时,数据仓库与其他系统的互联也将更加紧密,为数据分析和决策提供更强大的支持。我们需要不断学习和探索,适应技术的发展,充分发挥SAS数据仓库的优势。
graph LR
A[SAS数据仓库] --> B[数据提取]
B --> C[去标识处理]
C --> D[数据传输]
D --> E[非SAS系统]
F[个人标识符数据] --> G[创建交叉表]
G --> C
C --> H[存储去标识数据]
I[分析师] --> J[使用外键和交叉表变量分析数据]
J --> A
K[开发者] --> L[优化ETL流程]
L --> A
通过以上的操作和管理,能够更好地满足SAS数据仓库用户的需求,实现与其他系统的有效互联,保障数据的安全和高效利用。
超级会员免费看
1644

被折叠的 条评论
为什么被折叠?



