DW 2.0:数据质量工具集、建模与非结构化数据处理
1. DW 2.0 数据质量工具集
在数据处理过程中,有多种类型的工具可供考虑,主要用于解决数据质量相关的各类问题。这些工具大致可分为以下四个领域:
|工具领域|功能描述|
| ---- | ---- |
|查找(Find it)|进行数据剖析和发现,找出数据异常和规则|
|修复(Fix it)|根据特定规则清理数据|
|移动(Move it)|ETL 或 ELT 工具在数据进入数据仓库的过程中对数据进行转换|
|监控与报告(Monitor it and report it)|监控和报告数据质量|
在第一代数据仓库中,这四个领域表现为不同的专业工具类别。但在 DW 2.0 数据仓库中,这些工具不断得到增强,功能与相邻领域的工具存在重叠。同时,还出现了新的工具功能类别,如语义发现工具,它利用模糊逻辑发现数据中的规则,有些工具甚至能分析半结构化数据。数据质量工具供应商之间的并购进一步促进了工具集的捆绑和增强。因此,DW 2.0 架构师需要一个能够查找数据质量异常、修复问题、移动数据以及监控/报告数据质量的工具集。
2. 数据剖析工具与逆向工程数据模型
2.1 手动数据剖析的方式及问题
手动进行数据剖析是可行的,但存在诸多问题:
- 雇佣额外员工 :组织可以雇佣额外的员工梳理数据库,查找并消除重复记录。然而,这种方式无法识别文件内部或跨文件/系统的关系,而且新员工需要培训和监督以确保遵循业务规则,成本较高。
- 编写程序 :编写程序
超级会员免费看
订阅专栏 解锁全文
1553

被折叠的 条评论
为什么被折叠?



