数据湖集成设计原则与探索性分析
1. 数据匹配方法
在数据处理过程中,有几种重要的名称匹配方法:
- 部分名称匹配 :对于名字和中间名的属性,可以匹配子字符串。例如,将“Mitch”匹配到“Mitchell”,“Beth”匹配到“Elizabeth”。
- 语音匹配 :使用Soundex或Double Metaphone算法,对名字、中间名和姓氏进行匹配。比如,把“Smith”匹配到“Smyth”,“Jon”匹配到“John”。
- 复合名称匹配 :针对姓氏属性,匹配复合名称。像“De Villiers”可匹配到“Devilliers”,“VanDamme”可匹配到“Van Damme”。
- 检测缺失连字符 :检测姓氏属性中是否缺失连字符。例如,“Hillary Rodham Clinton”可匹配到“Hillary Rodham - Clinton”。
2. 数据剖析
数据剖析是分析数据源数据并展示统计信息的过程,可用于衡量数据质量,主要有两个目标:一是推动数据质量流程以支持决策,二是评估这些流程的有效性。具体执行以下类型的任务:
|任务类型|描述|
| ---- | ---- |
|统计概要创建|为空白字段值、空值、重复项、唯一数据值、最频繁和最不频繁出现的数据值等生成统计信息(如计数、数据百分比)|
|文本分析|为文本字段开发概要,包括最小/最大/平均长度、数据值的重复性|
|数值分析|分析数值字段,计算算术平均值、范围、四分位数
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



