18、数据湖集成设计原则与探索性分析-优快云博客

本文链接：https://blog.youkuaiyun.com/a3b4c5/article/details/149550868

数据湖集成设计原则与探索性分析

1. 数据匹配方法

在数据处理过程中，有几种重要的名称匹配方法：
- 部分名称匹配 ：对于名字和中间名的属性，可以匹配子字符串。例如，将“Mitch”匹配到“Mitchell”，“Beth”匹配到“Elizabeth”。
- 语音匹配 ：使用Soundex或Double Metaphone算法，对名字、中间名和姓氏进行匹配。比如，把“Smith”匹配到“Smyth”，“Jon”匹配到“John”。
- 复合名称匹配 ：针对姓氏属性，匹配复合名称。像“De Villiers”可匹配到“Devilliers”，“VanDamme”可匹配到“Van Damme”。
- 检测缺失连字符 ：检测姓氏属性中是否缺失连字符。例如，“Hillary Rodham Clinton”可匹配到“Hillary Rodham - Clinton”。

2. 数据剖析

数据剖析是分析数据源数据并展示统计信息的过程，可用于衡量数据质量，主要有两个目标：一是推动数据质量流程以支持决策，二是评估这些流程的有效性。具体执行以下类型的任务：
|任务类型|描述|
| ---- | ---- |
|统计概要创建|为空白字段值、空值、重复项、唯一数据值、最频繁和最不频繁出现的数据值等生成统计信息（如计数、数据百分比）|
|文本分析|为文本字段开发概要，包括最小/最大/平均长度、数据值的重复性|
|数值分析|分析数值字段，计算算术平均值、范围、四分位数