18、数据湖集成设计原则与探索性分析

数据湖集成设计原则与探索性分析

1. 数据匹配方法

在数据处理过程中,有几种重要的名称匹配方法:
- 部分名称匹配 :对于名字和中间名的属性,可以匹配子字符串。例如,将“Mitch”匹配到“Mitchell”,“Beth”匹配到“Elizabeth”。
- 语音匹配 :使用Soundex或Double Metaphone算法,对名字、中间名和姓氏进行匹配。比如,把“Smith”匹配到“Smyth”,“Jon”匹配到“John”。
- 复合名称匹配 :针对姓氏属性,匹配复合名称。像“De Villiers”可匹配到“Devilliers”,“VanDamme”可匹配到“Van Damme”。
- 检测缺失连字符 :检测姓氏属性中是否缺失连字符。例如,“Hillary Rodham Clinton”可匹配到“Hillary Rodham - Clinton”。

2. 数据剖析

数据剖析是分析数据源数据并展示统计信息的过程,可用于衡量数据质量,主要有两个目标:一是推动数据质量流程以支持决策,二是评估这些流程的有效性。具体执行以下类型的任务:
|任务类型|描述|
| ---- | ---- |
|统计概要创建|为空白字段值、空值、重复项、唯一数据值、最频繁和最不频繁出现的数据值等生成统计信息(如计数、数据百分比)|
|文本分析|为文本字段开发概要,包括最小/最大/平均长度、数据值的重复性|
|数值分析|分析数值字段,计算算术平均值、范围、四分位数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值