5、数据清洗与验证:实用技巧与方法

数据清洗与验证:实用技巧与方法

在数据处理过程中,数据清洗与验证是至关重要的环节。它能够帮助我们处理数据中的各种问题,如格式不一致、拼写错误、数据量过大等,从而提高数据的质量和可用性。下面将详细介绍一些常见的数据清洗与验证方法。

1. 字符串模糊匹配

在判断字符串是否相等时,可通过设置最大距离 fuzzy-max-diff 或最大距离占最短输入字符串长度的百分比 fuzzy-percent-diff 来实现模糊匹配。
- 最大距离 :设置 fuzzy-max-diff 为 2 允许进行替换操作(通常是删除和插入两个操作)。

(def fuzzy-percent-diff 0.1)
  • 百分比 :使用 fuzzy-percent-diff 作为最大差异百分比,这里设置为 10%。
    如果满足上述两个条件之一,则认为两个字符串相同。不过,这种方法对于短字符串和长字符串都存在一定问题。对于短字符串,可能会误判,如将 ace are 判定为相同;对于长字符串,固定的最大距离可能不适用。可以考虑增加条件,仅当字符串长度大于某个值时使用 fuzzy-max-diff
    在这个过程中,可使用 clj-diff.core/edit-distance
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值