数据融合工具(7)文本属性值规范化处理

图片

一、需求背景

数据检查方案中,对文本属性值的检查一般包括以下内容:

  • 检查属性值中不能含有不合理的标点符号(“,”、“?”、空格、换行符等);

  • 确认全部属性字段是否为半角;

  • 名称简称中不能出现异常字符;

……

而我们在属性表中处理文本类型字段属性值时,也常碰到这样的烦恼:

  • 一次只能处理一个字段;

  • 一次只能处理一种非法字符类型;

  • 字段计算器一运算,想反悔已经来不及;

  • 文本查找与替换,又不能支持字符串两端或中间模糊匹配;

    ……

图片

二、为什么要对文本属性值规范化处理?

        属性值规范化处理是数据预处理的一部分,通常在数据清洗和准备阶段进行。这种处理是为了确保数据的一致性和可用性,以减少错误和提高数据的质量。以下是针对属性值规范化处理的不同需求及其原因:

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包

    打赏作者

    craybb

    你的鼓励将是我创作的最大动力

    ¥1 ¥2 ¥4 ¥6 ¥10 ¥20
    扫码支付:¥1
    获取中
    扫码支付

    您的余额不足,请更换扫码支付或充值

    打赏作者

    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值