数据湖仓(二)不良数据与不同类型数据

一、避免不良数据

  • 数据变差的原因有很多。大多数据情况下,数据变差会发生在我们第一次将数据录入系统时。确保正确录入数据对于保障数据的质量至关重要,还有不兼容导致数据变差,缺乏相应文档也可能导致数据质量变差。
  • 结构化数据和非结构话数据都可能存在数据质量的问题。
    • 结构化数据
      • 结构化数据通常具有标准格式,例如文本、数字或日期等
    • 非结构化数据
      • 非结构化数据通常不具有标准格式,且不存储在关系型数据库中,例如:图像、音频或地理空间数据
  • 输入错误
    • 输入错误常常是将数据录入系统时人为造成的,或是因为文档本身就有错误,文档本身的错误坑呢是转录或者手写错误所导致,在进行数据转录时,我们必须为审核数据分配时间,尽可能确保转录的数据与原始数据一致且可靠。
      • 解决转录错误的方法
        • 通过人工对数据审核,减少最大限度的错误
  • 键的问题
    • 通常在插入数据时需要进行额外的检查,以避免新输入的数据与系统中已存在的数据发生冲突,这种冲突可能会导致数据集错误。发生这种问题的根本原因是数据连接错误。输入数据表与数据源之间的连接或链接也可能导致键的非兼容性或属性的不一致性。
    • 键的非兼容性问题主要发生在将数据录入系统时,可能会出现主键重复或在唯一标识符字段输入重复主键的情况,因为数据库不允许有主键重复的字段,所以会导致输入错误。
  • 重复记录
    • 当数据从一个系统到另一个系统时,往往会出现重复记录或多次添加相同信息的情况,而且重复也不局限于主键重复。若无法确定最可靠数据,可能会导致对已有的数据失去信心。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值