一、避免不良数据
- 数据变差的原因有很多。大多数据情况下,数据变差会发生在我们第一次将数据录入系统时。确保正确录入数据对于保障数据的质量至关重要,还有不兼容导致数据变差,缺乏相应文档也可能导致数据质量变差。
- 结构化数据和非结构话数据都可能存在数据质量的问题。
- 结构化数据
- 结构化数据通常具有标准格式,例如文本、数字或日期等
- 非结构化数据
- 非结构化数据通常不具有标准格式,且不存储在关系型数据库中,例如:图像、音频或地理空间数据
- 结构化数据
- 输入错误
- 输入错误常常是将数据录入系统时人为造成的,或是因为文档本身就有错误,文档本身的错误坑呢是转录或者手写错误所导致,在进行数据转录时,我们必须为审核数据分配时间,尽可能确保转录的数据与原始数据一致且可靠。
- 解决转录错误的方法
- 通过人工对数据审核,减少最大限度的错误
- 解决转录错误的方法
- 输入错误常常是将数据录入系统时人为造成的,或是因为文档本身就有错误,文档本身的错误坑呢是转录或者手写错误所导致,在进行数据转录时,我们必须为审核数据分配时间,尽可能确保转录的数据与原始数据一致且可靠。
- 键的问题
- 通常在插入数据时需要进行额外的检查,以避免新输入的数据与系统中已存在的数据发生冲突,这种冲突可能会导致数据集错误。发生这种问题的根本原因是数据连接错误。输入数据表与数据源之间的连接或链接也可能导致键的非兼容性或属性的不一致性。
- 键的非兼容性问题主要发生在将数据录入系统时,可能会出现主键重复或在唯一标识符字段输入重复主键的情况,因为数据库不允许有主键重复的字段,所以会导致输入错误。
- 重复记录
- 当数据从一个系统到另一个系统时,往往会出现重复记录或多次添加相同信息的情况,而且重复也不局限于主键重复。若无法确定最可靠数据,可能会导致对已有的数据失去信心。

最低0.47元/天 解锁文章
4816

被折叠的 条评论
为什么被折叠?



