3)数据验证、标准化和数据丰富。要实现实体的解析,数据必须
尽可能保持一致。这至少需要减少格式上的变化和数据值调整,输入数
据的一致性能有效减少关联记录的风险和错误。准备过程如下:
①验证。识别那些被证明是错误的或可能是不正确或默认的数据
(如删除明显的假电子邮件地址)。
②标准化。确保数据内容符合标准参考数据值(如国家代码)、标
准的格式(如电话号码)或字段(如地址)。
③数据丰富。添加可以改进实体解析服务的属性(如关联公司记录
中的邓白氏公司的邓氏编码DUNS与通用公司的终极编码Ultimate
DUNS)、个人记录中的Acxiom或Experian消费者编码)。
表10-9说明了对表10-8中示例数据进行清洗和标准化的结果,具有
不同格式的地址现在已经可以被识别为是相同的地址,电话号码也已经
被转换为标准格式。
数据清洗与标准化:提升实体解析准确性
文章讲述了数据验证、标准化和数据丰富在确保数据一致性中的关键作用。通过验证去除错误信息,标准化统一数据格式,以及数据丰富增加额外属性,能有效提高实体解析的准确性和降低关联记录的风险。举例中,地址和电话号码经过处理后能被正确识别和匹配。

被折叠的 条评论
为什么被折叠?



