3)数据验证、标准化和数据丰富。要实现实体的解析,数据必须
尽可能保持一致。这至少需要减少格式上的变化和数据值调整,输入数
据的一致性能有效减少关联记录的风险和错误。准备过程如下:
①验证。识别那些被证明是错误的或可能是不正确或默认的数据
(如删除明显的假电子邮件地址)。
②标准化。确保数据内容符合标准参考数据值(如国家代码)、标
准的格式(如电话号码)或字段(如地址)。
③数据丰富。添加可以改进实体解析服务的属性(如关联公司记录
中的邓白氏公司的邓氏编码DUNS与通用公司的终极编码Ultimate
DUNS)、个人记录中的Acxiom或Experian消费者编码)。
表10-9说明了对表10-8中示例数据进行清洗和标准化的结果,具有
不同格式的地址现在已经可以被识别为是相同的地址,电话号码也已经
被转换为标准格式。