详解python匹配问题

Python脏数据匹配策略详解

原创

已于 2024-01-05 17:48:25 修改 · 993 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2023-12-30 13:52:34 首次发布

本文介绍了在数据匹配过程中如何处理脏数据，特别是针对QS大学排名数据集的匹配问题。从完全相等到编辑距离匹配，详细讲解了多种匹配方法，并强调了从精准到模糊的匹配顺序。此外，还讨论了正则化、包含匹配和人工匹配等策略，以及在实际应用中如何避免误匹配。

脏数据匹配

一般数据建模步骤中，数据清洗耗时占比80%以上，因为现实中接触到的数据相当脏，无法直接简单的用pandas的merge函数解决。下面以QS大学排名的匹配为例，简单介绍脏数据匹配中会遇到的问题和主要步骤。

1 问题描述

给定一个QS大学排名数据集，主要字段为大学名和排名，再给定一个带大学名称的本地数据集，我们需要根据QS表中的名字与我们已有的数据集中的大学名字进行匹配，然后将对应的QS排名添加到本地数据集中。QS数据集和本地数据集形式如下图：

数据匹配的过程中，可能出现以下几个问题需要处理。

格式：比如是否加标点符号，名称顺序不同等
语言：不同国家的学校语言可能不同
别名：新旧名或多个名字、缩写等等

2 一般步骤

对于较为规整的数据，可以尝试直接用pandas的merge函数进行匹配，效率往往也较高。但merge函数只能解决规范化的问题，则建议使用json类型转化为列表和字典的组合形式，虽然降低了数据处理的速度，但提供了更灵活的匹配与修改操作。（ps 建议熟练掌握pandas的常用数据处理函数，了解其规范化的处理方式以及使用限制，才能很快判断是否能用标准库处理。）

原则上，匹配的过程遵循从精准匹配到模糊匹配的顺序。 因为已经匹配的数据将不参与后续的匹配，而模糊匹配可能会出现错误，且后续无法纠正该错误，所以应该在前面步骤实在无法匹配成功的情况下使用模糊匹配。

2.1 数据导入

# 将csv转为json再导入
qs = pd.read_csv('2024 QS World University Rankings 1.1 (For qs.com).csv')
data = pd.read_csv('data.csv')

qs.to_json('QS_rank.json', orient='records')
data.to_json('data.json', orient='records')

with open('QS_rank.json', 'r', encoding='utf-8') as f:
    qs = json.load(f)
with open('data.json', 'r', encoding='utf-8') as f:
    data = json.load(f)