详解python匹配问题

本文介绍了在数据匹配过程中如何处理脏数据,特别是针对QS大学排名数据集的匹配问题。从完全相等到编辑距离匹配,详细讲解了多种匹配方法,并强调了从精准到模糊的匹配顺序。此外,还讨论了正则化、包含匹配和人工匹配等策略,以及在实际应用中如何避免误匹配。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

脏数据匹配

一般数据建模步骤中,数据清洗耗时占比80%以上,因为现实中接触到的数据相当脏,无法直接简单的用pandas的merge函数解决。下面以QS大学排名的匹配为例,简单介绍脏数据匹配中会遇到的问题和主要步骤。

1 问题描述

给定一个QS大学排名数据集,主要字段为大学名和排名,再给定一个带大学名称的本地数据集,我们需要根据QS表中的名字与我们已有的数据集中的大学名字进行匹配,然后将对应的QS排名添加到本地数据集中。QS数据集和本地数据集形式如下图:

image.png

image.png

数据匹配的过程中,可能出现以下几个问题需要处理。

  • 格式:比如是否加标点符号,名称顺序不同等
  • 语言:不同国家的学校语言可能不同
  • 别名:新旧名或多个名字、缩写等等

2 一般步骤

对于较为规整的数据,可以尝试直接用pandas的merge函数进行匹配,效率往往也较高。但merge函数只能解决规范化的问题,则建议使用json类型转化为列表和字典的组合形式,虽然降低了数据处理的速度,但提供了更灵活的匹配与修改操作。(ps 建议熟练掌握pandas的常用数据处理函数,了解其规范化的处理方式以及使用限制,才能很快判断是否能用标准库处理。)

原则上,匹配的过程遵循从精准匹配到模糊匹配的顺序。 因为已经匹配的数据将不参与后续的匹配,而模糊匹配可能会出现错误,且后续无法纠正该错误,所以应该在前面步骤实在无法匹配成功的情况下使用模糊匹配。

2.1 数据导入

# 将csv转为json再导入
qs = pd.read_csv('2024 QS World University Rankings 1.1 (For qs.com).csv')
data = pd.read_csv('data.csv')

qs.to_json('QS_rank.json', orient='records')
data.to_json('data.json', orient='records')

with open('QS_rank.json', 'r', encoding='utf-8') as f:
    qs = json.load(f)
with open('data.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

2.2 匹配函数

left_on和right_on分别为左右合并键,func为判断是否匹配的函数,传入参数为要比较的两个字符串,返回是否匹配的bool值,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值