【数据分析】:表格单元格内容为列表的pandas读取和处理

本文讲述了作者在数据分析中遇到的问题,如何使用正则表达式从表格中提取身份证号,并将其转换为列表进行多列比对。作者提供了两种方法:一种是使用`values.tolist()`将DataFrame列转换为列表,另一种是逐行读取并利用集合进行比对,同时保存匹配元素的行索引。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在分析一个表格,需要提取某一列里的身份证号,再与库进行比对。

使用的正则表达式提取,问题是提取后生成的是多个身份证号,单元格的内容变成了列表方式。

df['身份证号']=df['A'].str.findall(r'\d{17}[\dXx]')

因此,这时候找到一个方法:用value_tolist列表转元素。

df2 = pd.DataFrame(df['身份证号'].values.tolist())

比对的时候就可以多列循环进行比对了。

            for j in range(len(df2.columns)):
                result = df2[j].notna() & df2[j].isin(df3["要比对的列"])

更简单的方式是循环读取行,然后列表里元素转成集合,但是这样的话就会无法确定比对出来的元素在哪一行。所以用这样的方式配合index就可以找到所在的位置并输出。

index = df2[df2[j].notna() & df2[j].isin(df3["要比对的列'])].index

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值