Pandas提取文本信息(身份证号码)

学校保卫处工作人员登记的内容不规范,想要提取其中的身份证号码,下面从文件读取及内容提取,到最后的数据保存,跟大家一起交流讨论。

表格内容:

登记内容时间
小明的身份证是990326197312200017,今天上交一块橡皮擦2020.1.6
身份证统计990321199605124617捡到五角钱上交2020.1.7
王小二同学990222197812280468把捡到的东西交到学校保卫处2020.1.8
张三342222198109080426今天交到保卫处一支铅笔2020.1.9
身份证号码87288219730527001X遗失书包一个2020.1.10
李四920382198304201699今天捡到钢笔一支2020.1.11

1.读取文件

import pandas as pd
data=pd.read_excel('./test.xlsx')
data.values

结果展示(Jupyter Notebook):

2.采用正则表达式获取身份证号码

import regex
import openpyxl
wb = openpyxl.Workbook()
sheet = wb.active
sheet.title ='身份证号码提取'
sheet['A1'] ='身份证号码'
filename = "./test.xlsx"
zj = pd.read_excel(filename,usecols = ['登记内容','时间'])
for item in zj.values:
    m1=regex.compile('\d{17}[X]')
    m2=regex.compile('\d{18}')
    m3=regex.compile('\d{17}[x]')
    zjh1=m1.findall(item[0])
    for hm1 in zjh1:
        sheet.append([hm1])
    zjh2=m2.findall(item[0])
    for hm2 in zjh2:
        sheet.append([hm2])
    zjh3=m3.findall(item[0])
    for hm3 in zjh3:
        sheet.append([hm3])
wb.save('身份证号码.xlsx')

3.结果展示(Jupyter Notebook)

可以看到身份证号码已提取,并保存再此目录下面的excel表里面。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dr.Petrichor

作者逐个题目分析的噢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值