学校保卫处工作人员登记的内容不规范,想要提取其中的身份证号码,下面从文件读取及内容提取,到最后的数据保存,跟大家一起交流讨论。
表格内容:
登记内容 | 时间 |
小明的身份证是990326197312200017,今天上交一块橡皮擦 | 2020.1.6 |
身份证统计990321199605124617捡到五角钱上交 | 2020.1.7 |
王小二同学990222197812280468把捡到的东西交到学校保卫处 | 2020.1.8 |
张三342222198109080426今天交到保卫处一支铅笔 | 2020.1.9 |
身份证号码87288219730527001X遗失书包一个 | 2020.1.10 |
李四920382198304201699今天捡到钢笔一支 | 2020.1.11 |
1.读取文件
import pandas as pd
data=pd.read_excel('./test.xlsx')
data.values
结果展示(Jupyter Notebook):
2.采用正则表达式获取身份证号码
import regex
import openpyxl
wb = openpyxl.Workbook()
sheet = wb.active
sheet.title ='身份证号码提取'
sheet['A1'] ='身份证号码'
filename = "./test.xlsx"
zj = pd.read_excel(filename,usecols = ['登记内容','时间'])
for item in zj.values:
m1=regex.compile('\d{17}[X]')
m2=regex.compile('\d{18}')
m3=regex.compile('\d{17}[x]')
zjh1=m1.findall(item[0])
for hm1 in zjh1:
sheet.append([hm1])
zjh2=m2.findall(item[0])
for hm2 in zjh2:
sheet.append([hm2])
zjh3=m3.findall(item[0])
for hm3 in zjh3:
sheet.append([hm3])
wb.save('身份证号码.xlsx')
3.结果展示(Jupyter Notebook)
可以看到身份证号码已提取,并保存再此目录下面的excel表里面。