问题描述:有一批pdf和word文件,想把里面所有的表格取出放置在excel中,并最终将这些表格放置在mysql数据库中。
刚开始的时候,就是纯手动操作,实在让人太难受了,首先把PDF文件在word中打开,然后手动复制表格到excel中,原表格中存在多级标题栏,因为要入库,所以还要把标题栏修改成一栏,至于上传到数据库,就更麻烦了,刚开始使用导入向导,效率相当低下,后来实在太慢无趣就想到编程解决问题。
首先是将word里的表格提取至excel(PDF可以转化为docx),这里使用python,本来在网上查到的资料大部分是VB的,结果我发现使用python更加简单,又感叹了一声万能的python。使用python 安装docx和openpyxl两个库,一个操作word文档,一个操作excel,都非常简单易用,直接上代码吧。
import docx
import openpyxl
name = 'xxx'
doc = docx.Document(name + ".docx") #打开word文档
wb = openpyxl.Workbook() #新建一个excel工作簿(注意区分工作簿和工作表)
for index, table in enumerate(doc.tables, start =1):
ws = wb.create_sheet('sheet{}'.format(index)) #对每一个表格新建一个工作表
for row in table.rows:
values = l