本文代码有效提取标准格式的PDF表格,比如,一页有三个五个这种样式。提取后文件按照页码和表格编号顺序命名保存,(扫描版PDF无法提取)

import pdfplumber
import pandas as pd
import openpyxl
with pdfplumber.open("4-51(工程).pdf") as pdf:
#first_page = pdf.pages
for i in range(len(pdf.pages)):
#for i in range(10):
try:
n=0
for table in pdf.pages[i].extract_tables():
n+=1
#得到的table是嵌套list类型,转化成DataFrame更加方便查看和分析
df = pd.DataFrame(table[1:], columns=table[0])
print(df)
df.to_excel(str(i+1)+'页'+str(n)+ '号表格.xlsx')
#df.to_excel('工程.xlsx', sheet_name=str(i))
except Exception as e:
print('此页无表')
重点复习pdfplumber的表格提取功能,非常好用。
重点复习pdfplumber的表格提取功能,非常好用。
该博客展示了如何利用python的pdfplumber库从标准格式的PDF中提取表格,并将它们转换为Excel文件保存。代码逐页遍历PDF,对每页的表格进行提取并保存为单独的Excel文件,但不适用于扫描版PDF。博客强调了pdfplumber在处理表格提取上的实用性。
1220

被折叠的 条评论
为什么被折叠?



