提取PDF每一页,所有表格,并按页码命名保存

该博客展示了如何利用python的pdfplumber库从标准格式的PDF中提取表格,并将它们转换为Excel文件保存。代码逐页遍历PDF,对每页的表格进行提取并保存为单独的Excel文件,但不适用于扫描版PDF。博客强调了pdfplumber在处理表格提取上的实用性。

本文代码有效提取标准格式的PDF表格,比如,一页有三个五个这种样式。提取后文件按照页码和表格编号顺序命名保存,(扫描版PDF无法提取)
在这里插入图片描述

import pdfplumber
import pandas as pd
import openpyxl


with pdfplumber.open("4-51(工程).pdf") as pdf:
    #first_page = pdf.pages
   
    for i in range(len(pdf.pages)):
    #for i in range(10):    
        try:
            n=0
        
            for table in pdf.pages[i].extract_tables():
                n+=1
                #得到的table是嵌套list类型,转化成DataFrame更加方便查看和分析 
                df = pd.DataFrame(table[1:], columns=table[0])
                print(df)              
            
                df.to_excel(str(i+1)+'页'+str(n)+ '号表格.xlsx')
                    
                    

                #df.to_excel('工程.xlsx', sheet_name=str(i))
        except Exception as e:
            print('此页无表')


重点复习pdfplumber的表格提取功能,非常好用。
重点复习pdfplumber的表格提取功能,非常好用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

搬码工琪老师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值